Scrapy进阶-命令行的工作原理(以runspider为例)

官方教程说当你写好自己的spiders如douban之后,你可以通过scrapy runspider/crawl douban启动你的爬虫。于是一开始的时候你就知道通过这个命令行来启动爬虫,但是你有没有想过当你敲下这行命令后,scrapy到底做了什么呢?

命令入口:cmdline.py

当你运行 scrapy command arg 这样的命令时,这里的 scrapy 实质是一个 python 脚本,它接受参数,首先调用 scrapy/cmdline.py 中的 execute() 函数.

execute() 函数在 scrapy 安装目录下的 cmdline.py 文件中.而cmdline.py定义以下几个函数:

iter_command_classes(module_name) 
get_commands_from_module(module, inproject) 
get_commands_from_entry_points(inproject, group='scrapy.commands')
get_commands_dict(settings, inproject)
_pop_command_name(argv)
print_header(settings, inproject)
print_commands(settings, inproject)
print_unknown_command(settings, cmdname, inproject)
run_print_help(parser, func, *a, **kw)
_run_command(cmd, args, opts)
_run_command_profiled(cmd, args, opts)
execute(argv=None, settings=None)

这些函数顾名思义,不做太多介绍。其中最重要的是execute,为啥呢?

if __name__ == '__main__':
    execute()

因为上面代码告诉我们只有它能自启动,所以我们要详尽的了解它,因此就要读代码了。

def execute(argv=None, settings=None):
# 获取变量
    if argv is None:
        argv = sys.argv
# 获取配置(settings)
    if settings is None:
        settings = get_project_settings()
    check_deprecated_settings(settings)

    inproject = inside_project() #判断是否在项目中,因为可用命令不同
    cmds = _get_commands_dict(settings, inproject) #scrapy.commands中获取命令集
    cmdname = _pop_command_name(argv) #获取输入的命令
    parser = optparse.OptionParser(formatter=optparse.TitledHelpFormatter(), \
        conflict_handler='resolve') #获取附加选项
        # 根据输入的指令提供不同的结果
    if not cmdname:
        _print_commands(settings, inproject)
        sys.exit(0)
    elif cmdname not in cmds:
        _print_unknown_command(settings, cmdname, inproject)
        sys.exit(2)
    # 下面几行代码针对输入合适的指令如genspider crawl....
    # 解析命令行参数(cmds:为相应的Scrapy Command对象列表)
    cmd = cmds[cmdname]
    parser.usage = "scrapy %s %s" % (cmdname, cmd.syntax())
    parser.description = cmd.long_desc()
    settings.setdict(cmd.default_settings, priority='command')
    cmd.settings = settings
    cmd.add_options(parser)
    opts, args = parser.parse_args(args=argv[1:])
    _run_print_help(parser, cmd.process_options, args, opts)
    # 设定用于启动爬取CrawlerProcess的配置
    cmd.crawler_process = CrawlerProcess(settings)
    _run_print_help(parser, _run_command, cmd, args, opts)
    sys.exit(cmd.exitcode)

作为整个程序的入口,其主要做的事情是解析用户爬虫的配置属性,根据传递的命令行参数,调用对应的代码来执行相应的任务.


scrapy command arg 中 command 可以为 crawl / startproject / genspider / runspider / deploy / …等命令,每一个命令在 scrapy/commands 文件夹下都有对应 command类.


对于 scrapy runsspider test ,就会调用 commands/runspider.py 中的方法去执行相应的爬虫任务.

调度者:runspider.py

runspider.py定义了一个函数_import_file从我们的爬虫中查找所有的依赖包,定义了一个Command类(继承ScrapyCommand)。
Command中最重要的功能是run,他用spclasses = list(iter_spider_classes(module))判断输入的爬虫是否存在。

    self.crawler_process.crawl(spidercls, **opts.spargs)
    self.crawler_process.start()

随后用crawler_process(即实例化的CrawlerProcess)调用crawler.py的CrawlerProcess。crawler是Scrapy核心的API,所以需要仔细介绍。

核心API: crawler.py

事实上我们并不一定需要通过命令行的方式运行scrapy的爬虫,完全可以通过API从脚本中运行Scrapy。CrawlerProcess可以为你自启动一个Twisted反应子,配置logging信息、设置脚本关闭处理程序,
我们先来解读self.crawler_process.crawl(spidercls, **opts.spargs)中的crawl。流程如下

  1. crawler = self.create_crawler(crawler_or_spidercls)

  2. create_crawler return self._create_crawler(crawler_or_spidercls)

  3. _create_crawler return Crawler(spidercls, self.settings)spidercls = self.spider_loader.load(spidercls)

  4. spider_loader = _get_spider_loader(settings)

  5. .... 读不下去了

  6. CrawlerRunner.crawl return self._crawl(crawler, *args, **kwargs)

  7. _crawl crawler.crawl(*args, **kwargs)

  8. crawler.crawl
    @defer.inlineCallbacks
    def crawl(self, *args, **kwargs):
    assert not self.crawling, "Crawling already taking place"
    self.crawling = True

         try:
             self.spider = self._create_spider(*args, **kwargs)
             self.engine = self._create_engine()
             start_requests = iter(self.spider.start_requests())
             yield self.engine.open_spider(self.spider, start_requests)
             yield defer.maybeDeferred(self.engine.start)
    

本来我是打算一行一行讲解代码的,但是工作量太大,也很难表述清楚,我还是直接说明他的作用吧:
用指定的参数运行爬虫,最后从spider.start_requests()开启新的征途。


结论:
因此当我们执行scrapy runspider SpiderName的时候,Scrapy其实以以下顺序直到启动我们的爬虫。
scrapy/cmdline.py -> scrapy/commands/runspider.py -> scrapy/crawler.py -> 从我们的爬虫的start_requests开始下一步。


这个代码读的我好晕,但是至少我知道了start_requests是我们运行爬虫的关键。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 204,445评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,889评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 151,047评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,760评论 1 276
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,745评论 5 367
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,638评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,011评论 3 398
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,669评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,923评论 1 299
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,655评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,740评论 1 330
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,406评论 4 320
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,995评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,961评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,197评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,023评论 2 350
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,483评论 2 342

推荐阅读更多精彩内容

  • scrapy学习笔记(有示例版) 我的博客 scrapy学习笔记1.使用scrapy1.1创建工程1.2创建爬虫模...
    陈思煜阅读 12,653评论 4 46
  • 引言 在上篇使用Scrapy爬取知乎用户信息我们编写了一个单机的爬虫,这篇记录了使用Scrapy-Redis将其重...
    朱晓飞阅读 6,674评论 1 24
  • 写在前面的话,我这个人虚荣心强 1.scrapy 的安装 1.scrapy 依赖的包太多,所以我建议使用anaco...
    不要让用户想昵称阅读 827评论 0 3
  • 1.Scrapy的命令行命令 创建一个Scrapy工程终端输入: PyCharm 下直接运行 ScrapyScra...
    EnjoyWT阅读 3,130评论 0 1
  • 抬头看天 像平静的水面 青波宁谧 无漪无涟 几片暮云 是静泊的小船 小船悠悠 乘载着几多梦幻 华灯渐醒 夕阳恨晚 ...
    耘心阅读 145评论 0 0