Scrapy1.4最新官方文档总结 3 命令行工具

这是官方文档的命令行工具https://docs.scrapy.org/en/latest/topics/commands.html

配置设置

Scrapy 默认在 scrapy.cfg 文件中查找配置参数：

系统范围：/etc/scrapy.cfg 或 c:\scrapy\scrapy.cfg
用户范围：~/.config/scrapy.cfg ($XDG_CONFIG_HOME) 和 ~/.scrapy.cfg ($HOME)
项目内范围：scrapy.cfg

项目范围的设置将覆盖所有其他文件的设置，用户范围内定义的设置的覆盖系统范围内的设置。
Scrapy 也可以接受来自环境变量的配置。目前有：

SCRAPY_SETTINGS_MODULE (见 Designating the settings)
SCRAPY_PROJECT
SCRAPY_PYTHON_SHELL (见 Scrapy shell)

使用 scrapy 工具

在没有参数的情况下直接运行 scrapy 命令将得到一些使用帮助和可用的命令，如下所示：

在之前tutorial下面运行，第一行将打印出当前项目的名称：

创建项目

scrapy startproject myproject [project_dir]

这将在 project_dir 目录下创建一个 Scrapy 项目。如果没有指定 project_dir，将会在与 myproject 同名的目录中创建项目（如果没有则创建它）。

进入新建项目的根目录：

cd project_dir

管理项目

新建爬虫：

scrapy genspider mydomain mydomain.com

Scrapy 的可用命令

查看某个命令的帮助：

scrapy <command> -h

查看所有可用的命令：

scrapy -h

命令分为两类，全局命令：
startproject
genspider
settings
runspider
shell
fetch
view
version

项目命令：
crawl
check
list
edit
parse
bench

startproject

scrapy startproject myproject

genspider

scrapy genspider [-t template] <name> <domain>

在当前文件夹或当前项目的 spiders 文件夹中新建一个爬虫。如果在项目中使用此命令。 <name> 参数为爬虫的名称，<domain> 用于生成 allowed_domains 和 start_urls spider 的属性。

示例（template：模板）：

$ scrapy genspider -l
Available templates:
  basic
  crawl
  csvfeed
  xmlfeed

$ scrapy genspider example example.com
Created spider 'example' using template 'basic'

$ scrapy genspider -t crawl scrapyorg scrapy.org
Created spider 'scrapyorg' using template 'crawl'

crawl

语法：scrapy crawl <spider>
必须在项目内使用。
启动爬虫。

示例：

$ scrapy crawl myspider
[ ... myspider starts crawling ... ]

check

语法：scrapy check [-l] <spider>
必须在项目内使用：是

协议（contract）检查。
示例：

$ scrapy check -l
first_spider
  * parse
  * parse_item
second_spider
  * parse
  * parse_item

$ scrapy check
[FAILED] first_spider:parse_item
>>> 'RetailPricex' field is missing

[FAILED] first_spider:parse
>>> Returned 92 requests, expected 0..4

list

语法：scrapy list
必须在项目内使用：是
列出项目中所有可用爬虫。

示例：

$ scrapy list
spider1
spider2

edit

语法：scrapy edit <spider>
必须在项目内使用：是
使用EDITOR环境变量或设置中定义的编辑器编辑爬虫。

该命令仅作为一种快捷方式提供，开发人员可以自由选择工具或IDE来编写和调试爬虫。

示例：

$ scrapy edit spider1

fetch

语法：scrapy fetch <url>
必须在项目内使用：否
使用 Scrapy 下载器下载给定的 URL，并将内容输出到标准输出流。

这个命令的有趣之处在于它会使用爬虫定义的方式下载页面。例如，如果爬虫具有 USER_AGENT 属性覆盖了 User Agent，那么命令将使用爬虫里的属性。

所以这个命令可以用来查看爬虫如何获取某个页面。

在项目之外使用时只会使用默认的 Scrapy 下载器设置。

支持的选项：

--spider = SPIDER：强制使用给定的爬虫
--headers：打印 HTTP 响应头
--no-redirect：禁用 HTTP 3xx 重定向（默认启用）

示例：

$ scrapy fetch --nolog http://www.example.com/some/page.html
[ ... html content here ... ]

$ scrapy fetch --nolog --headers http://www.example.com/
{'Accept-Ranges': ['bytes'],
 'Age': ['1263   '],
 'Connection': ['close     '],
 'Content-Length': ['596'],
 'Content-Type': ['text/html; charset=UTF-8'],
 'Date': ['Wed, 18 Aug 2010 23:59:46 GMT'],
 'Etag': ['"573c1-254-48c9c87349680"'],
 'Last-Modified': ['Fri, 30 Jul 2010 15:30:18 GMT'],
 'Server': ['Apache/2.2.3 (CentOS)']}

view

语法：scrapy view <url>
必须在项目内使用：否
以 Scrapy 爬虫所“看到”的样子在浏览器中打开给定的URL。用来查看爬虫所“看到”的样子是否是你所期望的，因为两者有可能不同。

支持的选项：

--spider = SPIDER：强制使用给定的爬虫
--no-redirect：禁用 HTTP 3xx 重定向（默认启用）
示例：

$ scrapy view http://www.example.com/some/page.html
[ ... browser starts ... ]

shell

语法：scrapy shell [url]
必须在项目内使用：否
以给定的 URL（如果给定）启动 Scrapy shell。支持 UNIX 风格的本地文件路径，包括相对路径（./ 或 ../）和绝对路径。请参阅 Scrapy shell 了解更多信息。

支持的选项：

--spider = SPIDER：强制使用给定的爬虫
-c code：在 shell 中执行代码，打印结果并退出
--no-redirect：禁用 HTTP 3xx 重定向（默认启用）; 这只会影响您在命令行参数中给定的 URL;，一旦你进入到 shell 中，fetch(url) 将默认启用 HTTP 重定向。
示例：

$ scrapy shell http://www.example.com/some/page.html
[ ... scrapy shell starts ... ]

$ scrapy shell --nolog http://www.example.com/ -c '(response.status, response.url)'
(200, 'http://www.example.com/')

# 默认启用重定向
$ scrapy shell --nolog http://httpbin.org/redirect-to?url=http%3A%2F%2Fexample.com%2F -c '(response.status, response.url)'
(200, 'http://example.com/')

# 你可以通过 --no-redirect 禁用重定向
# (只作用于命令行参数中的 URL)
$ scrapy shell --no-redirect --nolog http://httpbin.org/redirect-to?url=http%3A%2F%2Fexample.com%2F -c '(response.status, response.url)'
(302, 'http://httpbin.org/redirect-to?url=http%3A%2F%2Fexample.com%2F')

parse

语法：scrapy parse <url> [options]
必须在项目内使用：是
获取给定的 URL 并使用爬虫处理它的方式解析它，使用 --callback 选项传递解析方法，默认使用 parse 方法。

支持的选项：

--spider = SPIDER：强制使用给定的爬虫
--a NAME = VALUE：设置爬虫参数（可能会重复）
--callback 或 -c：解析响应对象的回调方法
--piplines：通过管道处理项
--rules 或 -r：使用 CrawlSpider 规则查找用于解析响应对象的回调方法
--noitems：不显示抓取到的项
--nolinks：不显示提取的链接
--nocolour：避免使用pygments对输出着色
--depth 或 -d：递归爬取的深度（默认值：1）
--verbose 或 -v：显示爬取每一层的信息

示例：

$ scrapy parse http://www.example.com/ -c parse_item
[ ... scrapy log lines crawling example.com spider ... ]

>>> STATUS DEPTH LEVEL 1 <<<
# Scraped Items  ------------------------------------------------------------
[{'name': u'Example item',
 'category': u'Furniture',
 'length': u'12 cm'}]

# Requests  -----------------------------------------------------------------
[]

settings

语法：scrapy settings [options]
必须在项目内使用：否
获取 Scrapy 设置。

如果在项目中使用它将显示项目的设置值，否则将显示 Scrapy 默认的设置。

示例：

$ scrapy settings --get BOT_NAME
scrapybot
$ scrapy settings --get DOWNLOAD_DELAY
0

runspider

语法：scrapy runspider <spider_file.py>
必须在项目内使用：否
运行一个独立的爬虫 Python 文件，无需创建一个项目。

示例：

$ scrapy runspider myspider.py
[ ... spider starts crawling ... ]

version

语法：scrapy version [-v]
必须在项目内使用：否

打印 Scrapy 版本。使用 -v 时还会打印出 Python，Twisted 和 Platform 的信息，这对错误报告很有用。

bench

语法：scrapy bench
必须在项目内使用：否

运行 benchmark 测试。

自定义命令

您还可以使用 COMMANDS_MODULE 设置添加自定义项目命令。有关如何实现命令的示例，请参阅 scrapy commands。

COMMANDS_MODULE

默认值：''（空字符串）
用于查找自定义 Scrapy 命令的模块。用于为您的 Scrapy 项目添加自定义命令。
例：

COMMANDS_MODULE = 'mybot.commands'

通过 setup.py 的 entry points 注册命令

注意：这是一个实验性功能，请谨慎使用。

您还可以在 setup.py 文件的 entry point 中添加 scrapy.commands，从外部库添加 Scrapy 命令。

以下示例添加了 my_command 命令：

from setuptools import setup, find_packages

setup(name='scrapy-mymodule',
  entry_points={
    'scrapy.commands': [
      'my_command=my_scrapy_module.commands:MyCommand',
    ],
  },
 )

最后编辑于：2017.12.10 23:42:44

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 206,214评论 6赞 481
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 88,307评论 2赞 382
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 152,543评论 0赞 341
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 55,221评论 1赞 279
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 64,224评论 5赞 371
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 49,007评论 1赞 284
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 38,313评论 3赞 399
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,956评论 0赞 259
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 43,441评论 1赞 300
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,925评论 2赞 323
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 38,018评论 1赞 333
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,685评论 4赞 322
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 39,234评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 30,240评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,464评论 1赞 261
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 45,467评论 2赞 352
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,762评论 2赞 345

Scrapy1.4最新官方文档总结 3 命令行工具

配置设置

使用 scrapy 工具

创建项目

管理项目

Scrapy 的可用命令

startproject

genspider

crawl

check

list

edit

fetch

view

shell

parse

settings

runspider

version

bench

自定义命令

COMMANDS_MODULE

通过 setup.py 的 entry points 注册命令

推荐阅读更多精彩内容