startproject
- 语法:
scrapy startproject <project_name> [project_dir]
需要项目: 否
说明: 创建一个新项目,如果没有指定 project_dir ,将会在当前路径创建。
例子:
$ scrapy startproject myproject
genspider
- 语法:
scrapy genspider [-t template] <name> <domain>
需要项目: 否
说明: 在当前文件夹或当前项目的 spiders 文件夹创建一个新爬虫,如果是在项目中使用该命令。 <name> 参数设置为 spider 的名称,而 <domain> 用于生成 allowed_domains 和 start_urls 属性。
例子:
# 创建爬取 "example.com",名为:example 的爬虫
$ scrapy genspider example example.com
# 创建爬取 "scrapy.org",名为:scrapyorg,使用模板为 crawl 的爬虫
$ scrapy genspider -t crawl scrapyorg scrapy.org
可用的模板:
basic
crawl
csvfeed
xmlfeed
crawl
- 语法:
scrapy crawl <spider>
需要项目: 是
说明: 启动指定的爬虫开始爬取
例子:
$ scrapy crawl myspider
check
待补充
list
- 语法:
scrapy list
需要项目: 是
说明: 列出项目所有爬虫
例子:
$ scrapy list
spider1
spider2
edit
待补充
fetch
- 语法:
scrapy fetch <url>
需要项目: 否
说明: 打开网页,并返回网页的 html 代码,如果在项目内使用,会使用我们编写的爬虫的设置,如果在项目外使用,则使用 Scrapy 默认的下载器。
可选项:
--spider=SPIDER:使用指定爬虫加载网页
--headers:只显示网页 header 信息
--no-redirect:不遵循HTTP 3xx重定向
- 例子:
$ scrapy fetch --nolog http://www.example.com/some/page.html
[ ... html content here ... ]
$ scrapy fetch --nolog --headers http://www.example.com/
{'Accept-Ranges': ['bytes'],
view
- 语法:
scrapy view <url>
需要项目: 否
说明: 在浏览器打开网页
shell
- 语法:
scrapy shell [url]
需要项目: 否
说明: 进入 shell 模型,可以不给定 url。
parse
- 语法:
scrapy parse <url> [options]
需要项目: 是
说明: 加载并解释指定的 url,用
--callback
(或简写为:-c
)指定相应的爬虫。例子:
$ scrapy parse http://www.example.com/ -c parse_item
settings
- 语法:
scrapy parse <url> [options]
需要项目: 否
说明: 获取设定值
例子:
$ scrapy settings --get BOT_NAME
scrapybot
$ scrapy settings --get DOWNLOAD_DELAY
0