scrapy作为爬虫界的扛把子,功能强大自不用说,还有支持分布式,平时我们在使用的时候总是开箱即用,没有细细去研究其中的各种细节,今天我们来仔细剖析一下,scrapy是如何工作的。在开始撸代码之前我们先熟悉一下scrpay的命令。
scrapy startproject 创建一个空白的scrapy工程
scrapy genspider 通过模版生成具体的爬虫
scrapy fetch URL 通过内置的爬虫将给定URL的内容下载并打开
scrapy view URL 将给定URL的内容下载到本地并通过浏览器打开下载的内容
scrapy runspider 执行已经定义好的爬虫
scrapy bench 测试运行效率
scrapy shell URL 创建一个可以进行调试的交互控制台可以对需要爬取的url进行调试
scrapy工程创建完成以后需要定制属于自己的项目,那么对于具体的项目scrapy也提供了相应的命令工具下面我们具体分析以下
scrapy crawl xxxspider 启动运行爬虫
scrapy check xxxspider 对项目进行检查是否存在错误
scrapy list 列出所有的爬虫
scrapy edit xxxspider 对爬虫进行修改编辑
scrapy parse URL 获取给定的URL使用相应的spider分析处理
scrapy deploy 将spider进行部署
爬虫scrapy体验
©著作权归作者所有,转载或内容合作请联系作者
- 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
- 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
- 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
推荐阅读更多精彩内容
- Python版本管理:pyenv和pyenv-virtualenvScrapy爬虫入门教程一 安装和基本使用Scr...
- Android Studio比Eclipse ADT有巨大的优势。 Android Studio原生支持使用Gra...