scrapy基本介绍
scrapy VS requests
Mac安装 conda install scrapy
conda 是Anaconda 提供一个管理工具
安装后测试scrapy -h
scrapy框架分7个部分
“5+2”结构:ITEM PIPELINES,SPIDERS,ENGINE,SCHEDULER,DOWNLOADER,另外在SPIDERS和ENGINE、ENGINE和DOWNLOADER两个中间键模块MIDDLEWARE
Downkoader Middleware用户可以编写配置代码
目的:实施Engine、Scheduler和Downloader之间进行用户可配置的控制
功能:修改、丢弃、新增请求或响应
Spider(核心单元)
1.解析Downkoader返回的响应(Response)
2.产生爬取项(scraped item)
3.产生额外的爬取请求
Item Pipelines
1.以流水线方式处理Spider产生的爬取项
2.由一组操作顺序组成,类似流水线,每个操作是一个Item Pipelines
类型
3.可能操作包括:清理、检验和查重爬取项中的HTML数据、将数据存储到数据库
Scrapy常用命令
格式:>scrapy<command>[options][args]
创建一个新工程
scrapy startproject <name> [dir]
创建一个爬虫
scrapy genspider [options] <name> [domain]
获取爬虫配置信息
scrapy settings [options]
运行一个爬虫
scrapy crawl [spider]
列出工程中所有爬虫
scrapy list
启动URL调试命令行
scrapy shell [url]
Scrapy初探
1.创建一个工程
scrapy startproject name (name:工程名字)
2.在工程中产生一个scrapy爬虫
scrapy genspider demo name.io (demo:主要编辑python文件的名字)
3.配置产生的spider爬虫
找到上边创建的demo.py的文件,打开,配置
4.运行爬虫,获取网页
scrapy crawl demo (demo:主要编辑python文件的名字)
Scrapy使用步骤:(未完待续)
1.创建一个工程和spider模版
2.编写spider
3.编写item pipeline
4.优化配置策略