一、安装
首先Python、lxml、OpenSSL这些工具Ubuntu是自带的,不用管它们。
其次安装pip,在命令行中执行以下命令:
sudo apt-get install python-pip
然后安装两个安装Scrapy需要的依赖库,在命令行中分别执行以下三条命令:
sudo apt-get install python-dev
sudo apt-get install libevent-dev
sudo apt-get install libssl-dev #在阿里云上配置的时候发现还要安这个
最后安装Scrapy,在命令行中执行以下命令:
sudo pip install scrapy
然后我们的最新版Scrapy就安装好了,可以执行下列命令查看版本号:
scrapy version
二、框架介绍
参考:http://blog.csdn.net/wbainngg123/article/details/77696634
scrapy由下面几个部分组成
spiders
:爬虫模块,负责配置需要爬取的数据和爬取规则,以及解析结构化数据
items
:定义我们需要的结构化数据,使用相当于dict
pipelines
:管道模块,处理spider模块分析好的结构化数据,如保存入库等
middlewares
:中间件,相当于钩子,可以对爬取前后做预处理,如修改请求header,url过滤等
三、爬虫实践
1、爬取京东商品介绍等详细信息 (存储到Excel中)
2、爬取淘宝天猫商品信息
3、爬取豆瓣书籍信息
这里爬取的结果分别存到mysql或者Excel中;
代码附在GitHub上: