上一节,我们创建了一个scrapy项目,下面剪短的介绍一下scrapy的结构,并着手编写一个小爬虫!
小爬虫:http://python.jobbole.com/category/guide/的所有分页里面带"爬虫"的系列文章
先来说说scrapy项目的目录结构啦,直接上图:
我的项目名是bolecategory,下面的文件一一介绍一下:
spiders文件夹:这个是专门写爬虫主类的文件夹
categoryspider.py文件就是主要的爬虫类
items.py文件是一个简单的容器,专门用来保存了爬取到得数据,类似我们的实体
middlewares.py文件目前没用到
pipelinies.py文件是对爬取的Item做处理的,比如保存到数据库之类的
settings.py是一系列的配置信息,比如目前使用哪个pipelines啊,默认请求头啊之类的
好了,剪短介绍完毕,下面开始编写我们的爬虫吧!
首先通过页面分析,查找我们要爬取的目标位置:
页面清晰,就是一个a标签,class属性为archive-title。
categoryspider.py文件编写爬虫类categoryspider继承scrapy.spider,主要逻辑如下:
好了,下一页轮训调用parse方法,并且只对包含"爬虫"字符串的标题进行爬取,拿到数据后,对数据进行保存吧,保存写到pipelines.py中,代码如下:
最终使用命令执行爬虫:scrapy runspider bolecategory/spiders/categoryspider.py
查看数据库运行结果:
好了,爬虫结束!