接着之前的文章(http://blog.csdn.net/androidworkor/article/details/51171098)来分析Scrapy的目录结构
项目目录结构
打开之前的指定的文件目录(F:\WorkSpace\python\Hello)完整的目录结构如下:
Hello/
scrapy.cfg
Hello/
__init__.py
items.py
pipelines.py
settings.py
spiders/
__init__.py
...
这些文件分别是:
- scrapy.cfg: 项目的配置文件
- Hello/: 该项目的python模块。之后您将在此加入代码。
- Hello/items.py: 项目中的item文件.
- Hello/pipelines.py: 项目中的pipelines文件.
- Hello/settings.py: 项目的设置文件.
- Hello/spiders/: 放置spider代码的目录.
定义Item
Item 是保存爬取到的数据的容器;其使用方法和python字典类似, 并且提供了额外保护机制来避免拼写错误导致的未定义字段错误。我们来看一个例子
这里就有用户图标、用户名称、内容、好笑和评论这5个属性那么item就可以这么定义了,打开items.py文件
# -*- coding: utf-8 -*-
# Define here the models for your scraped items
#
# See documentation in:
# http://doc.scrapy.org/en/latest/topics/items.html
import scrapy
class HelloItem(scrapy.Item):
# define the fields for your item here like:
userIcon = scrapy.Field()
userName = scrapy.Field()
content = scrapy.Field()
like = scrapy.Field()
comment = scrapy.Field()
编写第一个爬虫(Spider)
Spider是用户编写用于从单个网站(或者一些网站)爬取数据的类。
其包含了一个用于下载的初始URL,如何跟进网页中的链接以及如何分析页面中的内容, 提取生成 item 的方法。
为了创建一个Spider,您必须继承 scrapy.Spider 类, 且定义以下三个属性:
name: 用于区别Spider。 该名字必须是唯一的,您不可以为不同的Spider设定相同的名字。
start_urls: 包含了Spider在启动时进行爬取的url列表。 因此,第一个被获取到的页面将是其中之一。 后续的URL则从初始的URL获取到的数据中提取。
parse() 是spider的一个方法。 被调用时,每个初始URL完成下载后生成的 Response 对象将会作为唯一的参数传递给该函数。 该方法负责解析返回的数据(response data),提取数据(生成item)以及生成需要进一步处理的URL的 Request 对象。
以下为我们的第一个Spider代码,保存在 Hello/spiders 目录下的 spider_qiushibaike.py 文件中:
# -*- coding: utf-8 -*-
import scrapy
from Hello.items import HelloItem
class Spider_qiushibaike(scrapy.Spider):
name = "qiubai"
start_urls = [
'http://www.qiushibaike.com'
]
def parse(self, response):
for item in response.xpath('//div[@id="content-left"]/div[@class="article block untagged mb15"]'):
qiubai = HelloItem()
icon = item.xpath('./div[@class="author clearfix"]/a[1]/img/@src').extract()
if icon:
icon = icon[0]
qiubai['userIcon'] = icon
userName = item.xpath('./div[@class="author clearfix"]/a[2]/h2/text()').extract()
if userName:
userName = userName[0]
qiubai['userName'] = userName
content = item.xpath('./div[@class="content"]/descendant::text()').extract()
if content:
con = ''
for str in content:
con += str
qiubai['content'] = con
like = item.xpath('./div[@class="stats"]/span[@class="stats-vote"]/i/text()').extract()
if like:
like = like[0]
qiubai['like'] = like
comment = item.xpath('./div[@class="stats"]/span[@class="stats-comments"]/a/i/text()').extract()
if comment:
comment = comment[0]
qiubai['comment'] = comment
yield qiubai
爬取
进入项目的根目录,执行下列命令启动spider:
scrapy crawl qiubai
crawl qiubai 启动用于爬取 http://www.qiushibaike.com 的spider,您将得到类似的输出:
当然你想保存到文件也是可以的,执行下列命令启动spider:
scrapy crawl qiubai -o items.json
这里保存为json格式,当然你也可以保存成其他格式。执行的结果:
解析
# -*- coding: utf-8 -*-
这个是指定文件为utf-8格式
import scrapy
from Hello.items import HelloItem
这个是导包
class Spider_qiushibaike(scrapy.Spider):
这个是定义一个类并继承自scrapy.Spider
name = "qiubai"
这个是指定spider的名称,该名字必须是唯一的,以区别不同的spider
start_urls = [
'http://www.qiushibaike.com'
]
这个是指定要爬的网站
def parse(self, response):
这个是默认执行的方法,只要打开了上面设置的start_urls的网站就会调用这个方法,在这个方法中就可以解析数据了,其中response是抓取的网站的整个html内容。
for item in response.xpath('//div[@id="content-left"]/div[@class="article block untagged mb15"]'):
这句话就是遍历每项的内容,如下图所示:
至于如何查看页面的源码就是在浏览器中按f12,就可以看到如上图所示的效果了。
qiubai = HelloItem()
定义一个item并初始化,这个就是之前定义的item,注: 所有之前必须先导入这个类
from Hello.items import HelloItem
icon = item.xpath('./div[@class="author clearfix"]/a[1]/img/@src').extract()
if icon:
icon = icon[0]
qiubai['userIcon'] = icon
这几行代码就是获取用户的图像,xpath的规则和写法可以参考http://scrapy-chs.readthedocs.org/zh_CN/latest/topics/selectors.html#topics-selectors-relative-xpaths大家一看就了解。
userName = item.xpath('./div[@class="author clearfix"]/a[2]/h2/text()').extract()
if userName:
userName = userName[0]
qiubai['userName'] = userName
这几行是获取用户名称
注意
如果执行spider没结果并出现如下图所示的提示:
一般是因为你没设定USER_AGENT,你可以打开文件目录中的settings.py添加一行代码
USER_AGENT = 'Mozilla/5.0 (Windows NT 6.1; WOW64; rv:41.0) Gecko/20100101 Firefox/41.0'
至于值你可以设置成其他的。
如果获取的文字内容不全,如下如所示:
在页面文字中含有其他标签的,直接这样写
content = item.xpath('./div[@class="content"]/text()').extract()
这样获取到的文字只能获取前面一半的文字(在公园玩手机,看到一个车祸视频,我连忙拍着胸口说: 吓死宝宝了。)你可以改成:
content = item.xpath('./div[@class="content"]/descendant::text()').extract()
这样获取到全部的文字信息了。