Scrapy入门教程之爬糗事百科

接着之前的文章（http://blog.csdn.net/androidworkor/article/details/51171098）来分析Scrapy的目录结构

项目目录结构

打开之前的指定的文件目录（F:\WorkSpace\python\Hello)完整的目录结构如下：

Hello/
    scrapy.cfg
    Hello/
        __init__.py
        items.py
        pipelines.py
        settings.py
        spiders/
            __init__.py
            ...

这些文件分别是:

scrapy.cfg: 项目的配置文件
Hello/: 该项目的python模块。之后您将在此加入代码。
Hello/items.py: 项目中的item文件.
Hello/pipelines.py: 项目中的pipelines文件.
Hello/settings.py: 项目的设置文件.
Hello/spiders/: 放置spider代码的目录.

定义Item

Item 是保存爬取到的数据的容器;其使用方法和python字典类似，并且提供了额外保护机制来避免拼写错误导致的未定义字段错误。我们来看一个例子

这里就有用户图标、用户名称、内容、好笑和评论这5个属性那么item就可以这么定义了，打开items.py文件

# -*- coding: utf-8 -*-

# Define here the models for your scraped items
#
# See documentation in:
# http://doc.scrapy.org/en/latest/topics/items.html

import scrapy

class HelloItem(scrapy.Item):
       # define the fields for your item here like:
    userIcon = scrapy.Field()
    userName = scrapy.Field()
    content = scrapy.Field()
    like = scrapy.Field()
    comment = scrapy.Field()

编写第一个爬虫(Spider)

Spider是用户编写用于从单个网站(或者一些网站)爬取数据的类。

其包含了一个用于下载的初始URL，如何跟进网页中的链接以及如何分析页面中的内容，提取生成 item 的方法。

为了创建一个Spider，您必须继承 scrapy.Spider 类，且定义以下三个属性:

name: 用于区别Spider。该名字必须是唯一的，您不可以为不同的Spider设定相同的名字。
start_urls: 包含了Spider在启动时进行爬取的url列表。因此，第一个被获取到的页面将是其中之一。后续的URL则从初始的URL获取到的数据中提取。

parse() 是spider的一个方法。被调用时，每个初始URL完成下载后生成的 Response 对象将会作为唯一的参数传递给该函数。该方法负责解析返回的数据(response data)，提取数据(生成item)以及生成需要进一步处理的URL的 Request 对象。

以下为我们的第一个Spider代码，保存在 Hello/spiders 目录下的 spider_qiushibaike.py 文件中:

# -*- coding: utf-8 -*-
import scrapy
from Hello.items import HelloItem

class Spider_qiushibaike(scrapy.Spider):
    name = "qiubai"

    start_urls = [
        'http://www.qiushibaike.com'
    ]

    def parse(self, response):
        for item in response.xpath('//div[@id="content-left"]/div[@class="article block untagged mb15"]'):
            qiubai = HelloItem()

            icon = item.xpath('./div[@class="author clearfix"]/a[1]/img/@src').extract()
            if icon:
                icon = icon[0]
                qiubai['userIcon'] = icon

            userName = item.xpath('./div[@class="author clearfix"]/a[2]/h2/text()').extract()
            if userName:
                userName = userName[0]
                qiubai['userName'] = userName

            content = item.xpath('./div[@class="content"]/descendant::text()').extract()
            if content:
                con = ''
                for str in content:
                    con += str
                qiubai['content'] = con

            like = item.xpath('./div[@class="stats"]/span[@class="stats-vote"]/i/text()').extract()
            if like:
                like = like[0]
                qiubai['like'] = like

            comment = item.xpath('./div[@class="stats"]/span[@class="stats-comments"]/a/i/text()').extract()
            if comment:
                comment = comment[0]
                qiubai['comment'] = comment

            yield qiubai

爬取

进入项目的根目录，执行下列命令启动spider:

scrapy crawl qiubai

crawl qiubai 启动用于爬取 http://www.qiushibaike.com 的spider，您将得到类似的输出:

当然你想保存到文件也是可以的，执行下列命令启动spider：

scrapy crawl qiubai -o items.json

这里保存为json格式，当然你也可以保存成其他格式。执行的结果：

解析

# -*- coding: utf-8 -*-

这个是指定文件为utf-8格式

import scrapy
from Hello.items import HelloItem

这个是导包

class Spider_qiushibaike(scrapy.Spider):

这个是定义一个类并继承自scrapy.Spider

name = "qiubai"

这个是指定spider的名称，该名字必须是唯一的，以区别不同的spider

start_urls = [
        'http://www.qiushibaike.com'
]

这个是指定要爬的网站

def parse(self, response):

这个是默认执行的方法，只要打开了上面设置的start_urls的网站就会调用这个方法，在这个方法中就可以解析数据了，其中response是抓取的网站的整个html内容。

for item in response.xpath('//div[@id="content-left"]/div[@class="article block untagged mb15"]'):

这句话就是遍历每项的内容，如下图所示：

至于如何查看页面的源码就是在浏览器中按f12，就可以看到如上图所示的效果了。

qiubai = HelloItem()

定义一个item并初始化，这个就是之前定义的item，注：所有之前必须先导入这个类
from Hello.items import HelloItem

 icon = item.xpath('./div[@class="author clearfix"]/a[1]/img/@src').extract()
if icon:
    icon = icon[0]
    qiubai['userIcon'] = icon

这几行代码就是获取用户的图像，xpath的规则和写法可以参考http://scrapy-chs.readthedocs.org/zh_CN/latest/topics/selectors.html#topics-selectors-relative-xpaths大家一看就了解。

userName = item.xpath('./div[@class="author clearfix"]/a[2]/h2/text()').extract()
if userName:
    userName = userName[0]
    qiubai['userName'] = userName

这几行是获取用户名称

注意

如果执行spider没结果并出现如下图所示的提示：

一般是因为你没设定USER_AGENT，你可以打开文件目录中的settings.py添加一行代码

USER_AGENT = 'Mozilla/5.0 (Windows NT 6.1; WOW64; rv:41.0) Gecko/20100101 Firefox/41.0'

至于值你可以设置成其他的。

如果获取的文字内容不全，如下如所示：

在页面文字中含有其他标签的，直接这样写

content = item.xpath('./div[@class="content"]/text()').extract()

这样获取到的文字只能获取前面一半的文字（在公园玩手机，看到一个车祸视频，我连忙拍着胸口说: 吓死宝宝了。）你可以改成：

content = item.xpath('./div[@class="content"]/descendant::text()').extract()

这样获取到全部的文字信息了。

参考文献

最后编辑于：2017.12.03 04:27:59

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 206,839评论 6赞 482
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 88,543评论 2赞 382
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 153,116评论 0赞 344
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 55,371评论 1赞 279
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 64,384评论 5赞 374
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 49,111评论 1赞 285
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 38,416评论 3赞 400
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 37,053评论 0赞 259
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 43,558评论 1赞 300
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 36,007评论 2赞 325
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 38,117评论 1赞 334
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,756评论 4赞 324
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 39,324评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 30,315评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,539评论 1赞 262
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 45,578评论 2赞 355
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,877评论 2赞 345