Scrapy 学习笔记 -- 解决分页爬取的问题

Scrapy 是专门用来爬取网站数据的应用框架。爬取一个网站的数据，无非是从一个地方开始，拿到链接，读取页面，分析页面，拿到需要的数据，然后再存储下来，最后再循环这一步。过程挺好理解的，借一张图来说明 Scrapy 的工作流程：

Scrapy 框架图

分析说明，可以看下这里：

http://www.jianshu.com/p/a8aad3bf4dc4

相对于这些理论性的东西，我考虑更多的是如何解决实际问题。有一段时间我对用 Python 写爬虫挺感兴趣的，但也只是爬一个页面的数据，当遇到翻页问题的时候，就拿它没有什么办法了。我早听说过 Scrapy 这个框架，但却认为还是 Geek 点好，自己写多酷呀，不过事实证明，水平是有限的，真搞不出来。当使用 Scrapy 时，才发现其真的强大！

这几天，我想做一个可以学习古诗的App，其核心的展示功能是做出来了，可以是没有数据呀。想过自己每天添加几首，但这事太麻烦，还是想弄点现成的，这样后期就不用太费事了。于是想到做一个爬虫来弄数据源。

我的目标是一个名为「古诗文网」的站点，收录的诗文很多，光古诗都四万多首。可惜这个站没有现成的 API 可用，不然也不费这事了。我只想拿到古诗这部分内，流程是这样的：

处理流程

平时很少画这些图，希望能够把问题说清楚。

「古诗第一页」，其实是一个爬虫入口，这是一个列表页。局部是这样的：

屏幕快照 2016-01-03 09.51.28.png

每页有十项，我需要拿到每一项的数据的链接，同时还需要拿到「下一页」的链接，这一过程，交由「页面分析器」处理。这项拿到之后，就可以将数据的链接传递给「单页分析器」处理拿到每首诗的详细数据了。于是在 Spider 中，我需要定义好入口，写出两个析器。

入口：

    start_urls = [
        'http://so.gushiwen.org/type.aspx?p=1&x=%e8%af%97',
    ]

列表页面分析器：
处理两件事，一件是分析页面，拿数据的链接，交给 self.parse_content()处理，另一个就是拿到下一页，由于和入口结构一样的，只需要交由本身再进行分析，处理即可。调用方法，使用的是:

class scrapy.http.Request(url[, callback, method='GET', headers, body, cookies, meta, encoding='utf-8', priority=0, dont_filter=False, errback])

这个方法好长，不过我只传了两个参数进去，一个就是需要处理的 URL，还有就是回调的函数。这一步明白之后，代码就容易看明白了。

    def parse(self, response):
        '''拿到页面上的链接，给内容解析页使用，如果有下一页，则调用本身 parse() '''
        self.log("===========================| %s |" % response.url)
        song_list = response.css('div.sons').xpath('p[1]/a')
        for song in song_list:

            url = urljoin(SITE_URL, song.xpath('@href').extract()[0])
            self.log('gushi_url: %s' % url)
            ## 将得到的页面地址传送给单个页面处理函数进行处理 -> parse_content()
            yield scrapy.Request(url, callback=self.parse_content, headers=headers)

        ## 是否还有下一页，如果有的话，则继续
        next_pages = response.css('div.pages').xpath('./a[@style="width:60px;"]/@href')

        if next_pages:
            next_page = urljoin(SITE_URL, next_pages[0].extract())
            self.log('page_url: %s' % next_page)
            ## 将 「下一页」的链接传递给自身，并重新分析
            yield scrapy.Request(next_page, callback=self.parse, headers=headers)

单页分析器：

    def parse_content(self, response):
        '''将得到的单个作品的页进行分析取值'''

        self.log('gushi_detail_url: %s' % response.url)
        item = GushispiderItem()
        item['link'] = response.url
        item['name'] = response.css('div.son1 h1').xpath('text()').extract()[0]
        item['dynasty'] = response.xpath('//div[@class="son2"]/p[1]/text()').extract()[0]
        try:
            author = response.xpath('//div[@class="son2"]/p[2]/a/text()').extract()[0]
        except:
            author = '佚名'
        item['author'] = author
        content = response.xpath('//div[@class="son2"]')[1].extract().strip().split('\n')[20:-1]
        item['content'] = '\n'.join(content).strip()

        yield item

代码中对于页面结构的分析部份花的时候挺多的，其实说起来技术性的东西是不多的，只是需要有点耐心，仔细一点就OK了。在理结构的时候，可以使用浏览器来辅助，我是将 Safari 与 Chrome 结合起来用。在 Safari 中的「元素检查」，点击结构中的项时，上面就会有一层层的CSS结构，在使用可以使用CSS选择器来获得数据。

屏幕快照 2016-01-03 10.04.29.png

对于 Chrome，则是 XPath 结构，可以将这样的结构复制出来：

屏幕快照 2016-01-03 10.05.19.png

比如，我复制的这个结构：

/html/body/div[3]/div[1]/div[14]/p[1]/a

这个结构是从最顶级开始的，我们在使用的时候，其实没有必要这么长的，对于一个级中多个相同元素，XPath是按从0到1的顺序编号的，如/html/body/div[3]所表示的意思是/html/body下面的第三个div，其它的以此方法类推即可，不过如果一个 HTML 中如果有 class的话，我还是喜欢用 div[@class="CLASSNAME"]这样的方法来取，直观明子，不用一个个数顺序。

有了这两个工具，编写页面分析器的工作难度确实降了不少。但如果每次编完代码就跑一次，这样调试还是挺麻烦的，有个小技巧，Scrapy 提供了一个Shell功能，可以直接在终端下面命令行方式来编写分析规则，启动方法：

$ scrapy shell PAGE_URL

启动之后，会得到一个名为 response的变量，就可以对数据进行解析了。

屏幕快照 2016-01-03 10.14.47.png

反复尝试，我自己也不熟练，编写这些代码花了不少时间。

当爬用多个层级的页面时，就可以使用这种式法来构建代码，这里我爬的是两级的，所以写了两个分析器，如果下面存在第三级，则只需要再按需求编写一个方法即可。这次才算是搞明白了该如何解决多级爬取分析的问题了。

不过仍有一些问题没有搞定的。现在许多的网站是不允被爬取的，我在爬古诗文网的时候，最多也只爬到四百多条，而后面就开始出现 TCP 超时。尽管我设置了 4s 的爬取延时，仍没多大效果。Scrapy 官方给了一些解决办法，但我还没来得及研究。

再有一个问题，对于这种结果的数据：

<div>
  <h1>Header</h1>
  <p>text</p>
  <p>text</p>
  <p>text</p>
</div>

我想拿到所有的 p 这个 Tag 内的内容，而每次 p 的个数又不一样，我的处理办法是拿到所有div里的内容，再按段拆成数组，取中间需要的部份，像这样：

content = response.xpath('//div[@class="son2"]')[1].extract().strip().split('\n')[20:-1]
item['content'] = '\n'.join(content).strip()

但问题时，当p里再出现 HTML 代码时，就管不了了，再使用正则表达式提取？

先这样吧，早上起来又把爬虫跑了一次，但到一百多次的时候就「熄火」了，也没啥错误提示，这会正在跑，但却只有一百多条数据，还早着呢。

最后编辑于：2017.11.27 05:33:23

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 203,324评论 5赞 476
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 85,303评论 2赞 381
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 150,192评论 0赞 337
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,555评论 1赞 273
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,569评论 5赞 365
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,566评论 1赞 281
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 37,927评论 3赞 395
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,583评论 0赞 257
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 40,827评论 1赞 297
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,590评论 2赞 320
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,669评论 1赞 329
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,365评论 4赞 318
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 38,941评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,928评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,159评论 1赞 259
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 42,880评论 2赞 349
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,399评论 2赞 342

Scrapy 学习笔记 -- 解决分页爬取的问题

推荐阅读更多精彩内容