爬虫笔记（9）scrapy抓取美女图片

题记

上一篇爬的是www.dy2018.com，其实只是爬了电影列表中的标题和电影详细页链接而已，并没有对爬电影的详细页面。今天要爬的网站是http://www.87g.com/ ，当然我不想爬整个站，那就爬爬这个网站中的美女吧。

1.目标网站分析

http://www.87g.com/tupian/mnml.html ，这是目标网址。

页面截图

这个网站与dy2018不一样的就是图片列表是动态加载的，页面上没有分页功能。对于动态加载问题应该如何处理，这是我们以前没有碰到的。按F12打开开发者工具，点到Network页面，向下滚动鼠标。

滚动鼠标网络截图

截图里面产生了网络请求，而且还返回了六张图片。

#请求地址
http://www.87g.com/index.php?m=content&c=content_ajax&a=picture_page&siteid=1&catid=35&page=7&_=1483880663241
#返回数据
{
1309: {id: "1309", content: "", readpoint: "0", groupids_view: "", paginationtype: "0", maxcharperpage: "0",…}
1310: {id: "1310", content: "", readpoint: "0", groupids_view: "", paginationtype: "0", maxcharperpage: "0",…}
1313: {id: "1313", content: "", readpoint: "0", groupids_view: "", paginationtype: "0", maxcharperpage: "0",…}
1314: {id: "1314", content: "", readpoint: "0", groupids_view: "", paginationtype: "0", maxcharperpage: "0",…}
1316: {id: "1316", content: "", readpoint: "0", groupids_view: "", paginationtype: "0", maxcharperpage: "0",…}
1317: {id: "1317", content: "", readpoint: "0", groupids_view: "", paginationtype: "0", maxcharperpage: "0",…}
}

可以分析一下请求这个链接，是不是看到一个page参数，如果修改这个page值是不是可以返回其它数据呢!实践证明确实是这样的。
美女列表分析完了，这时候随便点一个图片就能进入美女的美照详细页面，这个页面有很多图片，这些图片就是要下载的图片。

2.爬虫编写

json解码
根据上面的分析，我并不需要加载http://www.87g.com/tupian/mnml.html ，直接访问上面的链接就可以获得所需的数据。注意response.body是bytes类型，所以需要转化为utf-8。json中的key没有实际意义，所以在代码中就直接忽略了。

#parse函数
data = json.loads(response.body.decode('utf-8'))
for v in data.values():
      url = v['url']
      url = response.urljoin(url)
      yield scrapy.Request(url, callback=self.parsepage)
#parsepage用来分析详细页面

xpath
上个例子解析页面使用的是BeautifulSoup，很简单也很好用，这里使用的是xpath。在详细页中按F12，打开Elements标签。

图片所在的标签

复制xpath

#这个是复制出来的xpath
//*[@id="mkPic"]/ul/li[1]/a/img

这时候我们要验证xpath是否能获取我想要的数据（图片链接地址）。
scrapy有个shell命令，特别好用。

Microsoft Windows [版本 6.1.7601]
版权所有 (c) 2009 Microsoft Corporation。保留所有权利。

C:\Users\Administrator>scrapy shell "http://www.87g.com/tupian/1356.html"
2017-01-08 21:34:07 [scrapy.utils.log] INFO: Scrapy 1.3.0 started (bot: scrapybot)
2017-01-08 21:34:07 [scrapy.utils.log] INFO: Overridden settings: {'DUPEFILTER_CLASS': 'scrapy.dupefilters.BaseDupeFilte
r', 'LOGSTATS_INTERVAL': 0}
2017-01-08 21:34:08 [scrapy.middleware] INFO: Enabled extensions:
['scrapy.extensions.telnet.TelnetConsole',
 'scrapy.extensions.corestats.CoreStats']
2017-01-08 21:34:08 [scrapy.middleware] INFO: Enabled downloader middlewares:
['scrapy.downloadermiddlewares.httpauth.HttpAuthMiddleware',
 'scrapy.downloadermiddlewares.downloadtimeout.DownloadTimeoutMiddleware',
 'scrapy.downloadermiddlewares.defaultheaders.DefaultHeadersMiddleware',
 'scrapy.downloadermiddlewares.useragent.UserAgentMiddleware',
 'scrapy.downloadermiddlewares.retry.RetryMiddleware',
 'scrapy.downloadermiddlewares.redirect.MetaRefreshMiddleware',
 'scrapy.downloadermiddlewares.httpcompression.HttpCompressionMiddleware',
 'scrapy.downloadermiddlewares.redirect.RedirectMiddleware',
 'scrapy.downloadermiddlewares.cookies.CookiesMiddleware',
 'scrapy.downloadermiddlewares.stats.DownloaderStats']
2017-01-08 21:34:08 [scrapy.middleware] INFO: Enabled spider middlewares:
['scrapy.spidermiddlewares.httperror.HttpErrorMiddleware',
 'scrapy.spidermiddlewares.offsite.OffsiteMiddleware',
 'scrapy.spidermiddlewares.referer.RefererMiddleware',
 'scrapy.spidermiddlewares.urllength.UrlLengthMiddleware',
 'scrapy.spidermiddlewares.depth.DepthMiddleware']
2017-01-08 21:34:08 [scrapy.middleware] INFO: Enabled item pipelines:
[]
2017-01-08 21:34:08 [scrapy.extensions.telnet] DEBUG: Telnet console listening on 127.0.0.1:6023
2017-01-08 21:34:08 [scrapy.core.engine] INFO: Spider opened
2017-01-08 21:34:08 [scrapy.core.engine] DEBUG: Crawled (200) <GET http://www.87g.com/tupian/1356.html> (referer: None)
[s] Available Scrapy objects:
[s]   scrapy     scrapy module (contains scrapy.Request, scrapy.Selector, etc)
[s]   crawler    <scrapy.crawler.Crawler object at 0x00000000007E7358>
[s]   item       {}
[s]   request    <GET http://www.87g.com/tupian/1356.html>
[s]   response   <200 http://www.87g.com/tupian/1356.html>
[s]   settings   <scrapy.settings.Settings object at 0x0000000004AB0CF8>
[s]   spider     <DefaultSpider 'default' at 0x4ca69e8>
[s] Useful shortcuts:
[s]   fetch(url[, redirect=True]) Fetch URL and update local objects (by default, redirects are followed)
[s]   fetch(req)                  Fetch a scrapy.Request and update local objects
[s]   shelp()           Shell help (print this help)
[s]   view(response)    View response in a browser
>>>

上面显示了很多内容，其实就是个python命令行环境，只是内置了一些scrapy对象。

>>> response.xpath('//*[@id="mkPic"]/ul/li[1]/a/img')
[<Selector xpath='//*[@id="mkPic"]/ul/li[1]/a/img' data='<img src="http://pic.87g.com/upload/2016'>]

把复制的xpath放进去确实能获取到img这个标签，可是出来的是Selector，那就再加个extract函数调用吧！

>>> response.xpath('//*[@id="mkPic"]/ul/li[1]/a/img').extract()
['![](http://upload-images.jianshu.io/upload_images/3797605-12b90ecdc0f8f05a.jpg?imageMogr2/auto-orient/strip%7CimageView2/2/w/1240)']

这里我简略的谈一下xpath语法，@attr可以获取属性，一个/可以理解为层级结构，//代表根路径，*代表任何元素标签。对这个xpath修改一下，达到我的要求，获取li下面所有的img，还有进一步获取scr的属性值。

>>> response.xpath('//*[@id="mkPic"]/ul/li/a/img').extract()
['![](http://upload-images.jianshu.io/upload_images/3797605-12b90ecdc0f8f05a.jpg?imageMogr2/auto-orient/strip%7CimageView2/2/w/1240)', '<img src="http://pic.87g.com/upload/20
16/1224/20161224012001638.jpg" alt="">', '![](http://upload-images.jianshu.io/upload_images/3797605-fba36be14ad2c82b.jpg?imageMogr2/auto-orient/strip%7CimageView2/2/w/1240)',
 '![](http://upload-images.jianshu.io/upload_images/3797605-9ad72bf1a187530e.jpg?imageMogr2/auto-orient/strip%7CimageView2/2/w/1240)', '<img src="http://pic.87g.com/upload/20
16/1224/20161224012003259.jpg" alt="">', '![](http://upload-images.jianshu.io/upload_images/3797605-c429052a110b7a37.jpg?imageMogr2/auto-orient/strip%7CimageView2/2/w/1240)',
 '![](http://upload-images.jianshu.io/upload_images/3797605-6aa1f2fc33e11ac5.jpg?imageMogr2/auto-orient/strip%7CimageView2/2/w/1240)', '<img src="http://pic.87g.com/upload/20
16/1224/20161224012004123.jpg" alt="">', '![](http://upload-images.jianshu.io/upload_images/3797605-4cb6d7933fd824a0.jpg?imageMogr2/auto-orient/strip%7CimageView2/2/w/1240)',
 '![](http://upload-images.jianshu.io/upload_images/3797605-a0557bb670f0698a.jpg?imageMogr2/auto-orient/strip%7CimageView2/2/w/1240)', '<img src="http://pic.87g.com/upload/20
16/1224/20161224012006618.jpg" alt="">', '![](http://upload-images.jianshu.io/upload_images/3797605-33d638d1bbdd88f6.jpg?imageMogr2/auto-orient/strip%7CimageView2/2/w/1240)']

我把初始的xpath中li后面的序号去掉了，还在后面加了'/@src'，就这两个区别就获取了所有图片的地址。不得不说xpath比BeautifulSoup还简单，我甚至并不懂多少xpath语法。

详细页编码

def parsepage(self, response):
        image_urls= response.xpath('//*[@id="mkPic"]/ul/li/a/img/@src').extract()
        return {'image_urls':image_urls}

上面的代码其实很简单，但是有没有注意到一个问题，分析json所在的函数是parse，而处理详细页却在parsepage这个函数。分而治之的好处就是我不需要判断该如何处理当前页面内容，因为每个函数处理的页面已经固定好了。

图片下载
spider在完成页面的下载和分析之后接着会进入pipeline，parsepage函数返回一个图片链接列表给pipeline。

#pipelines.py
import requests
import os
class ImageDownloadPipeline(object):
    def process_item(self, item, spider):
        if 'image_urls' in item:#如何‘图片地址’在项目中
            images = []#定义图片空集
            
            #dir_path = ''%s/%s' % (settings.IMAGES_STORE, spider.name)'
            dir_path = 'D:/images'#图片保存路径

            if not os.path.exists(dir_path):
                os.makedirs(dir_path)#创建文件夹
            for image_url in item['image_urls']:
                us = image_url.split('/')[3:]#获取路径地址，实际这个方法不太通用
                #使用image_url[image_url.rfind('/')+1:]会是一个更通用的办法
                image_file_name = '_'.join(us)
                file_path = '%s/%s' % (dir_path, image_file_name)
                images.append(file_path)
                if os.path.exists(file_path):
                    continue

                with open(file_path, 'wb') as handle:
                    response = requests.get(image_url, stream=True)
                    for block in response.iter_content(1024):
                        if not block:
                            break

                        handle.write(block)

            item['images'] = images
        return item

这里使用requests下载图片，requests不是异步库因此会影响速度。在完成了这个类之后，还要去设置才能工作。

#settings.py
ITEM_PIPELINES = {
   # 'myproject.pipelines.MongoPipeline': 300,
   'myproject.pipelines.ImageDownloadPipeline': 300, #这个用来在mm97这个爬虫下载图片
   # 'scrapy.pipelines.images.ImagesPipeline': 1,#系统自带的下载图片
}
IMAGES_STORE = 'D:/meizitu'

当然也可以是用系统自带的图片下载pipeline，还可以在settings.py设置保存路径（IMAGE_STORE）。

3.思考

（1）一开始的时候肯定不会想到直接获取json来获取页面内容，直接分析页面也是可以获取内容的，但是动态加载，使得直接分析存在数据不全的问题。还有程序中没有考虑到该获取多少页的问题，代码中我设置的是100页，实际上确实在一百页左右，这个手动验证的。要是几千页上万页那应该如何获取边界问题呢，我想到一个二分法的问题。我假设初始值设置为100，获取第100页，如果有内容，那么就获取第200页，要是没有内容，以一个值就是150页。。。

init_page  = 100
end = init_page
start = 1
while True:
  if get(end) is None:
    end = (start+end)/2
  else:
    start = end
    end = 2*end
  if start == end:
    break

（2）这里再说说其它一个例子，www.meizitu.com这个网站有反爬虫机制，实际就是会封ip，这个后面会继续推进如何解决这个问题！

最后编辑于：2017.12.05 05:46:03

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 196,264评论 5赞 462
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 82,549评论 2赞 373
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 143,389评论 0赞 325
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 52,616评论 1赞 267
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 61,461评论 5赞 358
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 46,351评论 1赞 273
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 36,776评论 3赞 387
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 35,414评论 0赞 255
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 39,722评论 1赞 294
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 34,760评论 2赞 314
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 36,537评论 1赞 326
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 32,381评论 3赞 315
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 37,787评论 3赞 300
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,030评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 30,304评论 1赞 252
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 41,734评论 2赞 342
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 40,943评论 2赞 336

爬虫笔记（9）scrapy抓取美女图片

题记

1.目标网站分析

2.爬虫编写

3.思考

推荐阅读更多精彩内容