Python之dmzj漫画搜索爬虫（三）

上回我们讲到了dmzj漫画搜索爬虫(二)，紧接着上一回的代码，我们继续进行深入的爬取分析，完成对于漫画的图片爬取。

图片爬取

首先，我们以第一话作为分析。如下图所示：

漫画第一话

然后分析它的dom节点，看看漫画的图片具体链接。但是我们尝试右键会发现并不能定位，动漫之家禁止了右键检查功能。于是，我们只能直接按F12强行打开调试功能。随后通过DOM点击定位页面的功能，一步步查看具体的页面。

第一页的图片DOM

虽然我们从图中可以看出第一页的漫画的图片的URL以及它的DOM节点名称（page_1），但是这毕竟是浏览器渲染完成之后的页面。为了验证这个DOM节点是否存在。

搜索DOM

我们尝试在HMTL中搜索图片的DOM节点，但是发现并没有存在，证明了漫画的图片是靠JavaScript在渲染阶段进行动态插入进去的。得出这样的结论后，我们就需要细致分析一下页面渲染的过程。

XHR异步请求

我们打开Network Tab页，然后重新刷新页面，监控整个请求流程。这时，我们假想图片的具体URL是通过Ajax异步请求的，于是打开XHR 过滤，以验证我们的猜想，然后事实证明并不是如此。
根据我以往的简单猜测，一般数据的来源方式，主要有：

异步请求数据（常常为Json数据）
加密混淆过藏在HTML文件中
其他暂时没接触过

可疑的JavaScript代码

可疑的eval函数

首先，我们在next_pages中看到了下页图片的URL，为了简单起见，就不验证了。有兴趣的小伙伴可以去看看，确实是下一页的图片URL。这里我们主要关注的是var arr_pages = eval(pages);，其中的pages变量让人在意。

可疑的eval代码片段

在蓝色部分，我们比较在意的就是这个eval里面的东西，明显可以看出里面的内容是经过混淆过的。我们通过代码整理，并稍作更改，让eval的结果可以呈现出来。

更改和整理后的代码

放到Console中的运行结果

然后我们就可以清晰的看到了pages变量的具体数据内容。可能数据还不太清楚，我们将第一条提取出来，和DOM节点中的数据进行对比。

结果对比

发现其中的数据一模一样，pages中只是少了标准的HTTP前缀而已。因此，我们的目标很明显了，就是获取其中的pages变量。那么如何获取呢，这就要靠Python中的execjs库了（可能还有其他方式，但是为了简便，就直接采用这个库）。

execjs采用pip install pyexecjs安装。
为了减少请求，我们使用上一节的json结果文件来进行最后一步的请求。

代码

# -*- coding: utf-8 -*-

import requests
import json
from lxml import etree
import execjs
import os
import click

headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/59.0.3071.115 Safari/537.36',
    'Referer': 'http://www.dmzj.com/category'
}

PREIX = 'http://images.dmzj.com/'


def get_request(info):
    response = requests.get(info['href'], headers=headers)
    try:
        html = etree.HTML(response.content)
        script_content = html.xpath('//script[1]/text()')[0]
        vars = script_content.strip().split('\n')
        parse_str = vars[2].strip()  # 取到eval()
        parse_str = parse_str.replace('function(p,a,c,k,e,d)', 'function fun(p, a, c, k, e, d)')
        parse_str = parse_str.replace('eval(', '')[:-1]  # 去除eval
        fun = """
                function run(){
                    var result = %s;
                    return result;
                }
            """ % parse_str  # 构造函数调用产生pages变量结果
        pages = execjs.compile(fun).call('run')
        url_list = []       
        if 'shtml' in response.request.url:
            datas = pages.split('=')[2][1:-2]  # json数据块 var pages=pages=[]
            url_list = json.JSONDecoder().decode(datas)  # 解码json数据
        elif 'html' in response.request.url:
            datas = pages.split('=')[1][1:-2]  # var pages={}
            url_list = json.JSONDecoder().decode(datas)['page_url'].split('\r\n')
        headers['Referer'] = info['href']
        if not os.path.exists('./downloads'):
            os.mkdir('./downloads')
        for index, url in enumerate(url_list):
            img = requests.get(PREIX + url, headers=headers)
            import time
            time.sleep(1)  # 等待一些时间，防止请求过快
            click.echo(PREIX + url)
            with open('./downloads/%s.jpg' % index, mode='wb') as fp:
                fp.write(img.content)
            click.echo('save %s.jpg' % index)
        click.echo('complete!')
    except Exception as e:
        raise e

if __name__ == '__main__':
    info = None
    f = open('./details.json', mode='r', encoding='utf-8')
    info = json.load(f)
    info = {
      "title": "第一次的Gal-第01话",
      "href": "http://manhua.dmzj.com/diyicidegal/50354.shtml"
    }
    info = { "title": "妹妹消失的第一百天-46话", "href": "http://www.dmzj.com/view/meimeixiaoshihoudediyibaitian/70394.html"} 
    # 以第一页请求为例子
    get_request(info)

好了！这一期就完了，下一期可能写点其他的东西了！！欢迎大家来阅读，哈哈~~
最后奉上自己差劲的Github以及个人的hexo网站Kyoto Animation，欢迎大家交流，这一期的所有代码都在文中，就不上传了。

最后编辑于：2017.12.18 12:13:49

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 206,214评论 6赞 481
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 88,307评论 2赞 382
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 152,543评论 0赞 341
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 55,221评论 1赞 279
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 64,224评论 5赞 371
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 49,007评论 1赞 284
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 38,313评论 3赞 399
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,956评论 0赞 259
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 43,441评论 1赞 300
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,925评论 2赞 323
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 38,018评论 1赞 333
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,685评论 4赞 322
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 39,234评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 30,240评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,464评论 1赞 261
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 45,467评论 2赞 352
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,762评论 2赞 345

Python之dmzj漫画搜索爬虫（三）

图片爬取

代码

推荐阅读更多精彩内容