分析ajax请求，爬取今日头条街拍图片

知识点整理：

目录：
1.分析目标网页代码结构；
2.代码爬取数据；
3.保存或下载数据。

一、分析网页

我们在头条搜索“街拍”弹的网址https://www.toutiao.com/search/?keyword=街拍，我们按F12查询源码，但很明显这个页面没有我们东西

image.png

因此可以想像这个页面内容可能是用ajax加载，点击XHR，看到这里也有一个请求

image.png

而且这个请求页的内容适好就是这个页面图片内容，所以目标爬取索引页地址就是这个https://www.toutiao.com/search_content/?，请求这个索引页之后就来到图片详情页https://www.toutiao.com/a6579859429166940680/，同样也是F12打开网页源码，而经过查找看到这些图片的地址是直接藏在网页里面，

image.png

所以我们就可以请求这个页面，然后用正则获取我们详情页的美图地址

二、写代码爬取

这里要注意几个点：

1、请求索引页的时候https://www.toutiao.com/search_content/?这个页面是有参数的，

image.png

因此需要将这些参数urlencode一下然后拼接到请求地址
2、请求详情页的时候，由于网站做了简单的反爬，需要在请求的时候加入请求头hearders，这样才能获取到刚刚内容
3、获取到详情页内容，用正则获取到藏有详情页图片地址的json字符串就这样的格式：{\"count\":6,\"sub_images\":[{\"url\":\"http:\\/\\/p9.pstatp.com\\/origin\\/pgc-image\\/.......}，反斜杠\有转义效果，因此不能直接用json.loads将字符串转为python对象，直转的话会报错json.decoder.JSONDecodeError，所以我们可能用正则re.sub()或内置函数replace()将字符串替换一下，然后再json.loads()转换

三、下载保存

这一步比较简单，就是直接insert 到MongoDB和write一下文件就可以了，直接看代码就能理解

附上源码：

配置文件---config.py

MONGO_URL='localhost' #MongoDB本地连接
MONGO_DB='toutiao' #数据库名
MONGO_TABLE='toutiao' #表名

GROUP_START=0 #起始
GROUP_END =20 #结束

KEYWORD = '街拍' #搜索关键词

执行代码文件---spider.py

# -*- coding: utf-8 -*-

import requests
from requests.exceptions import RequestException
from urllib.parse import urlencode
import json
from bs4 import BeautifulSoup
import re
from config import *
import pymongo
from hashlib import md5
import os
from multiprocessing import Pool

#client = pymongo.MongoClient(MONGO_URL,connect=False)#由于启动多进程爬取，所以与MongoDB数据库连接时可能会报错，就需要加上connect=False,
client = pymongo.MongoClient(MONGO_URL)#连接MongoDB
db = client[MONGO_DB]#创建数据库

def get_page_index(offset,keyword):
    data={
        'offset': offset,
        'format': 'json',
        'keyword': keyword,
        'autoload': 'true',
        'count': '20',
        'cur_tab': 3,
        'from':'gallery',
    }
    url='https://www.toutiao.com/search_content/?'+urlencode(data)
    try:
        response = requests.get(url)
        if response.status_code==200:
            return response.text
        return None
    except RequestException:
        print("请求索引页url出错")
        return None

def parse_page_index(html):
    data = json.loads(html)#将json字符串转换成python对象
    if data and 'data'in data.keys():
        for item in data.get('data'):
            yield item.get('article_url')#将方法变成生成器每次返回一个url

def get_page_detail(url):
    headers= {
        'user-agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36'
    }
    try:
        response = requests.get(url,headers=headers)#爬取详情页需要加请求头，不然获取不了数据
        if response.status_code==200:
            return response.text#response.text一般来说这个返回网页源码
        return None
    except RequestException:
        print("请求详情页出错",url)
        return None

def parse_page_detail(html,url):
    soup = BeautifulSoup(html,'lxml')
    title = soup.select('title')[0].get_text()
    print(title)
    images_pattern = re.compile('gallery: JSON.parse\("(.*?)"\),',re.S)#根据数据特点用正则筛选想要的数据
    result = re.search(images_pattern,html)
    if result:
        #print(result.group(1))
        page_detail = result.group(1)
        page_result = page_detail.replace('\\"','"',10000)#这个替换是为了修正数据格式，这样才能用json.loads,否则会报错json.decoder.JSONDecodeError
        last_change = page_result.replace('\\/','/',10000)#这个替换是为了修正详情页图片地址
        #print(page_result)
        data = json.loads(last_change)
        if data and 'sub_images'in data.keys():
            sub_images = data.get('sub_images')
            images = [item.get('url') for item in sub_images]#将详情页图片url循环生成列表
            for image in images: download_image(image)#将详情页图片url循环下载
            return {
                'title':title,
                'url':url,
                'images':images
            }

def save_to_mongo(result):
    if db[MONGO_TABLE].insert(result):#将结果插入到MongoDB
        print('存储到MongoDB成功',result)
        return True
    return False

def download_image(url):
    print("正在下载：",url)
    try:
        response = requests.get(url)
        if response.status_code==200:
            save_image(response.content)##response.content一般来说这个返回文件，图片等二进制内容
        return None
    except RequestException:
        print("下载图片出错",url)
        return None

def save_image(content):
    file_path = '{0}/{1}/{2}.{3}'.format(os.getcwd(),'download_image', md5(content).hexdigest(),'jpg')
    if not os.path.exists(file_path):
        with open(file_path,'wb') as f:
            f.write(content)
            f.close()

def main(offset):
    html = get_page_index(offset,KEYWORD)
    #print(html)
    for url in parse_page_index(html):
        print(url)
        html =  get_page_detail(url)
        #print(html)
        if html:
            result = parse_page_detail(html,url)
            #print(result)
            save_to_mongo(result)

if __name__ == '__main__':
    #main()
    groups = [x*20 for x in range(GROUP_START,GROUP_END+1)]
    poll = Pool()
    poll.map(main,groups)

最后编辑于：2018.07.20 09:55:31

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 206,214评论 6赞 481
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 88,307评论 2赞 382
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 152,543评论 0赞 341
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 55,221评论 1赞 279
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 64,224评论 5赞 371
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 49,007评论 1赞 284
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 38,313评论 3赞 399
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,956评论 0赞 259
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 43,441评论 1赞 300
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,925评论 2赞 323
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 38,018评论 1赞 333
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,685评论 4赞 322
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 39,234评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 30,240评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,464评论 1赞 261
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 45,467评论 2赞 352
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,762评论 2赞 345

分析ajax请求，爬取今日头条街拍图片

知识点整理：

一、分析网页

二、写代码爬取

三、下载保存

附上源码：

推荐阅读更多精彩内容