爬虫:使用多进程+AJAX爬取并下载今日头条‘街角’图片并存入MongoDB

GitHub地址:https://github.com/al2ln44edr/spider_multiprocess_jinritoutiao_images

1.前言

1.1.目标网页简介

  • 今日头条(https://www.toutiao.com/),是一个综合性信息平台;

  • 今日头条图片站(https://www.toutiao.com/ch/news_image/)提供海量的图片内容,用户可以通过输入框搜索的形式获得自己感兴趣的内容。

  • 本文介绍的方法,用于爬取今日头条图片站‘街角’内容。


    在这里插入图片描述

1.2.使用工具 & 知识点

  • JSON;
  • urllib;
  • MD5;
  • bs4;
  • pymongo;
  • 正则表达式;
  • lxml;
  • AJAX;
  • 进程池;

2.编码过程

2.1. 获取索引页

首先,在搜索框输入搜索内容,查看返回的网页;

浏览过程中,发现返回的网页随着页面乡下滑动,不断加载新的内容,得知网页使用 AJAX 异步加载内容;

然后,在开发者模式network板块中,找到json加载的请求内容;

在这里插入图片描述

获取到 JSON 内容之后,我们就可以编码构造请求了。

#-*- coding:utf-8 -*-
from requests.exceptions import RequestException,Timeout,HTTPError,ConnectionError,TooManyRedirects
import requests
import json
from urllib.parse import urlencode
from hashlib import md5
import os
from bs4 import BeautifulSoup as bs
import time
import pymongo
import re
from lxml import etree

# 获取索引页的json
def get_page_index(offset,keyword):
    
    # 创建json格式的data
    data = {
        'offset': offset,
        'format': 'json',
        'keyword': keyword,
        'autoload': 'true',
        'count': 20,
        'cur_tab': 3,
        'from': 'gallery',
    }
    
    # 构造请求URL
    url = 'https://www.toutiao.com/search_content/?' + urlencode(data) # 将data字典对象转换成请求参数

    # 获取URL的requests返回结果,设置超时时间为10s,并添加headers头
    response = requests.get(url,timeout=10,headers=headers)
    # 如果返回的状态码为200,则返回页面text内容
    if response.status_code == 200:
        print('连接成功……')
        return response.text
    # 否则返回状态码   
    return response.status_code

def main(offset):

    # 获取索引页
    html = get_page_index(offset,KEYWORD)
    print(html)

if __name__ == '__main__':

    GROUP_START = 1
    GROUP_END   = 1 

    KEYWORD = input('请输入要查找的关键字 >>> ')

    # 设置headers
    headers = {
            'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:56.0) Gecko/20100101 Firefox/56.0',
           'Content-Type': 'application/x-www-form-urlencoded',
            'Connection': 'Keep-Alive',
            'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8'     
        }
    groups = [x*20 for x in range(GROUP_START,GROUP_END+1)]
    main(groups)

运行,得到如下图片,代码OK。


在这里插入图片描述

2.2.获取详情页url地址

为得到返回页中向企业的URL地址,我们需要先将返回的hmtl内容转化成json格式的键值对

from ... # ...内容同前文,此处不再重写

def get_page_index(offset,keyword):
    ... # ...内容同前文,此处不再重写

def parse_page_index(html):
    # 将html参数转化成json格式的键值对,并赋值与js
    js = json.loads(html)
    # print(js.get('data'))  # 测试用,感兴趣的小伙伴可以打印试一下,看一下返回的内容
    # print(js.keys())  # 测试用,感兴趣的小伙伴可以打印试一下,看一下返回的内容
    # 由于js得到的是一个生成器对象,需要使用yield迭代获得详情页的URL
    for item in js.get('data'):
        yield item.get('article_url')

def main(offset):

    # 获取索引页
    html = get_page_index(offset,KEYWORD)
    # print(html)
    # 得到索引页的URL
    for url in parse_page_index(html):
        print(url)

if __name__ == '__main__':

    GROUP_START = 1
    GROUP_END   = 1 

    KEYWORD = input('请输入要查找的关键字 >>> ')

    # 设置headers
    headers = {
            'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:56.0) Gecko/20100101 Firefox/56.0',
            'Content-Type': 'application/x-www-form-urlencoded',
            'Connection': 'Keep-Alive',
            'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8'     
        }
    groups = [x*20 for x in range(GROUP_START,GROUP_END+1)]
    main(groups)

运行,得到下图内容,代码OK。


在这里插入图片描述

2.3.获取详情页中图片URL

首先,打开图片索引页,查看图片。

发现图片并不是全部展示的,需要点击之后依次查看。

图片并不是全部展示的,需要点击之后依次查看

这个时候我们会遇到一个问题,就是详情页中【每张图片各自的URL】从什么地方获取

打开网页源代码,在gallery中找到了一个URL列表,复制并在地址栏输入,得到了要找的的图片。
这个时候我们可以确认,这就是我们要找的照片URL。


划红线的url即为图片url,其中的双反斜线 \ \ 需要去掉

现在,可以编写代码获取照片URL。

from ...  # ...内容同前文,此处不再重写

def get_page_index(offset,keyword):
    ... # ...内容同前文,此处不再重写

def parse_page_index(html):
    ...  # ...内容同前文,此处不再重写

def get_page_detail(url):
    response = requests.get(url,timeout=10,headers=headers)
    if response.status_code == 200:
        # 因为要获取的时文本信息,所以返回的时text
        return response.text
    else:
        return response.status_code
        get_page_detail(url)    

def parse_page_detail(html,url):

    # 使用BeautifulSoup获取目标元素
    soup = bs(html,'lxml')
    # 获取title
    # 注意:因为soup.select('tittle')返回的是list列表,需要使用 [] 取出之后,使用 get_text() 获取字符
    title = soup.select('title')[0].get_text()
    # 注意:此处在使用正则表达式时,需要对正则表达式 [] 的使用有一定了解
    image_pattern = re.compile(r'gallery: JSON.parse[(]"(.*?)"[)],\n',re.S)
    result = re.search(image_pattern,html)
    if result:
        # 使用 replace 将URL中的 \\ 清除掉
        image_data = result.group(1).replace('\\','')
        # return image_data  # 测试用,感兴趣可以打印出来看一下返回结果
        data = json.loads(image_data)
        # return data.keys()  # 测试用,感兴趣可以打印出来看一下返回结果
        if data and 'sub_images' in data.keys():
            sub_images = data.get('sub_images')
            images_url = [item.get('url') for item in sub_images]
            # print(images_url)  # 测试用,感兴趣可以打印出来看一下返回结果
            return {
                'title':title,
                'url':url,
                'images':images_url
                }

def main(offset):
    # 获取索引页
    html = get_page_index(offset,KEYWORD)
    # 从索引页获取详情页
    for url in parse_page_index(html):
        # print(url)  # 测试用,感兴趣可以打印出来看一下返回结果
        # 打开索引页
        html = get_page_detail(url)
        # print(html)  # 测试用,感兴趣可以打印出来看一下返回结果
        # 解析索引页,获取详情页图片URL
        if html:
            result = parse_page_detail(html,url)
            print(result)

if __name__ == '__main__':
    ...  # ...内容同前文,此处不再重写

运行,得到下图内容,代码OK。


注意:url中的双反斜线 \ \ 已经被处理掉

2.4. 保存图片

我们计划将爬取的图片保存到本地文件夹,每一个索引链接得到的一组图片存到单独的文件夹中,同时将索引页URL链接保存到MongoDB数据库中。

我们在MongoDB中创建名为 toutiao 的DataBase,并创建名为toutiao1的collection,具体步骤自行参考网上教程,这里不在赘述。

from ...  # ...内容同前文,此处不再重写

# MongoDB数据库连接
MONGO_URL   = 'localhost'
MONGO_DB    = 'toutiao'
MONGO_TABLE = 'toutiao1'
client      = pymongo.MongoClient(MONGO_URL)
db          = client[MONGO_DB]

def get_page_index(offset,keyword):  
    ...  # ...内容同前文,此处不再重写

def parse_page_index(html):  
    ...  # ...内容同前文,此处不再重写
    
def get_page_detail(url):
    ...  # ...内容同前文,此处不再重写

def parse_page_detail(html,url):

    # 使用BeautifulSoup获取目标元素
    soup = bs(html,'lxml')
    # 获取title
    # 注意:因为soup.select('tittle')返回的是list列表,需要使用 [] 取出之后,使用 get_text() 获取字符
    title = soup.select('title')[0].get_text()

    # 为图片设定保存的文件路径
    root_dir = os.getcwd()
    # 其中title为每组图片的标题
    download_dir = '{0}/{1}'.format(root_dir,title)
    # 每个详情页,创建一个文件夹
    os.makedirs(download_dir)

    # 注意:此处在使用正则表达式时,需要对正则表达式 [] 的使用有一定了解
    image_pattern = re.compile(r'gallery: JSON.parse[(]"(.*?)"[)],\n',re.S)
    result = re.search(image_pattern,html)
    if result:
        # 使用 replace 将URL中的 \\ 清除掉
        image_data = result.group(1).replace('\\','')
        # return image_data  # 测试用,感兴趣可以打印出来看一下返回结果
        data = json.loads(image_data)
        # return data.keys()  # 测试用,感兴趣可以打印出来看一下返回结果
        if data and 'sub_images' in data.keys():
            sub_images = data.get('sub_images')
            images_url = [item.get('url') for item in sub_images]
            # print(images_url)  # 测试用,感兴趣可以打印出来看一下返回结果
            # 下载图片
            for image in images_url:
                # return images_url  # 测试用,感兴趣可以打印出来看一下返回结果
                download_image(download_dir,image)          
            return {
                'title':title,
                'url':url,
                'images':images_url
                }

# 定义下载程序
def download_image(save_dir,url):
    print('正在下载:',url)
    response = requests.get(url,headers=headers)
    if response.status_code == 200:
        # 因为要下载的是图片,所以需要传入的内容是 response.content
        save_images(save_dir,response.content)
    return None

def save_images(save_dir,content):
    # 使用 md5(content).hexdigest() 为图片创建名称
    file_path = '{0}/{1}.{2}'.format(save_dir,md5(content).hexdigest(),'jpg')
    if not os.path.exists(file_path):
        print('file_path:',file_path)
        with open(file_path,'wb') as f:
            f.write(content)
            print('下载完成!')
            f.close()

# 保存数据至MongoDB模块
def save_to_mongo(result):
    if db[MONGO_TABLE].insert_one(result):
        print('存储到MongoDB成功')

def main(offset):
    # 获取索引页
    html = get_page_index(offset,KEYWORD)
    # parse_page_index(html)
    # 从索引页获取URL的list
    for url in parse_page_index(html):
        # print(url)  # 测试用,感兴趣可以打印出来看一下返回结果
        # 获取详情页
        html = get_page_detail(url)
        # print(html)  # 测试用,感兴趣可以打印出来看一下返回结果
        # 解析索引页,获取详情页图片URL
        if html:
            # parse_page_detail(html,url)
            result = parse_page_detail(html,url)
            # print(result)
            if result:
                save_to_mongo(result)

if __name__ == '__main__':
    ...  # ...内容同前文,此处不再重写

运行,下面是爬取的图片。


在这里插入图片描述

2.5.爬虫结果

==============================================================
关键字 :街角
共获取图片 :20组
共用时 :1分36秒
下载峰速 :5M/s
==============================================================

3.错误处理

在编码过程中,遇到了诸多问题,其中有两个挑出来说一下。

一个是加载超时的问题,如图。

在这里,加载超时一般是网络问题

另一个是文件夹重名问题,如图。

这种情况在输入一些特殊的地名、物品名称时,遇到的比较多。

文件夹重名问题可以通过加时间戳等方式解决,这里不赘述

注意:异常处理是个单独的课题,这里不多赘述,会在其他文章会另行介绍。

4.完整代码

#-*- coding:utf-8 -*-
from multiprocessing import Pool
from requests.exceptions import RequestException,Timeout,HTTPError,ConnectionError,TooManyRedirects
import requests
import json
from urllib.parse import urlencode
from hashlib import md5
import os
from bs4 import BeautifulSoup as bs
import time
import pymongo
import datetime
import re
from lxml import etree

# MongoDB数据库连接
MONGO_URL   = 'localhost'
MONGO_DB    = 'toutiao'
MONGO_TABLE = 'toutiao2'
client      = pymongo.MongoClient(MONGO_URL)
db          = client[MONGO_DB]

# 获取索引页的json
def get_page_index(offset,keyword):
    
    try:
        # 创建json格式的data
        data = {
            'offset': offset,
            'format': 'json',
            'keyword': keyword,
            'autoload': 'true',
            'count': 20,
            'cur_tab': 3,
            'from': 'gallery',
        }
        
        # 构造请求URL
        url = 'https://www.toutiao.com/search_content/?' + urlencode(data) # 将data字典对象转换成请求参数

        # 获取URL的requests返回结果,设置超时时间为10s,并添加headers头
        response = requests.get(url,timeout=10,headers=headers)
        # 如果返回的状态码为200,则返回页面text内容
        if response.status_code == 200:
            print('连接成功……')
            return response.text
        # 否则返回状态码   
        return response.status_code
    except Exception as e:
        print('获取索引页时,遇到妖孽 >>> ',e)
        return


def parse_page_index(html):
    # 将html参数转化成json格式的键值对,并赋值与js
    js = json.loads(html)
    # print(js.get('data'))  # 测试用,感兴趣的小伙伴可以打印试一下,看一下返回的内容
    # print(js.keys())  # 测试用,感兴趣的小伙伴可以打印试一下,看一下返回的内容
    # 由于js得到的是一个生成器对象,需要使用yield迭代获得详情页的URL
    for item in js.get('data'):
        yield item.get('article_url')
        # 设置 sleep 等待时间为1秒
        time.sleep(1)

def get_page_detail(url):
    response = requests.get(url,timeout=10,headers=headers)
    if response.status_code == 200:
        return response.text
        # return response.content
    else:
        return response.status_code
        get_page_detail(url)    

def parse_page_detail(html,url):

    try:
        # 使用BeautifulSoup获取目标元素
        soup = bs(html,'lxml')
        # 获取title
        # 注意:因为soup.select('tittle')返回的是list列表,需要使用 [] 取出之后,使用 get_text() 获取字符
        title = soup.select('title')[0].get_text()

        # 为图片设定保存的文件路径
        root_dir = os.getcwd()
        # 其中title为每组图片的标题
        download_dir = '{0}/{1}'.format(root_dir,title)
        # 每个详情页,创建一个文件夹
        os.makedirs(download_dir)

        # 注意:此处在使用正则表达式时,需要对正则表达式 [] 的使用有一定了解
        image_pattern = re.compile(r'gallery: JSON.parse[(]"(.*?)"[)],\n',re.S)
        result = re.search(image_pattern,html)
        if result:
            # 使用 replace 将URL中的 \\ 清除掉
            image_data = result.group(1).replace('\\','')
            # return image_data  # 测试用,感兴趣可以打印出来看一下返回结果
            data = json.loads(image_data)
            # return data.keys()  # 测试用,感兴趣可以打印出来看一下返回结果
            if data and 'sub_images' in data.keys():
                sub_images = data.get('sub_images')
                images_url = [item.get('url') for item in sub_images]
                # print(images_url)  # 测试用,感兴趣可以打印出来看一下返回结果
                # 下载图片
                for image in images_url:
                    # return images_url  # 测试用,感兴趣可以打印出来看一下返回结果
                    download_image(download_dir,image)     
                    time.sleep(1)     
                return {
                    'title':title,
                    'url':url,
                    'images':images_url
                    }

    except Exception as e:
        print('解析详情页时,遇到妖孽 >>> ',e)

# 定义下载程序
def download_image(save_dir,url):
    print('正在下载:',url)
    response = requests.get(url,headers=headers)
    if response.status_code == 200:
        # 因为要下载的是图片,所以需要传入的内容是 response.content
        save_images(save_dir,response.content)
    return None

def save_images(save_dir,content):
    # 使用 md5(content).hexdigest() 为图片创建名称
    file_path = '{0}/{1}.{2}'.format(save_dir,md5(content).hexdigest(),'jpg')
    if not os.path.exists(file_path):
        print('file_path:',file_path)
        with open(file_path,'wb') as f:
            f.write(content)
            print('下载完成!')
            f.close()

# 保存数据至MongoDB模块
def save_to_mongo(result):
    if db[MONGO_TABLE].insert(result):
        print('存储到MongoDB成功')

def main(offset):
    # 获取索引页
    html = get_page_index(offset,KEYWORD)
    # parse_page_index(html)
    # 从索引页获取URL的list
    for url in parse_page_index(html):
        # print(url)  # 测试用,感兴趣可以打印出来看一下返回结果
        # 获取详情页
        html = get_page_detail(url)
        # print(html)  # 测试用,感兴趣可以打印出来看一下返回结果
        # 解析索引页,获取详情页图片URL
        if html:
            # parse_page_detail(html,url)
            result = parse_page_detail(html,url)
            # print(result)  # 测试用,感兴趣可以打印出来看一下返回结果
            if result:
                save_to_mongo(result)

if __name__ == '__main__':

    # 获取开始时间
    start_time = datetime.datetime.now()

    KEYWORD = input('请输入要查找的关键字 >>> ')

    # 设置headers
    headers = {
            'User-Agent': 'Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/72.0.3602.2 Mobile Safari/537.36',
            'Content-Type': 'application/x-www-form-urlencoded',
            'Connection': 'Keep-Alive',
            'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8'     
        }
        
    # 设定json格式的data中offset的开始和结束的值
    GROUP_START = 1
    GROUP_END   = 1 
    groups = [x*20 for x in range(GROUP_START,GROUP_END+1)]
    
    # 运行主程序,并将offset值作为参数传入
    # 创建进程池,设置最大进程数为20个
    pool = Pool(20)
    # 在进程池中运行程序
    pool.map(main,groups)
    
    # main(groups)
    
    # 获取结束时间
    end_time = datetime.datetime.now()

    print('*'*100)
    print('开始时间:',start_time)
    print('结束时间:',end_time)
    print('共计用时:',end_time - start_time)
    # 得到数据总数
    total_nums = db[MONGO_TABLE].count()
    print('共计获取数据:',total_nums,' 条')
    print('*'*100)


最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 203,324评论 5 476
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,303评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 150,192评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,555评论 1 273
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,569评论 5 365
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,566评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,927评论 3 395
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,583评论 0 257
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,827评论 1 297
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,590评论 2 320
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,669评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,365评论 4 318
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,941评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,928评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,159评论 1 259
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 42,880评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,399评论 2 342

推荐阅读更多精彩内容

  • 1、通过CocoaPods安装项目名称项目信息 AFNetworking网络请求组件 FMDB本地数据库组件 SD...
    阳明先生x阅读 15,967评论 3 119
  • Spring Cloud为开发人员提供了快速构建分布式系统中一些常见模式的工具(例如配置管理,服务发现,断路器,智...
    卡卡罗2017阅读 134,580评论 18 139
  • 我为什么要写作?因为无聊,因为不知道该干什么,或许这就是最初的原因。但是,当我慢慢写下去的时候,我似乎可以感觉到一...
    山河入墨阅读 212评论 0 0
  • 想你的时候不写诗 想你的时候翻头条为什么热点不能吸引我的双眼为什么那些八卦让我生厌世界好烦 也试着去爬山凝视那树尖...
    静铃音阅读 595评论 44 71
  • 最近用UIScrollView生成了一张大长图,发现用UIImageView直接设置image展示不了。参照了Ap...
    水报的疯子阅读 4,192评论 5 4