Python asyncio requests 异步爬虫

#python #asyncio #requests #async/await #crawler

一、情景:

抓取大量URL,每个URL内信息量较少

任务清单: 发送URL请求N次,接受并处理URL响应N次

二、分析:

① 如果每个页面依次抓取的话

任务流程:
发送第1条URL请求,接受并处理第1条URL响应,发送第2条URL请求,接受并处理第2条URL响应,发送第3条URL请求,接受并处理第3条URL响应……

时间会大量浪费在网络等待(IO-Bound)与执行网络请求命令(CPU-Bound)的切换上,且最重要的是,发出一个页面的网络请求(Request)后需要等待服务器回传信息,等待信息回传才发出下一个页面请求的话,不能高效地利用网络带宽;

② 为每个页面抓取任务创建线程的话

任务流程:
线程一(并发):发送第1条URL请求,接受并处理第1条URL响应;
线程二(并发):发送第2条URL请求,接受并处理第2条URL响应;
线程三(并发):发送第3条URL请求,接受并处理第3条URL响应;
……
线程N(并发):发送第N条URL请求,接受并处理第N条URL响应)

线程之间的切换会造成大量的消耗

三、解决方法:

利用单个线程内的协程机制,异步执行所有任务清单中的任务。预先设定好需要抓取的URL的列表,触发所有URL页面请求,然后等待网络响应。利用python内置的asyncio调用requests(第三方库)实现异步抓取,提高效率。

四、实现:

1. 预设想要抓取的URL的列表

(注:所有代码是连续的,依次拆分区块方便解释)

#!usr/bin/env python3
# -*- code: utf-8 -*-

import asyncio
import functools
import os
import re

import requests

class MyRequest(object):
    def __init__(self):
        self.list = []
        make_list()
    def make_list(self, url):
        for i in range(1,1001):
            self.list.append('http://some.m3u8.play.list/{}.ts'.format(i))

2. 抓取单个URL的协程编写

实际上就是编写一个生成器(Generator),然后利用@asyncio.coroutine将一个生成器标记/装饰(Decorate)为协程(Coroutine);
在生成器中用yield from执行比较耗时的IO任务(在这里是网络传输的任务),并传回响应。

python 3.5之后的版本可以使用asyncawait关键词代替@asyncio.coroutine与yield from,让代码更加容易阅读。

async def crawler(url):
    print('Start crawling:', url)
    headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.106 Safari/537.36'}
    
    # 利用BaseEventLoop.run_in_executor()可以在coroutine中执行第三方的命令,例如requests.get()
    # 第三方命令的参数与关键字利用functools.partial传入
    future = asyncio.get_event_loop().run_in_executor(None, functools.partial(requests.get, url, headers=headers))
    
    response = await future
     
    print('Response received:', url)
    # 处理获取到的URL响应(在这个例子中我直接将他们保存到硬盘)
    with open(os.path.join('.', 'tmp', url.split('/')[-1]), 'wb') as output:
        output.write(response.content)

3. (可忽略)URL文件的后续处理

不过里边用到几个小技巧,可以看一下:

① 文件夹遍历
os.walk(path_to_go_through)分别返回路径的(root),文件夹类型路径的列表(是相对路径,需要与root一起构成绝对路径)与文件类型路径的列表。

② 按预设的序号排序
sorted(list, key=index_function)返回排列好的list,list的排列方式依据list内每个元素的序号,而序号可以通过pass一个method到key参数来进行灵活设定。
例如
>>> list = ['file1', 'file10', 'file2', 'file20']
>>> sorted(list, key=lambda x : int(x[4:]))
['file1', 'file2', 'file10', 'file20']

③ 正则表达式的贪婪模式、匹配个数与分组

  • ? ----- 表示非贪婪匹配
  • * ----- 表示匹配任意个(包括零个)
  • + ----- 表示匹配至少一个
  • () ----- 分组(可以多次使用):用括号括起的内容,若匹配到,可用.group(index)来调用,其中index=0时返回全部匹配,index=1时返回第一个分组,index=2时返回第二个分组……

④ 文件路径的跨平台兼容
使用os.path.join('folder', 'subfolder', 'file.txt')可以在不同平台下返回正确的文件路径

def combine_files(input_folder, output_path, delete_origin=False):
    path_list = []
    # 遍历文件夹,寻找到所有类型为文件(而不是文件夹的)的路径
    for root, _, files in os.walk(input_folder):
        for file in files:
            path_list.append(os.path.join(root, file))
    # 合并所有响应文件为一个
    with open(output_path, 'wb') as output_file:
        for path in sorted(path_list, key=lambda x:int(re.match(r'.*?(\d+).ts', x).group(1)))
            with open(path, 'rb') as input_file:
                for line in input_file:
                    output_file.write(line)
    # 删除原始响应文件
    if delete_origin == True:
        for path in path_list:
            os.delete(path)

4. 运行时命令

if __name__ == '__main__':
    # 预先设定需要抓取的URL列表
    req = MyRequest()
    # 创建并执行协程任务
    loop = asyncio.get_event_loop()
    tasks = [crawler(url) for url in req.list]
    loop.run_untill_complete(asyncio.wait(tasks))
    loop.close()
    # URL响应文件的后续处理
    combine_files(os.path.join('.', 'tmp'), os.path('.', 'output', 'output.ts'), delete_origin=True)

五、后续需要完善的部分:

这篇文章只实现了多个网络请求IO的异步处理,之后需要研究一下如何在多个网络请求IO与本地存储(ROM/RAM)进行协调操作。

其他参考资源:
1. Python遍历文件夹的两种方法比较
2. StackOverflow - How does asyncio actually work
3. StackOverflow -What do the terms “CPU bound” and “I/O bound” mean?

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 203,547评论 6 477
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,399评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 150,428评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,599评论 1 274
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,612评论 5 365
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,577评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,941评论 3 395
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,603评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,852评论 1 297
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,605评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,693评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,375评论 4 318
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,955评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,936评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,172评论 1 259
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 43,970评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,414评论 2 342