python爬虫多线程与多进程

有一段时间没有学习了,记录一篇
Python中多线程与多进程的区别
摘抄一段书本文字

当计算机运行程序时,就会创建包含代码和状态的进程。这些进程会通过计算机的个或多个 CPU 执行。不过,同一时刻每个 CPU 只会执行一个进程,然后在不同进程间快速切換,这样就给人以多个程序同时运行的感觉。同理,在一个进程中,程序的执行也是在不同线程间进行切换的,每个线程执行程序的不同部分。
这里简单地做个类比:有一个大型工厂,该工厂负责生产玩具;同时工厂下又有多个车间,每个车间负责不同的功能,生产不同的玩具零件;每个车间里又有多个车间工人,这些工人相互合作,彼此共享资源来共同生产某个玩具零件等。这里的工厂就相当于一个网络爬虫,而每个车间相当于一个进程,每个车间工人就相当于线程。这样,通过多线程和多进程,网络爬虫就能高效、快速地进行下去。”

还以爬取豆瓣Top 250电影为例,https://www.jianshu.com/p/c1f57ab65c60

当时我们测试时为单线程,相当于串行工作,面对大量数据爬取时显得力不从心。

优化方案一:使用多线程方式
使用 threading和queue模块

import   threading
import  queue

创建线程池,使用生产者消费者模式:

thcounts=1
    threads=[]
    q=queue.Queue()

    for url in urls:
        q.put(url)

    for i in range(thcounts):
        # t=threading.Thread(target=db_moives,args=(q,))
        threads.append(Db_moives(q))

    start1_time = time.time()
    for t in threads:
        t.start()

    for t in threads:
        t.join()

完整代码参考:

import requests
from  lxml  import  etree
import re
import  time
import   threading
import  queue

headers ={
    'User-Agent' :'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/74.0.3729.169 Safari/537.36'
}

# 根据每页获取每个电影详细的URL
class  Db_moives(threading.Thread):
    def __init__(self,q):
        threading.Thread.__init__(self)
        self.q=q

    def run(self):
        while not self.q.empty():
            url=self.q.get()
            print(url)
            html =requests.get(url ,headers=headers)
            xdata =etree.HTML(html.text)
            moive_urls =xdata.xpath('//div[@class="item"]/div[@class="pic"]/a[1]/@href')
            # print(moive_urls)
            for moive_url  in moive_urls:
                # print(moive_url)
                self.get_info(moive_url)  # 调用get_info

    # 获取电影的详细参数
    def get_info(self,url):
        try:
            html =requests.get(url ,headers=headers)
            xdata =etree.HTML(html.text)
            name =xdata.xpath('//div[@id="wrapper"]//h1/span/text()')[0]
            # print(name)
            year =xdata.xpath('//div[@id="wrapper"]//h1/span/text()')[1][1:5]
            # print(year)
            director =xdata.xpath('//div[@id="info"]/span[1]/span[2]/a/text()')[0]
            # print(director)
            actor =xdata.xpath('//div[@id="info"]//span[@class="actor"]//a/text()')[0]  # 第一个主演
            # print(actor)
            styles =xdata.xpath('//div[@id="info"]//span[@property="v:genre"]/text()')
            style ='-'.join(styles)  # 将list---》str
            # print(style)
            country =re.findall('<span class="pl">制片国家/地区:</span> (.*?)<br/>' ,html.text ,re.S)[0]
            # print(country)
            language =re.findall(' <span class="pl">语言:</span> (.*?)<br/>' ,html.text ,re.S)[0].replace(' / ' ,'-')
            # print(language)
            release_time \
            =re.findall('<span class="pl">上映日期:</span> <span property="v:initialReleaseDate" content=".*?">(.*?)</span>'
                        ,html.text ,re.S)[0]
            # print(release_time)
            time =re.findall('<span class="pl">片长:</span> <span property="v:runtime" content=".*?">(.*?)</span>.*?<br/>'
                                ,html.text ,re.S)[0]
            # print(time)
            other_name =re.findall('<span class="pl">又名:</span> (.*?)<br/>' ,html.text ,re.S)[0]
            # print(other_name)
            score =xdata.xpath('//div[@id="interest_sectl"]//strong/text()')[0]
            # print(score)
            insert_sub = 'insert into  dbmoives values(0,%s,%s,%s,%s,%s,%s,%s,%s,%s,%s,%s)' % (
                '"' + str(name) + '"', '"' + str(year) + '"', '"' + str(director) + '"', '"' + str(actor) + '"',
                '"' + str(style) + '"', '"' + str(country) + '"', '"' + str(language) + '"', '"' + str(release_time) + '"',
                '"' + str(time) + '"', '"' + str(other_name) + '"', '"' + str(score) + '"')
            print(insert_sub)

        except Exception as e:
            print(e)

if __name__=="__main__":
    urls =['https://movie.douban.com/top250?start={}&filter='.format(i)  for i in range(0 ,100 ,25)]

    thcounts=1
    threads=[]
    q=queue.Queue()

    for url in urls:
        q.put(url)

    for i in range(thcounts):
        # t=threading.Thread(target=db_moives,args=(q,))
        threads.append(Db_moives(q))

    start1_time = time.time()
    for t in threads:
        t.start()

    for t in threads:
        t.join()

    end1_time = time.time()
    print('串行爬虫' ,end1_time -start1_time)

单线程的话测试一下,测试前4页


image.png

修改4线程,测试,可以看到效果还可以,共耗时21s多。

thcounts=4
image.png

优化方案二:使用多进程方式
使用multiprocessing库下的 Pool模块

from  multiprocessing  import  Pool

使用方法,创建进程池,指定进行数量,然后使用map将函数和参数列表进行映射即可

    p = Pool(processes=2)      
    p.map(get_url ,urls)

我此处测试了前3页,可以看下效果比较明显


image.png

测试源代码如下:

import requests
from  lxml  import  etree
import re
import  time
from  multiprocessing  import  Pool

headers ={
    'User-Agent' :'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/74.0.3729.169 Safari/537.36'
}

# 根据每页获取每个电影详细的URL
def get_url(url):
    html =requests.get(url ,headers=headers)
    xdata =etree.HTML(html.text)
    moive_urls =xdata.xpath('//div[@class="item"]/div[@class="pic"]/a[1]/@href')
    # print(moive_urls)
    for moive_url  in moive_urls:
        get_info(moive_url)  # 调用get_info

# 获取电影的详细参数
def get_info(url):
    try:
        html =requests.get(url ,headers=headers)
        xdata =etree.HTML(html.text)
        name =xdata.xpath('//div[@id="wrapper"]//h1/span/text()')[0]
        # print(name)
        year =xdata.xpath('//div[@id="wrapper"]//h1/span/text()')[1][1:5]
        # print(year)
        director =xdata.xpath('//div[@id="info"]/span[1]/span[2]/a/text()')[0]
        # print(director)
        actor =xdata.xpath('//div[@id="info"]//span[@class="actor"]//a/text()')[0]  # 第一个主演
        # print(actor)
        styles =xdata.xpath('//div[@id="info"]//span[@property="v:genre"]/text()')
        style ='-'.join(styles)  # 将list---》str
        # print(style)
        country =re.findall('<span class="pl">制片国家/地区:</span> (.*?)<br/>' ,html.text ,re.S)[0]
        # print(country)
        language =re.findall(' <span class="pl">语言:</span> (.*?)<br/>' ,html.text ,re.S)[0].replace(' / ' ,'-')
        # print(language)
        release_time \
        =re.findall('<span class="pl">上映日期:</span> <span property="v:initialReleaseDate" content=".*?">(.*?)</span>'
                   ,html.text ,re.S)[0]
        # print(release_time)
        time =re.findall('<span class="pl">片长:</span> <span property="v:runtime" content=".*?">(.*?)</span>.*?<br/>'
                          ,html.text ,re.S)[0]
        # print(time)
        other_name =re.findall('<span class="pl">又名:</span> (.*?)<br/>' ,html.text ,re.S)[0]
        # print(other_name)
        score =xdata.xpath('//div[@id="interest_sectl"]//strong/text()')[0]
        # print(score)

    except Exception as e:
        print(e)

if __name__=="__main__":
    urls =['https://movie.douban.com/top250?start={}&filter='.format(i)  for i in range(0 ,75 ,25)]

    start1_time = time.time()
    for url in urls:
        print(url)
        get_url(url)
    end1_time =time.time()
    print('串行爬虫' ,end1_time -start1_time)

    p = Pool(processes=2)
    start2_time =time.time()
    p.map(get_url ,urls)
    end2_time =time.time()
    print('并行2' ,end2_time -start2_time)

    p = Pool(processes=5)
    start3_time =time.time()
    p.map(get_url ,urls)
    end3_time =time.time()
    print('并行5' ,end3_time -start3_time)

总结:Python多线程一直被诟病是伪多线程,关于这一点大家可以搜索一下其他的测试资料。在配置线程数和进程数时也不是越多越好,要看程序的执行过程具体而分析,比如我们上面的多线程案例,如果我们只爬取一页网页,那么设置再多的多线程也无效。因为队列里面只加了一个网页的URL。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 206,602评论 6 481
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 88,442评论 2 382
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 152,878评论 0 344
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 55,306评论 1 279
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 64,330评论 5 373
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,071评论 1 285
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,382评论 3 400
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,006评论 0 259
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 43,512评论 1 300
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,965评论 2 325
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,094评论 1 333
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,732评论 4 323
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,283评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,286评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,512评论 1 262
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,536评论 2 354
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,828评论 2 345