如何用python编写大文件的多线程下载

在写爬虫的过程中常常遇到下载大文件的情况，比如说视频之类的。如果只是传统的直接下载保存，速度就比较慢，所有就想写个多线程同步下载大文件的模块。

使用到的库

模块中使用到的库都比较简单：requests（写爬虫的都知道吧），threading（多线程，必须的），os（文件操作需要用到）。

主要的难点

一个是多线程下载的同步问题，另一个是文件中断下载后，再次开始从上次中断的地方继续下载。

其实我觉得就这两个问题，迅雷之类的下载器早就已经给我们做了个解决方法事例，那就是在下载文件的路径添加一个管理下载进度的文件。

具体实现

模块中有两个类，一个负责处理管理文件的更新和创建等，还有一个是线程任务，发下载请求，写入文件等。

管理文件类

文件内的格式使用的是很简单的用“=”分割的配置文件的形式，包括四个配置信息，分别是：【已写入的字节】range，【未写入的字节】range，【写入中的字节】range和文件下载的url。之前所说的比较难处理的问题都是用这个管理文件解决的。

配置文件

主要思路是，刚开始下载时创建这个文件，获取带下载文件的大小，并填入【未下载字节】中去。然后其他线程同步的不断从这个【未下载字节】的中提取一小部分写到【下载中字节】，发请求下载，并写入到文件中去，之后再把已经下载好的字节写入到【已下载字节】中去。因为考虑到下载的字节可能时一段一段分隔开的，所有写成图中所示的形式。

其实对range的分割，合并（也就是这个类的主要功能）还是需要一些小技巧的，如果想要自己先练练的话可以前往https://leetcode.com/problems/insert-interval/

之前也是写的时候感觉很熟悉，发现在leetcode上做过类似的题目。

多线程下载类

这个类就没有什么比较复杂的处理了，主要就是读取待下载字节的同步，获得文件大小，下载文件Range。（在http(s)中，文件下载是分了很多次请求的，每次请求的headers中带上Range可以指明需要下载文件的哪一部分，格式为： Range: bytes=1024-2048 ）获取文件大小可以先发一个Range : bytes=0-0 这样的请求过去，响应中的header会带有content-Range的头部（如果他需要的话，一般都会有），这个值就是文件的总大小。

多线程同步，就用普通的锁就好了（threading.Lock类），文件内容的写入和配置的读取都需要。写入到文件的指定位置用的是file的seek函数，不清楚的可以百度一下，就跟c里面的移动文件位置指针一样。

对了，外面还有一个创建这些下载线程的守护线程。

总结

这样子，大文件的多线程下载和中断续传功能就得以实现了。有兴趣的话可以自己写一下，挺有意思的。需要参考的话-https://github.com/HBertram/python-grab

最后编辑于：2019.01.29 00:53:47

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 204,793评论 6赞 478
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 87,567评论 2赞 381
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 151,342评论 0赞 338
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,825评论 1赞 277
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,814评论 5赞 368
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,680评论 1赞 281
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 38,033评论 3赞 399
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,687评论 0赞 258
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 42,175评论 1赞 300
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,668评论 2赞 321
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,775评论 1赞 332
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,419评论 4赞 321
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 39,020评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,978评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,206评论 1赞 260
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 45,092评论 2赞 351
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,510评论 2赞 343