不用下载券也能下载百度文库资料，Python帮你轻松搞定

大家可能平时都有在百度文库下载文档的经历，费尽心思好不容易在文库找了一份可以用的资料，一看需要用下载券下载，搞的人很烦。

有的人为了节省时间，就任性办理了个文库VIP，再也不用纠结怎么下文档了。如果你是一个百度文库的重度用户，这样做当然没问题了。

但有些学生党、上班族，他们可能只是为了交个作业，做一个产品汇报的PPT等等，对这部分人群再去办理VIP，我觉得没必要，毕竟挣钱也不容易，咱能省就省。

有的人会说，我会选择去某宝买下载券，需要用的时候，用卖家给的账户和密码下载就可以了，这个方法我也用过，不过随着百度文库不断修复漏洞，一些卖家的账户和密码，很快就会失效，这也不是一个长久之计。

当然除了我上面说的这些方法外，还有一些其他的神操作，比如，自己一点点去复杂粘贴、放到手机版的百度文库APP里，再另存为文章、或者用众所周知的“冰点文库”……

在我看来，这些都不是最优的解决方案，我今天就和大家分享一个我自己用Python写的百度文库免下载券的小项目。当然，这个项目主要是用来学习Python爬虫的，如果有任何侵权嫌疑，请联系我删除！

1.优点

不仅可以下载word文档，而且能下载PPT；

可以下载一个完整的文档；

不需要用一些某宝卖家的漏洞网址。

2.准备工作

（1）本次程序主要用到了火狐浏览器的selenium，大家可以在下面网址下载自己火狐浏览器对应的驱动geckodriver。下载地址：https://github.com/mozilla/geckodriver/releases/

下载解压后，将geckodriver.exe安装在Python的安装目录Scripts里面，之后就可以正常使用了。

（2）因为本次项目还涉及到了PPT文档的下载，所以，如果你没安装pptx模块，需要在命令行输入pip3 installpython-pptx提前安装好。

3.PPT文档下载

首先我们随便找一个需要下载券的PPT文档，本文以https://wenku.baidu.com/view/a132c661eef9aef8941ea76e58fafab069dc443d.html?rec_flag=default&sxts=1570202117357为例，打开开发者工具，对文档中图片进行分析，如下图所示：

图片保存在标签为div里面，所以写代码时首先需要找到这个标签，然后再把图片的url提取出来，同时，提取url时还要注意，有的属性是“src”，有的是“data-src”，不然就会出现文档丢失。主要代码如下：

4.下载图片

提取到图片的url后，就可以下载所有的图片，并以pictures命名保存在指定的路径下。代码如下：

5.组合成PPT

此时需要将上面下载好的图片，利用编写的函数重新合成ppt，这里就要用到刚才提前准备好的生成PPT需要的包，此外，为了保证程序顺利运行，还需要一个ppt模板，这个模板里面只有一个图片的占位，主要是为了让所有图片安装模板来创建成新的幻灯片。代码如下：

6.word文档下载

关于文档下载，本文以https://wenku.baidu.com/view/1b5ee5dbad51f01dc281f13e.html?sxts=1570243034873为例。

主要难点是当页数过多时，会出现“继续阅读”的字样，此时需要selenium模拟人去自动点击，所以，需要提取找到“继续阅读”的按钮；另外，还要获取文档的下载总页码，最后还需要对提取的文本进行分段整理。

（1）、寻找“继续阅读”位置

本文主要用到了正则表达式，以及js语法。首先要找到继续阅读的位置，如下图所示：

（2）、获取总页数

要获取整个文档，首先要找到文档的总页数，在下图中找到保存总页数的标签。

还要分析文档中的文字保存在哪个标签，如下图所示：

可以看到，文字主要保存在p标签里，我们找到相应的p标签，然后遍历每一页，提取文字。最后，还要设置一个判断变量，因为提取的文字会有很多行，有的是一个段的，有的不是一段的文字，这里需要处理一下，主要代码如下：

7.写入文档

将下载好的文档，以特定的名字写入新的文档，这里没什么难度，代码如下：

8.结果展示

（1）、PPT下载

（2）、word下载

总结

今天分享的这个用百度文库免下载券的实战项目，主要用自动化测试工具selenium，可以帮助大家获取一些付费的学习资料，大家不用再去某宝买下载券，或者办VIP了，如果有感兴趣的小伙伴，后台回复「文库」即可获得项目源代码。

最后，再次声明，本次项目主要用来学习Python爬虫，不能拿来商用，本人概不承担所有法律责任，如果有侵权，请联系作者，我马上删除。

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 203,937评论 6赞 478
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 85,503评论 2赞 381
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 150,712评论 0赞 337
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,668评论 1赞 276
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,677评论 5赞 366
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,601评论 1赞 281
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 37,975评论 3赞 396
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,637评论 0赞 258
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 40,881评论 1赞 298
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,621评论 2赞 321
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,710评论 1赞 329
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,387评论 4赞 319
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 38,971评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,947评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,189评论 1赞 260
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 44,805评论 2赞 349
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,449评论 2赞 342

不用下载券也能下载百度文库资料，Python帮你轻松搞定

推荐阅读更多精彩内容