python小说爬虫,把全网小说下载到你的电脑

hello大家好,我是你们的可爱丸,不知道你们有没有遇到过这种情况:

自己喜欢的小说竟然只能看不能下载???

作为一个python学习者,这种情况当然不能忍,那么今天我就教大家用python写一个小说爬虫,轻轻松松的把全网小说都下载到你的电脑里。

效果

本次案例我选取的是小说网站是:笔趣阁,首页地址为:https://www.52bqg.com/

首页

因为该小说网站上每一本小说的内容都很多,所以今天我就教大家设计针对单本小说的爬虫。在本案例中,我选取的是以下这本还在连载的小说,网页地址为:https://www.52bqg.com/book_307/

书本页

在正式开始讲解之前我先给大家讲解一下我的设计思路:

1、确定想要爬取的小说及入口url
2、在入口url通过解析获取小说所有章节名称及各章节href
3、通过字符串拼接得到所有章节详情页的地址
4、爬取每章具体内容的文本
5、将每章小说以章节名称命名并保存为txt文件

注意:现在各大网站都有反爬机制,所以我们要对我们的爬虫进行伪装,让它模仿浏览器访问,这样网站就检测不到访问他的是爬虫程序啦。所以我们要给爬虫设置请求头,将网页的User-Agent复制到代码里

请求头
headers = {'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.149 Safari/537.36'}

刚才我们已经确定了想要爬的小说以及入口url,那怎么获取小说的章节名称和href呢?方法是:点击鼠标右键,选择检查,然后选择左上角的小箭头,再把鼠标移动到我们想要获取的内容的位置,就能找到他们的代码啦!

检查
章名称

这里我们通过xpath的方式获取需要的内容 ,如果你对xpath不熟悉的话,那我们还可以通过如下的一个小妙招轻松获取xpath路径。

xpath路径

注意:dd[3]代表的是获取第三个dd标签的内容,如果你想获取所有章节名称,那把[3]去掉即可,即:

//*[@id="list"]/dl/dd[3]/a

变为:

//*[@id="list"]/dl/dd/a

代码如下:

#设置爬取小说的函数功能
def get_text(url):
    response = requests.get(url, headers=headers)
    #最常用的编码方式是utf-8以及gbk,出现乱码可以先尝试这两种
    response.encoding = 'gbk'
    selector = etree.HTML(response.text)
    #获取到所有章节的标题
    title = selector.xpath('//*[@id="list"]/dl/dd/a/text()')
    #获取每章小说具体内容的链接
    hrefs = selector.xpath('//*[@id="list"]/dl/dd/a/@href')

接下来我们来想一想如何获取到每一章的内容链接呢?首先我们可以观察一下每一章的链接有什么规律:

第一章:https://www.52bqg.com/book_307/189710.html
第二章:https://www.52bqg.com/book_307/189713.html
第三章:https://www.52bqg.com/book_307/189716.html
第四章:https://www.52bqg.com/book_307/189720.html
第五章:https://www.52bqg.com/book_307/189723.html

我们可以观察到,每章的链接地址前面有一部分都是相同的,而最后一个/后的内容都是每一章名称a标签的href属性的内容,因此我们可以通过字符串的拼接来找到具体章节地址

 urls = []
    for href in hrefs:
        #把url和href拼接得到每一章具体内容的url并存在urls列表里
        urls.append(url+href)

然后我们可以再次通过审查元素的方法,找到章节内容的xpath路径,获取每一章的内容

每章内容
    for i in range(len(urls)):
        #传入每一章内容具体链接的url
        response = requests.get(urls[i], headers=headers)
        response.encoding = 'gbk'
        selector = etree.HTML(response.text)
        #获取每一章具体的内容
        contents = selector.xpath('//*[@id="content"]/text()')
        #保存小说章节名称及章节内容

最后我们再设计一下保存文章的代码,并使这个爬虫能帮助我们在没有对应文件夹的情况下自动创建文件夹保存小说文件。

自动生成小说文件夹:

import os

#自动创建保存小说的文件夹
# os.chdir()方法用于改变当前工作目录指定的文件夹
if not os.path.exists(os.getcwd()+"/xiaoshuo"):
    print("小说文件夹不存在,帮你自动创建好了")
    print("==================================")
    os.mkdir("xiaoshuo")
    #把当前路径改为到xiaoshuo文件夹处
    os.chdir(os.getcwd()+"/xiaoshuo")
else:
    print("小说文件夹存在")
    os.chdir(os.getcwd()+"/xiaoshuo")
    print("==================================")

保存为txt文件:

with open(title[i]+".txt", "w", encoding='utf-8') as f:
            for content in contents:
                content = content.replace("\n","")
                #将每一章的内容写入对应章节的txt文件里
                f.write(content)
            print(str(title[i])+"下载成功!")

代码运行效果:

效果

完整代码:

#导入需要用到的模块
import requests
from lxml import etree
import os

#自动创建保存小说的文件夹
# os.chdir()方法用于改变当前工作目录指定的文件夹
if not os.path.exists(os.getcwd()+"/xiaoshuo"):
    print("小说文件夹不存在,帮你自动创建好了")
    print("==================================")
    os.mkdir("xiaoshuo")
    #把当前路径改为到xiaoshuo文件夹处
    os.chdir(os.getcwd()+"/xiaoshuo")
else:
    print("小说文件夹存在")
    os.chdir(os.getcwd()+"/xiaoshuo")
    print("==================================")

#设置请求头
headers = {'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.149 Safari/537.36'}

#设置想要爬取的小说链接
url = 'https://www.52bqg.com/book_307/'

#设置爬取小说的函数功能
def get_text(url):
    response = requests.get(url, headers=headers)
    #最常用的编码方式是utf-8以及gbk,出现乱码可以先尝试这两种
    response.encoding = 'gbk'
    selector = etree.HTML(response.text)
    #获取到所有章节的标题
    title = selector.xpath('//*[@id="list"]/dl/dd/a/text()')
    #获取每章小说具体内容的链接
    hrefs = selector.xpath('//*[@id="list"]/dl/dd/a/@href')
    urls = []
    for href in hrefs:
        #把url和href拼接得到每一章具体内容的url并存在urls列表里
        urls.append(url+href)

    for i in range(len(urls)):
        #传入每一章内容具体链接的url
        response = requests.get(urls[i], headers=headers)
        response.encoding = 'gbk'
        selector = etree.HTML(response.text)
        #获取每一章具体的内容
        contents = selector.xpath('//*[@id="content"]/text()')
        #保存小说章节名称及章节内容
        with open(title[i]+".txt", "w", encoding='utf-8') as f:
            for content in contents:
                content = content.replace("\n","")
                #将每一章的内容写入对应章节的txt文件里
                f.write(content)
            print(str(title[i])+"下载成功!")

if __name__ == '__main__':
    get_text(url)

今天的小说爬虫案例就分享到这里啦,喜欢的朋友们记得给我点赞关注支持我哦,我将持续和大家分享python学习经验 O(∩_∩)O~

我是可爱丸,人生苦短,我学python!

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 203,230评论 5 476
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,261评论 2 380
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 150,089评论 0 336
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,542评论 1 273
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,542评论 5 365
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,544评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,922评论 3 395
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,578评论 0 257
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,816评论 1 296
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,576评论 2 320
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,658评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,359评论 4 318
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,937评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,920评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,156评论 1 259
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 42,859评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,381评论 2 342

推荐阅读更多精彩内容