详细记录了python爬取小说《元尊》的整个过程,看了你必会~

学了好几天的渗透测试基础理论,周末了让自己放松一下,最近听说天蚕土豆有一本新小说,叫做《元尊》,学生时代的我可是十分喜欢读天蚕土豆的小说,《斗破苍穹》相信很多小伙伴都看过吧。今天我们就来看看如果一步一步爬下来《元尊》的所有内容。

首先我们需要选择一个网站进行爬取,我这边使用的是书家园网站,其它网站的操作也是类似原理。

相关库文件

我们使用的库有requests、re和time,其中re和time都是python自带库,我们只需要安装一个requests库。

pip install requests

编码过程

我们可以先访问书家园网站找到《元尊》书籍首页的url——https://www.shujy.com/5200/9683/

image

通过requests进行请求,然后将html打印出来。

import requests
url ='https://www.shujy.com/5200/9683/'
response = requests.get(url)
html = response.text

print(html)

打印出来如下图:


image

我们找到html中关于文章标题和作者的部分


image

我们通过正则表达式将标题和作者提取出来

title = re.findall(r'<meta property="og:novel:book_name" content="(.*?)"/>',html)[0]
author = re.findall(r'<meta property="og:novel:author" content="(.*?)"/>',html)[0]

接下来我们就需要将每一章小说的链接拿出来了,我们通过浏览器中F12工具


image
  1. 点击左上角的箭头
  2. 点击我们需要定位的元素,我们需要找到每一章的链接,所以我们点击“正文 第一章”
  3. 我们就可以看到开发者工具中出现了对象在html中的位置

分析链接的位置我们发现都是在“<div id="list"></div>”这个div标签中间,然后每个链接都是在href后面。那我们先将这个div标签中的内容取出来然后对取出的内容找到所有的href标签中的链接放在一个列表中。

dl =re.findall(r'<div id="list">.*?</div>',html,re.S)[0]
chapter_info_list=re.findall(r'<a href="(.*?)">(.*?)</a>',dl)

这样我们就拿到了所有的章节列表,现在我们需要考虑如何去获取每一章节的内容。我们将首页的URL和每一个章节的链接进行拼接。

chapter_url = url+'/'+chapter_url
chapter_url = chapter_url.replace(' ','')

然后我们同样通过requests库获取到章节内容的HTML文件

chapter_response = requests.get(chapter_url)
chapter_html = chapter_response.text

通过同样的方式,我们发现正文的内容都是在“<div id="content"></div>”这样一个div标签中


image

我们将这个div标签中的正文内容全部拿出来

#获取第一页正文内容
chapter_content = re.findall(r'<div id="content">(.*?)</div>',chapter_html,re.S)[0]

我们将取出来的内容打印一下看看

image

我们发现还存在一些“<br />”和“&emsp;&emsp;”这样的元素,这些都是我们不希望看到的,那我们就通过replace函数给过滤掉。

chapter_content = chapter_content.replace('&emsp;&emsp;','')
chapter_content = chapter_content.replace('<br />','')

我们看看过滤后的内容


image

发现还是有些不对,为什么每一行文字都空了一行呢?我们通过debug看一下过程中的chapter_content内容


image

果然还存在一些制表符,那我们就只保留一个换行符“\n”

chapter_content = chapter_content.replace('\r\n\r', '')
image

这样我们就将这个页面的正文全部扒下来了,但我们翻到页面的末尾我们发现每章可能不仅仅一页,可能存在两页、三页甚至更多内容,怎么才能完整的将这不确定的内容拿下来呢?

我们看到在每一页的正文中都写明了这一章一共需要多少页,并且提供了下一页的链接,我们就通过这个线索来完成。

image

首先我们需要将总共的页数和下一页的链接取出来。

chapter_url,current_page,total_pages = re.findall(r'本章未完,请点击<a style="color:red;" href="(.*?)">下一页</a>继续阅读!第(.*?)页 / 共(.*?)页</p>', chapter_content,re.S)[0]

然后我们利用一个for循环去取内容,取的方式和前面类似,就不再详细描述了,直接上代码。

for i in range(1,int(total_pages)):
    chapter_url,current_page,total_pages = re.findall(r'本章未完,请点击<a style="color:red;" href="(.*?)">下一页</a>继续阅读!第(.*?)页 / 共(.*?)页</p>',chapter_content)[0]
    chapter_url = url+'/'+chapter_url
    chapter_url = chapter_url.replace(' ','')
    chapter_response = requests.get(chapter_url)
    chapter_html =chapter_response.text
    chapter_content = re.findall(r'<div id="content">(.*?)</div>', chapter_html, re.S)[0]
    chapter_content = chapter_content.replace('&emsp;&emsp;', '')
    chapter_content = chapter_content.replace('<br />', '')
    chapter_content = chapter_content.replace('\r\n\r', '')
    f.write('\n')
    f.write(chapter_content)

最后我们只需要在外面加一个文件写入操作,将每一次读出的正文内容写入进去就好了。

with open('%s.txt'%title,'w') as f:
    f.write(title)
    f.write('\n')
    f.write(author)
    f.write('\n')

list index out of range报错的处理

看着是一切都完成了,可是在我最后来下载的时候,经常在不同的章节出现这样的错误。

image

这一次可能是在第四章出现问题,下一个可能是在第十章出现问题,总之不固定。我查询了一下这种错误一般会有两种情况

  1. list[index]index超出范围
  2. list是一个空的,没有一个元素,进行list[0]就会出现错误!

虽说查询到了原因,这两种情况都不能应该出现随机章节出现报错呀,我还是没有找到原因,如果有大神看到了可以指定一二。

但是我找到一个规避的措施,就是既然它是随机章节报错,那就是我一旦检测到报错之后就再重新请求一次url,重新通过正则校验一次。为此我拎出来一个这样的函数。

def find(pattern,string,url):
    try:
        chapter_content = re.findall(pattern, string, re.S)[0]
        return chapter_content
    except Exception as e:
        print(e)
        time.sleep(1)
        chapter_response = requests.get(url)

        chapter_html = chapter_response.text
        print(chapter_html)
        print(url)
        i = find(pattern,chapter_html,url)
    return i

执行之后果然可行,我一直执行着,现在已经下载了一百多章了

image

现在看来唯一的缺点就是有点慢,原谅菜鸟小白还没有怎么弄过多线程和多进程,下次我们再来改进吧。

源码获取

源码获取还是老规矩,关注公众号“菜鸟小白的学习分享”,私信回复“小说爬虫源码”即可获取。

image

好了,今天的内容就到了,如果你觉得菜鸟小白的分享对你有帮助的,就帮忙点一个点赞、在看和关注呗,我们下次再会~

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 195,898评论 5 462
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 82,401评论 2 373
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 143,058评论 0 325
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 52,539评论 1 267
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 61,382评论 5 358
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 46,319评论 1 273
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 36,706评论 3 386
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 35,370评论 0 254
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 39,664评论 1 294
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 34,715评论 2 312
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 36,476评论 1 326
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 32,326评论 3 313
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 37,730评论 3 299
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,003评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 30,275评论 1 251
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 41,683评论 2 342
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 40,877评论 2 335