爬虫实战1:Python爬取豆瓣图书,发现言情小说界的霸主居然是TA!

继入门了Pyhton数据分析之后,我开始了爬虫的学习之路,主要是发现爬虫的用处实在是太大了,招聘信息、爱豆高清美图/歌曲、房地产信息、股票证券等金融信息、电影资源......只有想不到,没有爬不到!而且爬虫跟数据分析基本是强关联的,当需要针对爬取的数据做清洗和分析时,数据分析就派上用场了~

我的爬虫入门课是成都工业大学的网课《Python爬虫和数据可视化》,原本我是看了一个2016年的教程,结果发现视频中讲解的方式现在已不再适用,因为随着时间的推移和技术的进步,网站的反爬做的越来越好,没有给我可乘之机😂而前面说的这个网课则是2020年最新版的,课程以爬取豆瓣电影TOP250为例讲解了爬虫的基本原理和常用的库。当我跟着课程一步步操作到最后成功爬取了电影数据后,为了巩固基础知识、加深印象,我决定尝试举一反三,目标——爬取豆瓣读书的信息。

打开豆瓣读书的主页,可以看到右侧边栏有“热门标签”,点击任意一个标签即可浏览该标签下的所有图书,我选择了言情、推理和科幻三个大类进行尝试,我的第一个Python爬虫之路正式开始!

言情小说

通过多次尝试发现,各类别下的图书翻到51页就没有数据了,一页是20条,因此推测豆瓣标签下只展示前1000本图书信息,fine,那就爬取1000条咯~


image.png

爬取的信息包括:

①书名②链接③出版信息④星级⑤评价人数⑥简介⑦封面图片⑧评分

由于本篇不是爬虫教程类的文章,因此具体爬取过程略过,我在文末的公众号文章中附上了代码~

1000条信息爬取还是很快的,大概几秒钟的时间即可完成,数据如下:

image.png

接下来就进入正题——数据分析环节,看看根据以上数据我们可以获取哪些信息吧!

TOP200图书墙
言情小说.jpg

我的感觉是:言情小说封面用色比较小清新,古风和古风字体的占比挺高。

哪些作者最受欢迎?
言情作者.png

话不多说,上图!通过对作者名的词频分析,生成词云图,可以看出人气最高的作者是:桐华、匪我思存、墨宝非宝、辛夷坞和丁墨,不知道跟大家心中的猜测是否匹配呢?

由于上大学后我就很少看言情小说了,同时近年热门的大IP剧我也很少追,所以榜单上还是有挺多生面孔的。具体来说就是光TOP5里就有俩我不认识的作者:墨宝非宝和丁墨😂我那个时代的作者,以及更老一些我比较熟悉(看过或身边人都在看其作品)的有匪我思存、亦舒、沧月、明晓溪、郭敬明、八月长安、饶雪漫、张小娴......(流下了时代的眼泪)

描述性统计分析
image.png

字段代表书籍数量,上表展示了整体数据的描述性分析结果,如数量、平均值、标准差、最大/小值、中位数等信息。例如评分的中位数是7.4,平均值是7.27。

上榜超过5本的作者、作品数量及平均评分
言情5本以上作者.png

从数量来看,桐华一骑绝尘,以29本的上榜数量荣登榜首!另补一句,29本未对书名去重,即不同出版社的同一本书会被算作2本,经计算,去重后是24本。

那么她为啥这么火呢?让我们看看书单明细——


image.png

在她的作品里,排在TOP1的是步步惊心,虽然我没看过但电视剧有多火我还是知道的,吴奇隆感觉靠这部剧又火了一次,顺带还娶了年轻貌美的刘诗诗~进一步我百度了下桐华作品改编的电视剧:


image.png

搜到的标题都是这种画风,你们感受下:
image.png

image.png

看到这里,我不禁升起了另一个疑问:这么多书被改编成电视剧,还是大火的剧,能赚多少钱啊?本着吃瓜吃到底的心态,又搜了下桐华的收入。一部《步步惊心》就为其带来了200万以上的版权收入,厉害了!


image.png
评分分布
言情评分分布.png

从评分分布来看,接近一半的作品评分集中在7-8分区间内,其次是6-7分和8-9分,低于6分的较少,而9分以上的作品更是凤毛麟角。来看看9分以上的作品都有哪些吧,由于评价人数过少的书籍的评分置信度相对偏低,因此采取评分人数倒序展示数据:


image.png

从TOP5来看,说明言情小说要想达到9分以上难度非常大,仅《香初上舞·终上》和《有匪2》在约4000人评分的条件下能达到这一水平,评分人数2000以下的可信度一般,基本上是小圈子或者粉丝自high。此时想感叹一句,《香初上舞》是我曾经的高中同桌最喜欢的书籍之一,再次留下时代的眼泪。

再来看看评分人数过5万的作品,评分TOP10的作品明细吧:


image.png

TOP1居然是《最好的我们》,其实我更喜欢《你好,旧时光》哈哈😸这里面除了岩井俊二、张爱玲和亦舒,其他的都算是网络小说作者,果然还是网络的力量大,为言情小说传播贡献了巨大力量。

星级分布
言情星级分布.png

星级分布没什么好说的,跟评分分布类似(星级本身跟评分也是对应的),集中在3.5星,其次是4星,3星和4.5星差不多。

作者国籍分布
image.png

由于国籍信息是从出版信息中作者名前面的注释中提取出来的,有部分未标注国籍的都被算到None里了,所以其实None包含中国籍和其他未标注国籍信息的作者。尽管如此,这个数据还是令我震惊,它明明白白传递的信息是:言情小说已经完全是内地的天下,都不存在半壁江山一说,完完全全,被内地包揽!而韩国和日本,居然只有寥寥几部,要知道,我读书的年代,可爱淘的小说风靡全校啊,没想到如今已经如此没落Orz

说起来,欧美美国好像没啥言情小说,可能是文化所致,他们不习惯亚洲这种含蓄的表达方式,这种纯爱小说估计也没什么市场。不过也有一种可能是欧美小说没有被打上言情的标签,可能是打的通用的“文学”标签。


image.png
作者起书名时最爱用的词都有哪些?

同样地,对书名进行分词,并统计词频,生成词云图,得到我们想要的结果——


言情词汇.png

TOP词汇是:时光、我们、喜欢、如果、倾城......是不是有内味儿了()满满小言的味道~

另外,我注意到最近火的电视剧名字都越来越长,什么香蜜沉沉烬如霜啦、三生三世十里桃花啦,于是我又列了下书名超过7个字的list,来看看都有啥:


image.png

书名长度分布如下,大部分书籍长度还是以2-5个字为主~


image.png

以上是我对豆瓣言情小说标签下书籍的分析,同时我也对推理小说和科幻小说做了相应的分析,详情请移步我的个人微信公众号:苕言苕语(shaoyanshaoyu_),还请朋友们多多支持呀~


参考教程

《Python爬虫和数据可视化》

主要是P15-P25这几个章节

https://www.bilibili.com/video/BV12E411A7ZQ

Python将多张图片进行合并拼接

https://blog.csdn.net/ahaotata/article/details/84027000

以扶摇为例:如何使用Python绘制词云?

https://baijiahao.baidu.com/s?id=1608201291686838534&wfr=spider&for=pc

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 204,684评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 87,143评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 151,214评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,788评论 1 277
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,796评论 5 368
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,665评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,027评论 3 399
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,679评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 41,346评论 1 299
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,664评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,766评论 1 331
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,412评论 4 321
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,015评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,974评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,203评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,073评论 2 350
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,501评论 2 343