数据告诉你｜大家在读什么，写什么，问什么

01 正确地勤奋

时间如此宝贵，我们应该以正确的方式勤奋。那什么才是正确的勤奋姿势呢？

想办法，自动化你的工作。

比如，你的老板让你去统计一下对手公司的产品价格数据，你是要一条一条地去复制粘贴么？

比如，你的老板让你去收集近一个月的项目招标书，你是要一条一条地去搜索复制么？

NO！

最近，我学习了一下web scraper，这是google chrome浏览器的一个插件，是爬取网页信息的神器。

与python相比，web scraper易学易上手，在简要爬取网页内容方面，其可视化程度，便捷性都略胜一筹。

不过若是想要深度爬取网页信息，还是建议python走起。

好了，闲话不多说，看看我用web scraper干了些什么。

02 爬取爬取爬取

学会了web scraper，好奇心骤然升起：

大家最近都在读什么书呢

大家最近都在问什么问题呢？

大家最近喜欢看什么样的文章呢？

于是，我用web scraper分别爬取了：

亚马逊图书和豆瓣阅读上的100个热门书籍，作者，评分和评论数；
知乎上最近1个月的200个热门回答，点赞量，作者以及作者介绍；
简书最近的100篇热门文章，及其阅读量，点赞量和作者。

然后把这些数据以csv 格式存储到本地，放到SQL关系数据库中，再顺带用python jieba分词看看关键字，用聪明的大脑分析。整个爬取分析流程如下图：请大家忽略那个双黄蛋，谢谢(ಥ_ಥ)

web scraper抓取流程

结果蛮有意思的，来看看吧！（以下都是个人观点，相信我，我说的都是错的）

文末有总结

03 大家在读什么

要知道，向别人索要书单，是让自己退步最快的方式。以下分析，仅限于了解大众的口味。

说说中文图书吧，不论是亚马逊还是豆瓣阅读的数据，都显示：

1.更多的人喜欢读小说——前10名无一例外，全是虚构类

更多的人选择推理类，科幻类的小说作品。

恭喜东野圭吾，刘慈欣荣获最受读者关注作者奖。
追风筝的人，评论数，讨论量远超第二名，荣获最受读者关注图书奖。
最近欢乐颂这部小说很火啊～

2.非虚构类图书，人们口味偏向于以下三类：

社会科学：乌合之众，人类简史，极简欧洲史

个人成长：好好学习，心理学，时间管理。
儿童教育类

另，穷查理宝典这本被严重低估的书籍，榜上有名，第83名，耶。

受欢迎的作者们

04 大家在问什么

以知乎本月热门回答url为入口，爬取了本月所有热门回答，将这200个问题的标题用jieba库分词并查看权重。

得到下面这张图，通过该图，我们可以粗略的了解，大家最近都在关心些什么话题：

户型，国外品牌，小孩，资源，游戏，买房，健康……

结合SQL，进一步分析数据，得到以下几个推论：

人们越来越关注健康：点赞量前20的回答中，有6个关于健康
年轻人很迷茫，人们越来越关注个人成长：可能源自知乎用户群体特征
人们喜欢听故事，特别是剧情反转，咸鱼翻身的故事
热门回答中，获得总点赞数最多的答主：丁香医生(5170)，周小肉(3025)，娱我所欲也(2962)

热门问题关键字

05 大家喜欢读什么样的文章

以简书本月热门文章为入口，爬取了简书上100篇热门文章的标题，作者，浏览量，点赞量。

想要研究一下，什么样的文章标题能够吸引大家的注意力，哪个作者影响力更大。

top100中，获得总点赞量前三的作者：陈姿依(5048)，韩大爷的杂货铺(3274)，有备而来的路人甲(3216)
top100中，获得总浏览量最高的作者：韩大爷的杂货铺(26450)，瓯南(18677)，空白中的独舞(14082)
人们喜欢读哪类文章（基于点赞量和浏览量）：
- 清单类：大学两年读了200本书，想你推荐这7本
- 具体数字类：30个孤独的夜晚，我为你准备了30段独白和20张照片
- 青春梦想类：有趣的灵魂很少，但大家都觉得自己是例外
- 实践方法论类：每天早起半小时读书，坚持一年会改变自己吗

同样地，将这100篇文章标题用python jieba库分词并分析权重，得到下图，看看大家在写什么，读什么文章：

读书，大学，塑身，月薪，思维习惯，低品质，干货……

热门文章标题关键字

06 总结

通过Web Scraper, python jieba, sql语句，爬取并简要分析了豆瓣，亚马逊，知乎，简书上，最近1个月的话题趋势，总结如下：

读书：人们更喜欢读推理科幻类小说，和社会科学／个人成长／儿童教育类非虚构类书籍
提问：人们越来越关注健康，个人成长，人们喜欢听故事
写作：人们更容易点击清单类／具体数字类／方法论类／梦想类的文章标题

以上分析仅供参考，希望对你有用。