01 正确地勤奋
时间如此宝贵,我们应该以正确的方式勤奋。那什么才是正确的勤奋姿势呢?
想办法,自动化你的工作。
比如,你的老板让你去统计一下对手公司的产品价格数据,你是要一条一条地去复制粘贴么?
比如,你的老板让你去收集近一个月的项目招标书,你是要一条一条地去搜索复制么?
NO!
最近,我学习了一下web scraper,这是google chrome浏览器的一个插件,是爬取网页信息的神器。
与python相比,web scraper易学易上手,在简要爬取网页内容方面,其可视化程度,便捷性都略胜一筹。
不过若是想要深度爬取网页信息,还是建议python走起。
好了,闲话不多说,看看我用web scraper干了些什么。
</br>
02 爬取爬取爬取
学会了web scraper,好奇心骤然升起:
- 大家最近都在读什么书呢
- 大家最近都在问什么问题呢?
- 大家最近喜欢看什么样的文章呢?
于是,我用web scraper分别爬取了:
- 亚马逊图书和豆瓣阅读上的100个热门书籍,作者,评分和评论数;
- 知乎上最近1个月的200个热门回答,点赞量,作者以及作者介绍;
- 简书最近的100篇热门文章,及其阅读量,点赞量和作者。
然后把这些数据以csv 格式存储到本地,放到SQL关系数据库中,再顺带用python jieba分词看看关键字,用聪明的大脑分析。整个爬取分析流程如下图:请大家忽略那个双黄蛋,谢谢(ಥ_ಥ)
结果蛮有意思的,来看看吧!(以下都是个人观点,相信我,我说的都是错的)
文末有总结
</br>
03 大家在读什么
要知道,向别人索要书单,是让自己退步最快的方式。以下分析,仅限于了解大众的口味。
说说中文图书吧,不论是亚马逊还是豆瓣阅读的数据,都显示:
1.更多的人喜欢读小说——前10名无一例外,全是虚构类
- 更多的人选择推理类,科幻类的小说作品。
- 恭喜东野圭吾,刘慈欣荣获最受读者关注作者奖。
- 追风筝的人,评论数,讨论量远超第二名,荣获最受读者关注图书奖。
- 最近欢乐颂这部小说很火啊~
2.非虚构类图书,人们口味偏向于以下三类:
- 社会科学:乌合之众,人类简史,极简欧洲史
- 个人成长:好好学习,心理学,时间管理。
- 儿童教育类
另,穷查理宝典这本被严重低估的书籍,榜上有名,第83名,耶。
</br>
04 大家在问什么
以知乎本月热门回答url为入口,爬取了本月所有热门回答,将这200个问题的标题用jieba库分词并查看权重。
得到下面这张图,通过该图,我们可以粗略的了解,大家最近都在关心些什么话题:
户型,国外品牌,小孩,资源,游戏,买房,健康……
结合SQL,进一步分析数据,得到以下几个推论:
- 人们越来越关注健康:点赞量前20的回答中,有6个关于健康
- 年轻人很迷茫,人们越来越关注个人成长:可能源自知乎用户群体特征
- 人们喜欢听故事,特别是剧情反转,咸鱼翻身的故事
- 热门回答中,获得总点赞数最多的答主:丁香医生(5170),周小肉(3025),娱我所欲也(2962)
</br>
05 大家喜欢读什么样的文章
以简书本月热门文章为入口,爬取了简书上100篇热门文章的标题,作者,浏览量,点赞量。
想要研究一下,什么样的文章标题能够吸引大家的注意力,哪个作者影响力更大。
- top100中,获得总点赞量前三的作者:陈姿依(5048),韩大爷的杂货铺(3274),有备而来的路人甲(3216)
- top100中,获得总浏览量最高的作者:韩大爷的杂货铺(26450),瓯南(18677),空白中的独舞(14082)
- 人们喜欢读哪类文章(基于点赞量和浏览量):
- 清单类:大学两年读了200本书,想你推荐这7本
- 具体数字类:30个孤独的夜晚,我为你准备了30段独白和20张照片
- 青春梦想类:有趣的灵魂很少,但大家都觉得自己是例外
- 实践方法论类:每天早起半小时读书,坚持一年会改变自己吗
同样地,将这100篇文章标题用python jieba库分词并分析权重,得到下图,看看大家在写什么,读什么文章:
读书,大学,塑身,月薪,思维习惯,低品质,干货……
</br>
06 总结
通过Web Scraper, python jieba, sql语句,爬取并简要分析了豆瓣,亚马逊,知乎,简书上,最近1个月的话题趋势,总结如下:
- 读书:人们更喜欢读推理科幻类小说,和社会科学/个人成长/儿童教育类非虚构类书籍
- 提问:人们越来越关注健康,个人成长,人们喜欢听故事
- 写作:人们更容易点击清单类/具体数字类/方法论类/梦想类的文章标题
以上分析仅供参考,希望对你有用。