转载请注明地址:用python对鹿晗微博进行数据分析
这篇文章主要对数据进行简单的分析,代码在这里:
python利用pandas、matplotlib和wordcloud做数据分析
- 准备分析的数据:
|----评论者的微博昵称
|----微博的评论
|----评论者的性别
|----评论者的所在地
|----评论者的生日
这次的数据准备了30万+评论,其中不重复用户14万+。数据只是简单的进行了简单的去重和缺失值处理,感觉不用特别精确也能看出结果。这次的分析不是最终的结果,只是可以参考的一个趋势
用户分析
-
首先来看看评论最多的前几名
我的天,一个人一条微博评论800+,这是不用吃饭吗。。。
不知道前三十里面是不是全是真爱啊!
-
再来看看评论数的折线图
- 感觉在平稳的折线取值分析比较靠谱,所以放大了看看。
-
14万数据,出现一人几百条的也就那几个,所以把他们筛选掉。
- 在1000左右,人均的评论数差不多在20左右,才感觉不会是刷出来的。
-
再看看性别,毫无疑问的。
- 感觉这个结果还算正常,比计算机专业男女比大一点。
-
之后再来说年龄分布
- 由于微博默认生日的原因,有好几个突出点,可以忽略,我也把范围截取到了1949年-2017年。
- 90后的峰值我预料到了,但是没想到00后会降的这么明显。难道真的都喜欢TF?本来想在爬一下TF的看看,不过感觉大同小异就没有再做。
-
之后看看具体排名吧:
- 第一是98年的同学,不过前几名差距不是很大,可能跟采集的数据有关系。
- 可以看出来00后只有 00、01、02在坚守阵地了。
- 90后真的老了吗。。。。。
-
最后来看看地区分析吧
- 先来看看省份和四个直辖市分布,北京第一,有一点可能好多人都改成了和鹿晗一样的东城区。。。所以可能不是很准确。
- 其次是广东,不知道为什么,好多刷量小号默认位置也是广东,不知是不是这个原因和北京并列。
- 河北排在了第9。。。
再来看看城市分布
- 海淀区居然是第一,这个没有想到。
- 基本上分三个梯队吧,石家庄在第三梯队。
- 很尴尬的是,分词的时候把大连给分了?
最后看看整体城市分布比例吧,感觉石家庄有点小啊。
评论分析
- 从词云上可以看出来,评论中出现最多的词是鹿晗,这点并不意外。
- 其次,音乐,爱,零界点,棒棒糖等词也排在前面,我想是因为这次爬取得微博是棒棒糖那篇。
- 另外中间右部,
迪丽
也出现了,可能八卦的网友也不少啊。 - 整体感觉比较正能量,黑粉还是要少的多。
整体分析差不多就这样了,第一个项目做的有点慢,下次计划分析一下淘宝的商品信息,不过爬数据要花时间,可能会很久了。