近日研究爬虫,于是闲着无聊爬了一下古诗文网,有了数据索性再来分析一波。目标选定了曾国藩家书
首先使用jieba
分词对其进行分词,分词后使用wordcloud
生出词云,看一下那些词使用的最多
拥有哪些信息呢?
- 作为家书了,提到最多的当然是家人啦: 叔父、祖父母、弟兄,由于关心家里情况
家中
这个词的出现频率也很高 - 时间: 四月、八月、九月、正月等,家书中落款需要写时间,所以出现月份的频率较高,但是同样是月份有的月份出现的频率高,有的出现的频率低,那说明啥呢, 说明出现频率高的月份写的信就多啦,那也可以思考一下,曾国藩没有写信的那段时间是在干嘛,也许比较忙,也许回家了,总之曾国藩的信没有像新闻联播那么准时。
- 尽显老大哥的风范:作为家长长子,写的信满满的都是
不可
,不知
,不能
,不必
,哎呀简直是这也不可以那也不可以啊 - 劝学: 大大的
读书
两个字,放佛在告诉我们,学霸的弟弟不想当学霸都难啊。
好了再看一下曾国藩提及最多的是谁?
这里专对书中出现的人名进行统计。
果然兄弟情深,国藩
和 诸弟
出现的是最多的,在加上各种各样的其他弟弟更加不得了了,不过这里也出现了一些问题: 比如 万福金安
显然是个问候语, 金陵
应该是个地名, 高丽参
是一种人参之类的药物,显然分词不够准确, 于是改进一下。
这些好多了,比之前的更加合理。这里冯树堂
出现的频率居然如此之高,害得我赶紧查一下到底是何许人也,居然在曾国藩的心中占有如此重要的位置,
待解决的问题
对于人名的解析不够准确,主要是信中会出现代词之类,比如: 余
,汝
等,只是简单的对名字进行解析无法真实反应其出现的频率,需要进一步的解决这个问题