数据分析离不开数据,所以我们的第一步就是收集数据,下载了刘慈欣的小说集进行分析
数据集:刘慈欣(《三体》作者)的小说集
先看一下数据量
压缩文件大小:
解压后所有的文本大小:
六万行文本:
分词:(使用结巴分词)
分词后的文本大小:
分词结果,179w词:
分词结果去重,5.6w:
根据结巴分词词性总结停用词,以下为结巴分词词性,来源网络,(百度搜索更全):
Ag形语素形容词性语素。形容词代码为 a,语素代码g前面置以A。
a形容词取英语形容词 adjective的第1个字母。
ad副形词直接作状语的形容词。形容词代码 a和副词代码d并在一起。
an名形词具有名词功能的形容词。形容词代码 a和名词代码n并在一起。
b区别词取汉字“别”的声母。
c连词取英语连词 conjunction的第1个字母。
dg副语素副词性语素。副词代码为 d,语素代码g前面置以D。
。。。
根据词性选出停用词:
类似词性为x的选为停用词,再从连词、介词中选择出来一部分
测评词性是否应该成为停用词的代码(将抽样的数据填入写入abstrace.log)进行评估
然后汇总成停用词表
下篇继续。。。