导语
词频统计分析:是文本挖掘的重要方法,通过关键词出现频次多少的变化,来确定热点及其变化趋势。
不管你是在工作还是生活中,都会有词频统计的需求
比如:我最近迷上了周杰伦的歌,我想分析周杰伦的歌曲的高频词
比如:我要做关于淘宝国产手机评论分析,了解下大家都主要说了哪些总要的信息,并帮助商家如何提升产品质量和业绩
比如:我在政府机构上班,需要对每次行业报告做词频挖掘分析,了解本次报告重点出现的关键词与以往的报告做对比
甚至不少大学生也会应用到词频统计工具,帮助他写论文报告、帮助他快速了解一本书的中心思想等等
此处使用一款国内非常良心的词频统计分析工具“微词云.强大的文字云艺术生成器”,你不需要懂任何代码程序,只要把文本内容复制导入到“微词云”中就可以完成词频统计了。
微词云词频统计功能特点
1. 支持千万大文本分词量:最高上传文本量20M
2. 自定义词典功能:关心词一个都不拉,分析更精准
3. 提供多纬度筛词:过滤未知词、单个词、词频为1的词、根据不同词性进行过滤词
4. 词频统计下载:支持下载全部的分词词频统计结果
5. 支持词云图可视化:可以在这里做出非常漂亮的词云图哦
词频统计分析案例
我以384首的周杰伦歌词析案例进行分享微词云如何实现词频统计的
先进入微词云(weiciyun.com)的首页:点击【创建词云】
tep1:点击【导入单词】,把文本输入到【分词筛词后导入】中
把周杰伦的歌词文本复制粘贴到文本框中,点击【开始分词】
tep2:进入到词性筛词界面,先通过【词性】进行筛选不需要的词(不需要的词,就取消勾选就可以了)
筛选完词后,点击右下角的【确定使用所选单词】以上就完成了基本的文本分词词频统计的功能
【GIF操作视频】
【词频中的高级功能】
自定义词典:希望分词更精准(例如手感好,系统被分成“手感和好”了)建议在分词页使用【自定义词典】功能;把不想被分开的关键词输入到自定义词典中就可以了;使用自定义词典功能
位置:自定义词典功能:在单词导入的右上角上
我们来看下周杰伦歌词的top前20词频可视化
top10词频数
通过词频可视化可以看出,周杰伦的哥很悲伤,“回忆”“离开”充满着孤单的情感。主要偏爱情的歌曲比较多
【重点功能:保存草稿】
可以根据筛词后的数据做出不同形状的词频可视化词云图,微词云还支持”python“颜色模版哦
在配置中的颜色组中可以找到
对文本的关键词进行细致分析,例如周杰伦歌词中的情感词,可以手动返回到到筛词页进行在次筛词下
点击【单词导入】即可进入到筛词页
周杰伦的情感中,被“爱情,妈妈,眼泪,安静和思念”笼罩着,情感比较丰富
最后
抛砖引玉,我也只是应用到微词云中的一部分功能,微词云做词频统计分析相对于其他工具做比较优秀的一款国内工具了