目录
1.mmseg4j中文分词包(下载、安装与运行)
2.分词方法与效果分析
3.分词包算法学习
4.分词结果
5.词云分析
一、mmseg4j中文分词包
1.下载:我这里采用的是mmseg4j+solr,通过solr(可视化界面)整合mmseg4j中文分词包来进行分词。
(1)mmseg4j:选择最新版本mmseg4j-2.3.0
mmseg4j-solr-2.3.0-with-mmseg4j-core是Solr的中文分词包,支持Solr5.x版本,向上兼容Solr6,但是不支持Solr6的所有版本。该压缩包含有mmseg4j-core-1.10.0.jar和mmseg4j-solr-2.3.0.jar
(2)solr:选择最新版本solr-6.5.1
Solr是一个高性能,采用Java5开发,基于Lucene的全文搜索服务器。用户可以通过http请求,向搜索引擎服务器提交一定格式的XML文件,生成索引;也可以通过Http Get操作提出查找请求,并得到XML格式的返回结果。提供了比Lucene更为丰富的查询语言, 同时实现了可配置、可扩展并对查询性能进行了优化,并且提供了一个完善的功能管理界面, 是一款非常优秀的全文搜索引擎。
(3)JDK:选择最新版本jdk-1.8.0-131
solr服务器搭建需要在JAVA环境当中。
tips:注意solr版本、JDK和mmseg4j版本要搭配,不然会出问题。
我之前采用的是mmseg4j-1.9.1和solr-6.5.1,结果出现下列错误:
2.安装配置、运行
(1)检查Java环境(cmd)
如上图所示,说明JAVA环境已搭好。
(2)分别安装配置solr-6.5.1和mmseg4j-2.3.0
(3)装好之后,在cmd当中启动solr:
$ CD SOLR
$CD SOLR-6.5.1
$ CD BIN
$SOLR START
(4)浏览器输入:http://localhost:8983/solr/ 看到solr界面
(5)solr整合mmseg4j
友情链接:http://blog.csdn.net/youyou_yo/article/details/52065562?locationNum=1&fps=1
solr集成mmseg4j之后,就可以看见mmseg4j新增的field:
二、分词方法与效果分析
1.mmseg4j两种分词方法: Complex、Simple
三种分词模式:Complex、Simple、MaxWord,默认是MaxWord。
mmseg4j用Chih-HaoTsai的MMSeg算法实现的中文分词器,MMSeg算法有两种分词方法:Simple和Complex,都是基于正向最大匹配。
2.效果分析
下面用三种模式进行分词:
蒂姆伯纳斯李,英国计算机科学家。他是万维网的发明者,麻省理工学院教授。1990年12月25日,罗伯特卡里奥在CERN和他一起成功通过Internet实现了HTTP代理与服务器的第一次通讯。1999年《时代》将他列入20世纪最有影响的100名英国人之一。 2004年,英女皇伊丽莎白二世向蒂姆伯纳斯李颁发大英帝国爵级司令勋章。2009年4月,他获选为美国国家科学院外籍院士。在2012年夏季奥林匹克运动会开幕典礼上,他获得了“万维网发明者”的美誉。2017年4月4日,蒂姆伯纳斯李获得2016年ACM“图灵奖”。
(1)Complex
蒂 姆 伯 纳 斯 李 英国 计算机 科学家 他是 万维网 的 发明者 麻省理工学院 教授 1990 年 12 月 25 日 罗伯特 卡 里 奥 在 cern 和他 一起 成功 通过 internet 现 了 http 代理 与 服务器 的 第一次 通讯 1999 年 时代 他 列入 20 世纪 最有 影响 的 100 名 英国人 之一 2004 年 英 女皇 伊丽莎白 二世 向 蒂 姆 伯 纳 斯 李 颁发 大 英 帝国 爵 级 司令 勋章 2009 年 4 月 他 获选 为 美国 国家 科学院 外籍 院士 在 2012 年 夏季 奥林匹克运动会 开幕典礼 上 他 获得 了 万维网 发明者 的 美誉 2017 年 4 月 4 日 蒂 姆 伯 纳 斯 李 获得 2016 年 acm 图 灵 奖
(2)MaxWord
蒂 姆 伯 纳 斯 李 英国 计算 机 科学 学家 他是 万 维 网 的 发明 者 麻省 理工 工学 学院 教授 1990 年 12 月 25 日 罗 伯 特 卡 里 奥 在 cern 和他 一起 成功 通过 internet 实现 了 http 代理 与 服务 器 的 第一 一次 通讯 1999 年 时代 将他 列入 20 世纪 最有 影响 的 100 名 英国 国人 之一 2004 年 英 女皇 伊 丽 莎 白 二世 向 蒂 姆 伯 纳 斯 李 颁发 大 英 帝国 爵 级 司令 勋章 2009 年 4 月 他 获选 为 美国 国家 科学 学院 外籍 院士 在 2012 年 夏季 奥 林 匹 克 运动 会 开幕 典礼 上 他 获得 了 万 维 网 发明 者 的 美誉 2017 年 4 月 4 日 蒂 姆 伯 纳 斯 李 获得 2016 年 acm 图 灵 奖
(3)Simple
蒂 姆 伯 纳 斯 李 英国 计算机科学 家 他是 万维网 的 发明者 麻省理工学院 教授 1990 年 12 月 25 日 罗伯特 卡 里 奥 在 cern 和他 一起 成功 通过 internet 实现 了 http 代理 与 服务器 的 第一次 通讯 1999 年 时代 将他 列入 20 世纪 最有 影响 的 100 名 英国人 之一 2004 年 英 女皇 伊丽莎白 二世 向 蒂 姆 伯 纳 斯 李 颁发 大 英 帝国 爵 级 司令 勋章 2009 年 4 月 他 获选 为 美国 国家 科学院 外籍 院士 在 2012 年 夏季 奥林匹克运动会 开幕典礼 上 他 获得 了 万维网 发明者 的 美誉 2017 年 4 月 4 日 蒂 姆 伯 纳 斯 李 获得 2016 年 acm 图 灵 奖
Complex方法错误共有8处错误
正确分词 错误分词
蒂姆伯纳斯李 蒂|姆|伯|纳|斯|李
罗伯特卡里奥 罗伯特|卡|里|奥
最有影响 最有|影响
伊丽莎白二世 伊丽莎白|二世
大英帝国 大|英|帝国
图灵奖 图|灵|奖
MaxWord 方法错误共有16处错误
正确分词 错误分词
蒂姆伯纳斯李 蒂|姆|伯|纳|斯|李
计算机|科学家 计算|机|科学|学家
万维网 万|维|网
发明者 发明|者
麻省理工学院 麻省|理工|工学|学院
罗伯特卡里奥 罗伯特|卡|里|奥
服务器 服务|器
第一次 第一|一次
最有影响 最有|影响
英国人 英国|国人
伊丽莎白二世 伊|丽|莎|白|二世
大英帝国 大|英|帝国
科学院 科学|学院
奥林匹克运动会 奥|林|匹|克|运动|会
开幕典礼 开幕|典礼
图灵奖 图|灵|奖
Simple 方法错误共有 8处错误
正确分词 错误分词
蒂姆伯纳斯李 蒂|姆|伯|纳|斯|李
计算机|科学家 计算机科学|家
罗伯特卡里奥 罗伯特|卡|里|奥
最有影响 最有|影响
伊丽莎白二世 伊丽莎白|二世
伯纳斯李 伯|纳|斯|李
大英帝国 大|英|帝国
图灵奖 图|灵|奖
可以看出,Complex方法正确率最高,Simple方法正确率次之,MaxWord方法相对差一些。但是三种方法都无法对专有名词(人名、地名等)进行正确划分。
提高分词正确率:改进算法;增加自定义词典
三、分词算法学习
1.Complex算法
匹配出所有的“三个词的词组”(即原文中的chunk,“词组”),即从某一既定的字为起始位置,得到所有可能的“以三个词为一组”的所有组合。比如“研究生命起源”,可以得到 :
研_究_生
研_究_生命
研究生_命_起源
研究_生命_起源
2.Simple算法
即简单的正向匹配,根据开头的字,列出所有可能的结果。比如“国际化大都市”,可以得到:
国
国际
国际化
…
3.消除歧义的规则
消除歧义的规则”有四个,使用中依次用这四个规则进行过滤,直到只有一种结果或者第四个规则使用完毕,4条消歧规则包括:
- 备选词组合的长度之和最大(最大匹配);
- 备选词组合的平均词长最大(最大平均词语长度);
- 备选词组合的词长变化最小(词语长度的最小变化率);
- 备选词组合中,单字词的出现频率统计值最高(词频最高的单字单词)。
四、分词结果
下面以自定义词典提高分词精度
1.将mmseg4j-2.3.0中的mmseg4j-core-1.10.0.jar和mmseg4j-solr-2.3.0.jar放入webapp/solr/WEB-INF/lib下(之前已放进去)。
2.修改managed-schema配置,添加下列内容:
<requestHandler name="/mmseg4j/reloadwords" class="com.chenlb.mmseg4j.solr.MMseg4jHandler">
<lst name="defaults">
<str name="dicPath">自定义词库路径</str>
<str name="check">true</str>
<str name="reload">true</str>
</lst>
</requestHandler>
3.在自己建的core(我的是glf)下conf中新建words-自定义.dic文件
然后对其进行编辑:注意一行一个词
友情链接:http://m.blog.csdn.net/article/details?id=60961353
4.在cmd中重新启动solr,可以看见我自定义的词典
$SOLR RESTART -P 8983
5.分词结果提交
蒂姆伯纳斯李 英国 计算机 科学家 他是 万维网 的 发明者 麻省理工学院 教授 1990 年 12 月 25 日 罗伯特卡里奥 在 cern 和他 一起 成功 通过 internet 实现 了 http 代理 与 服务器 的 第一次 通讯 1999 年 时代 将他 列入 20 世纪 最有影响 的 100 名 英国人 之一 2004 年 英 女皇 伊丽莎白二世 向 蒂姆伯纳斯李 颁发 大英帝国 爵 级 司令 勋章 2009 年 4 月 他 获选 为 美国 国家 科学院 外籍 院士 在 2012 年 夏季 林匹克运动会 开幕典礼 上 他 获得 了 万维网 发明者 的 美誉 2017 年 4 月 4 日 蒂姆伯纳斯李 获得 2016 年 acm 图灵奖
四、词云分析(图悦在线词频分析工具)
导出excel: