mmseg4j中文分词包使用

目录

1.mmseg4j中文分词包(下载、安装与运行)
2.分词方法与效果分析
3.分词包算法学习
4.分词结果
5.词云分析

一、mmseg4j中文分词包

1.下载:我这里采用的是mmseg4j+solr,通过solr(可视化界面)整合mmseg4j中文分词包来进行分词。
(1)mmseg4j:选择最新版本mmseg4j-2.3.0
mmseg4j-solr-2.3.0-with-mmseg4j-core是Solr的中文分词包,支持Solr5.x版本,向上兼容Solr6,但是不支持Solr6的所有版本。该压缩包含有mmseg4j-core-1.10.0.jar和mmseg4j-solr-2.3.0.jar
(2)solr:选择最新版本solr-6.5.1

Solr是一个高性能,采用Java5开发,基于Lucene的全文搜索服务器。用户可以通过http请求,向搜索引擎服务器提交一定格式的XML文件,生成索引;也可以通过Http Get操作提出查找请求,并得到XML格式的返回结果。提供了比Lucene更为丰富的查询语言, 同时实现了可配置、可扩展并对查询性能进行了优化,并且提供了一个完善的功能管理界面, 是一款非常优秀的全文搜索引擎。

(3)JDK:选择最新版本jdk-1.8.0-131
solr服务器搭建需要在JAVA环境当中。


tips:注意solr版本、JDK和mmseg4j版本要搭配,不然会出问题。

我之前采用的是mmseg4j-1.9.1和solr-6.5.1,结果出现下列错误:

1.png

2.安装配置、运行
(1)检查Java环境(cmd)

Paste_Image.png

如上图所示,说明JAVA环境已搭好。
(2)分别安装配置solr-6.5.1和mmseg4j-2.3.0
(3)装好之后,在cmd当中启动solr:
$ CD SOLR
$CD SOLR-6.5.1
$ CD BIN
$SOLR START

Paste_Image.png

(4)浏览器输入:http://localhost:8983/solr/ 看到solr界面

Paste_Image.png

(5)solr整合mmseg4j
友情链接:http://blog.csdn.net/youyou_yo/article/details/52065562?locationNum=1&fps=1
solr集成mmseg4j之后,就可以看见mmseg4j新增的field:

Paste_Image.png

二、分词方法与效果分析

1.mmseg4j两种分词方法: Complex、Simple
三种分词模式:Complex、Simple、MaxWord,默认是MaxWord。
mmseg4j用Chih-HaoTsai的MMSeg算法实现的中文分词器,MMSeg算法有两种分词方法:Simple和Complex,都是基于正向最大匹配。
2.效果分析
下面用三种模式进行分词:

蒂姆伯纳斯李,英国计算机科学家。他是万维网的发明者,麻省理工学院教授。1990年12月25日,罗伯特卡里奥在CERN和他一起成功通过Internet实现了HTTP代理与服务器的第一次通讯。1999年《时代》将他列入20世纪最有影响的100名英国人之一。 2004年,英女皇伊丽莎白二世向蒂姆伯纳斯李颁发大英帝国爵级司令勋章。2009年4月,他获选为美国国家科学院外籍院士。在2012年夏季奥林匹克运动会开幕典礼上,他获得了“万维网发明者”的美誉。2017年4月4日,蒂姆伯纳斯李获得2016年ACM“图灵奖”。

(1)Complex

蒂  姆    伯   纳   斯   李 英国    计算机 科学家         他是  万维网 的   发明者 麻省理工学院  教授  1990 年  12  月   25 日    罗伯特 卡   里   奥   在   cern    和他  一起  成功  通过  internet    现   了   http    代理  与   服务器 的   第一次 通讯  1999    年   时代  他   列入  20  世纪  最有  影响  的   100 名   英国人 之一  2004    年   英   女皇  伊丽莎白    二世  向   蒂 姆 伯   纳   斯   李   颁发  大   英   帝国  爵   级 司令    勋章  2009    年   4   月   他   获选  为   美国  国家  科学院 外籍  院士  在   2012    年   夏季  奥林匹克运动会 开幕典礼    上   他   获得  了   万维网 发明者 的   美誉  2017    年   4   月   4   日   蒂   姆   伯   纳   斯   李   获得  2016    年   acm 图   灵   奖

(2)MaxWord

蒂   姆   伯   纳   斯   李   英国   计算 机   科学  学家  他是   万  维   网   的   发明   者  麻省  理工  工学  学院  教授  1990    年   12  月   25  日   罗   伯   特   卡   里   奥   在   cern     和他 一起  成功  通过  internet    实现  了   http    代理  与   服务  器   的   第一  一次  通讯  1999    年   时代  将他  列入  20  世纪  最有  影响  的   100 名   英国   国人  之一  2004   年   英   女皇  伊   丽   莎   白   二世  向 蒂 姆   伯   纳   斯   李   颁发  大   英   帝国  爵   级   司令  勋章  2009    年   4   月   他   获选  为   美国  国家  科学  学院  外籍  院士  在   2012    年   夏季  奥   林   匹   克   运动  会   开幕  典礼  上   他   获得  了   万   维   网   发明  者   的   美誉  2017    年   4   月   4   日   蒂   姆   伯   纳   斯   李   获得   2016   年   acm 图   灵   奖

(3)Simple

蒂   姆   伯   纳   斯   李   英国  计算机科学   家   他是  万维网 的   发明者 麻省理工学院  教授  1990    年   12  月   25  日   罗伯特 卡   里   奥   在   cern    和他  一起  成功  通过  internet    实现  了   http    代理  与   服务器 的   第一次 通讯  1999    年   时代  将他  列入  20  世纪  最有  影响  的   100 名   英国人 之一  2004    年   英   女皇  伊丽莎白    二世  向 蒂 姆   伯   纳   斯   李   颁发  大   英   帝国  爵   级   司令  勋章  2009    年   4   月   他   获选  为   美国  国家  科学院 外籍  院士  在   2012    年   夏季  奥林匹克运动会 开幕典礼    上   他   获得  了   万维网 发明者 的   美誉  2017    年   4   月   4   日   蒂   姆   伯   纳   斯   李   获得  2016    年   acm 图   灵   奖

Complex方法错误共有8处错误

正确分词                    错误分词  
蒂姆伯纳斯李                蒂|姆|伯|纳|斯|李
罗伯特卡里奥                罗伯特|卡|里|奥   
最有影响                    最有|影响
伊丽莎白二世                伊丽莎白|二世
大英帝国                    大|英|帝国
图灵奖                      图|灵|奖

MaxWord 方法错误共有16处错误

 正确分词                    错误分词
 蒂姆伯纳斯李                蒂|姆|伯|纳|斯|李
计算机|科学家                计算|机|科学|学家   
万维网                      万|维|网
发明者                      发明|者 
麻省理工学院                 麻省|理工|工学|学院    
罗伯特卡里奥                 罗伯特|卡|里|奥  
服务器                      服务|器  
第一次                      第一|一次   
最有影响                    最有|影响
英国人                      英国|国人   
伊丽莎白二世                 伊|丽|莎|白|二世  
大英帝国                    大|英|帝国  
 科学院                     科学|学院  
奥林匹克运动会               奥|林|匹|克|运动|会  
开幕典礼                    开幕|典礼  
图灵奖                      图|灵|奖

Simple 方法错误共有 8处错误

正确分词                    错误分词
 蒂姆伯纳斯李                蒂|姆|伯|纳|斯|李
计算机|科学家                计算机科学|家    
罗伯特卡里奥                 罗伯特|卡|里|奥 
最有影响                    最有|影响
伊丽莎白二世                 伊丽莎白|二世  
伯纳斯李                        伯|纳|斯|李
大英帝国                    大|英|帝国  
图灵奖                      图|灵|奖  

可以看出,Complex方法正确率最高,Simple方法正确率次之,MaxWord方法相对差一些。但是三种方法都无法对专有名词(人名、地名等)进行正确划分。
提高分词正确率:改进算法;增加自定义词典


三、分词算法学习

1.Complex算法
匹配出所有的“三个词的词组”(即原文中的chunk,“词组”),即从某一既定的字为起始位置,得到所有可能的“以三个词为一组”的所有组合。比如“研究生命起源”,可以得到 :

研_究_生 
研_究_生命 
研究生_命_起源 
研究_生命_起源   

2.Simple算法
即简单的正向匹配,根据开头的字,列出所有可能的结果。比如“国际化大都市”,可以得到:

国 
国际 
国际化 
…   

3.消除歧义的规则
消除歧义的规则”有四个,使用中依次用这四个规则进行过滤,直到只有一种结果或者第四个规则使用完毕,4条消歧规则包括:

  1. 备选词组合的长度之和最大(最大匹配);
  2. 备选词组合的平均词长最大(最大平均词语长度);
  3. 备选词组合的词长变化最小(词语长度的最小变化率);
  4. 备选词组合中,单字词的出现频率统计值最高(词频最高的单字单词)。

四、分词结果

下面以自定义词典提高分词精度
1.将mmseg4j-2.3.0中的mmseg4j-core-1.10.0.jar和mmseg4j-solr-2.3.0.jar放入webapp/solr/WEB-INF/lib下(之前已放进去)。

2.修改managed-schema配置,添加下列内容:

<requestHandler name="/mmseg4j/reloadwords" class="com.chenlb.mmseg4j.solr.MMseg4jHandler">
<lst name="defaults">
    <str name="dicPath">自定义词库路径</str>
    <str name="check">true</str>
    <str name="reload">true</str>
</lst>
</requestHandler>  

3.在自己建的core(我的是glf)下conf中新建words-自定义.dic文件

Paste_Image.png

然后对其进行编辑:注意一行一个词

Paste_Image.png

友情链接:http://m.blog.csdn.net/article/details?id=60961353

4.在cmd中重新启动solr,可以看见我自定义的词典
$SOLR RESTART -P 8983

4.png

5.分词结果提交

蒂姆伯纳斯李  英国  计算机 科学家 他是  万维网 的   发明者 麻省理工学院  教授  1990    年   12  月   25  日   罗伯特卡里奥  在   cern    和他  一起  成功  通过  internet    实现  了   http    代理  与   服务器 的   第一次 通讯  1999    年   时代  将他  列入  20  世纪  最有影响    的   100 名   英国人 之一  2004    年   英   女皇  伊丽莎白二世  向   蒂姆伯纳斯李  颁发  大英帝国    爵   级   司令  勋章  2009    年   4   月   他   获选  为   美国  国家  科学院 外籍  院士  在   2012    年   夏季  林匹克运动会  开幕典礼    上   他   获得  了   万维网 发明者 的   美誉  2017    年   4   月   4   日   蒂姆伯纳斯李  获得  2016    年   acm 图灵奖  

四、词云分析(图悦在线词频分析工具

Paste_Image.png

导出excel:

Paste_Image.png
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 204,921评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 87,635评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 151,393评论 0 338
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,836评论 1 277
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,833评论 5 368
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,685评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,043评论 3 399
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,694评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 42,671评论 1 300
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,670评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,779评论 1 332
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,424评论 4 321
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,027评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,984评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,214评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,108评论 2 351
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,517评论 2 343

推荐阅读更多精彩内容