分词练习1——分词工具包

关于分词工具包的体验:分词练习2——分词体验

现有的分词工具包

(1)NLPIR

NLPIR汉语分词系统,又名ICTCLAS。

一套专门针对原始文本集进行处理和加工的软件,提供了中间件处理效果的可视化展示,也可以作为小规模数据的处理加工工具。用户可以使用该软件对自己的数据进行处理。
全部采用C/C++编写,支持Linux、FreeBSD及Windows系列操作系统,支持C/C++/C#/Delphi/Java等主流的开发语言
支持GBK编码(Guo-BiaoKuozhan,简体中文)分词,同时支持UTF-8编码和Big5编码(大五码,繁体中文)分词;支持繁体中文分词;支持多线程分词。

另外,该系统支持Java/C++/C#/C/Delphi等主流开发语言,可以将NLPIR分词系统下载包下载到电脑上,在编写程序时使用,压缩包所含内容如下图所示:

NLPIR分词系统下载包.png

主页:http://ictclas.nlpir.org/
在线演示:http://ictclas.nlpir.org/nlpir/
开源中国社区: 中科院中文分词 ICTCLAS

(2)Ansj

一款纯Java的、主要应用于自然语言处理的、高精度的中文分词工具,目标是“准确、高效、自由地进行中文分词”,可用于人名识别、地名识别、组织机构名识别、多级词性标注、关键词提取、指纹提取等领域,支持行业词典、用户自定义词典。

项目网址:https://github.com/NLPchina/ansj_seg
在线演示:http://www.ansj.org/
一个比较详细的关于Ansj的介绍:开源 Java 中文分词器 Ansj 作者孙健专访
官方文档:http://nlpchina.github.io/ansj_seg/
开源中国社区: 中文分词 Ansj

(3)IKAnalyzer

一个开源的,基于java语言开发的轻量级的中文分词工具包。从2006年12月推出1.0版开始,IKAnalyzer已经推出 了3个大版本。最初,它是以开源项目 Lucene为应用主体的,结合词典分词和文法分析算法的中文分词组件。新版本的IKAnalyzer3.0则发展为 面向Java的公用分词组件,独立于Lucene项目,同时提供了对Lucene的默认优化实现。

下载地址: https://pan.baidu.com/s/17-W5jOYoNOBH2H_8EwIymw 密码: x3wy
有关教程:中文分词工具-IKAnalyzer下载及使用IKAnalyzer总结solr7.3 环境搭建 配置中文分词器 ik-analyzer-solr7 详细步骤
中国开源社区: 中文分词库 IKAnalyzer

(4)HanLP

由一系列模型与算法组成的Java工具包,目标是普及自然语言处理在生产环境中的应用。不仅仅是分词,而是提供词法分析、句法分析、语义理解等完备的功能。HanLP具备功能完善、性能高效、架构清晰、语料时新、可自定义的特点。

主页:http://hanlp.linrunsoft.com/
文档:http://hanlp.linrunsoft.com/doc/_build/html/index.html
下载:http://hanlp.linrunsoft.com/services.html
Github:https://github.com/hankcs/HanLP
开源中国社区: 自然语言处理 HanLP

(5)FudanNLP

由复旦大学自然语言处理组开发的一套中文自然语言处理工具包,包括中文分词、词性标注、命名实体识别、依存句法分析、关键词抽取、时间短语识别、文本分类、新闻聚类、层次分类、在线学习等功能,该项目使用LGPL3.0许可证。

主页:https://code.google.com/archive/p/fudannlp/
下载:https://code.google.com/archive/p/fudannlp/downloads
文档:https://wenku.baidu.com/view/d9c21a74f18583d04864595e.html
开放知识图谱:FudanNLP: 中文自然语言处理工具包
GitHub:https://github.com/FudanNLP/fnlp
教程:https://github.com/FudanNLP/fnlp/wiki
开源中国社区: 中文自然语言处理工具包 FudanNLP

(6)Jcseg

使用Java开发的一个开源的中文分词器,使用流行的mmseg算法实现。是一款独立的分词组件,不是针对lucene而开发,但是提供了最新版本的lucene和solr分词接口。

首页:https://code.google.com/archive/p/jcseg/
开发帮助文档:https://wenku.baidu.com/view/8612a64d87c24028905fc30a.html
下载:https://code.google.com/archive/p/jcseg/downloads
开源中国社区:https://www.oschina.net/p/jcseg

(7)庖丁解牛分词器

一个使用Java开发的,可结合到Lucene应用中的,为互联网、企业内部网使用的中文搜索引擎分词组件。Paoding填补了国内中文分词方面开源组件的空白,致力于此并希翼成为互联网网站首选的中文分词开源组件。

主页:https://code.google.com/archive/p/paoding/
下载:https://code.google.com/archive/p/paoding/downloads
开源中国社区: 中文分词库 Paoding
一个教程:庖丁解牛"中文分词包

(8)盘古分词

盘古分词是一个中英文分词组件。作者eaglet 曾经开发过KTDictSeg 中文分词组件,拥有大量用户。作者基于之前分词组件的开发经验,结合最新的开发技术重新编写了盘古分词组件。主要有以下功能:
1、中文未登陆词识别
2、词频优先
3、一元分词,多元分词
4、中文人名分词
5、繁体中文分词
6、英文分词
7、用户自定义规则(字典管理,动态加载字典,关键词高亮)

主页:https://archive.codeplex.com/?p=pangusegment
开源中国社区: 盘古分词
使用手册:https://wenku.baidu.com/view/92543952c281e53a5802ff50.html

(9)MMSEG4J

mmseg4j用Chih-Hao Tsai 的MMSeg算法实现的中文分词器,并实现lucene的analyzer和solr的TokenizerFactory以方便在Lucene和Solr中使用。 MMSeg 算法有两种分词方法:Simple和Complex,都是基于正向最大匹配。Complex加了四个规则过虑。

首页:https://code.google.com/archive/p/mmseg4j/
下载:https://github.com/chenlb/mmseg4j-solr
开源中国社区: 中文分词器 mmseg4j

(10)jieba分词器

做最好的Python中文分词组件 "Jieba"
支持三种分词模式:
精确模式,试图将句子最精确地切开,适合文本分析;
全模式,把句子中所有的可以成词的词语都扫描出来, 速度非常快,但是不能解决歧义;
搜索引擎模式,在精确模式的基础上,对长词再次切分,提高召回率,适合用于搜索引擎分词。
支持繁体分词
支持自定义词典

首页:https://pypi.org/project/jieba/
开源中国社区: Python中文分词组件 jieba
Github:https://github.com/fxsjy/jieba

下转分词练习2——分词体验

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 203,324评论 5 476
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,303评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 150,192评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,555评论 1 273
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,569评论 5 365
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,566评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,927评论 3 395
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,583评论 0 257
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,827评论 1 297
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,590评论 2 320
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,669评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,365评论 4 318
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,941评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,928评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,159评论 1 259
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 42,880评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,399评论 2 342