中文分词工具及中文语料资源

关键词：中文分词；分词；自然语言处理；中文语料

最近要做中文自然语言处理相关任务，牵涉到使用中文分词工具和相关算法的研究。
整理不同分词工具的比较研究：

Stanford Word Segmenter

Stanford团队开源工具。支持中文和阿拉伯语等分词。
分词采用两种模式：Two models with two different segmentation standards are included: Chinese Penn Treebank standard and Peking University standard.
清华大学现代汉语语料库加工规范——词语切分与词性标注，这个作为分词和词性标记的依据标准。
授权方式： licensed under the GNU General Public License
支持：Python包、C#和.NET扩展包。Python包被集成到了NLTK中。
持续更新，当前更新到3.8.0

中科院汉语分词系统ICTCLAS

老牌中文分词系统，中科院张华平博士研究团队开发，C++/JAVA/C#版本。持续更新
性能：
获取Bakeoff 1两项第一.
单机每秒可以查询 100 万词条
授权方式：
非商用永久免费，为确保我们大家拿到最新版本，非商用授权为1月；授权到期后，可以访问网站获得最新授权与最新的程序包；如果需要长期授权，请联系商用授权
GitHub 地址

开源的jieba

“结巴”中文分词：做最好的 Python 中文分词组件.
语言支持最丰富，R、iOS、PHP、.NET(C#)、Go、Java、C++等都支持。
官方分词速度：1.5 MB / Second in Full Mode
400 KB / Second in Default Mode

支持三种分词模式：

精确模式:试图将句子最精确地切开，适合文本分析；
全模式：把句子中所有的可以成词的词语都扫描出来, 速度非常快，但是不能解决歧义；
搜索引擎模式: 在精确模式的基础上，对长词再次切分，提高召回率，适合用于搜索引擎分词。

支持繁体分词
支持自定义词典
授权方式：MIT 授权协议
在线演示
代码示例：

# encoding=utf-8
import jieba

seg_list = jieba.cut("我来到北京清华大学", cut_all=True)
print("Full Mode: " + "/ ".join(seg_list))  # 全模式

seg_list = jieba.cut("我来到北京清华大学", cut_all=False)
print("Default Mode: " + "/ ".join(seg_list))  # 精确模式

seg_list = jieba.cut("他来到了网易杭研大厦")  # 默认是精确模式
print(", ".join(seg_list))

seg_list = jieba.cut_for_search("小明硕士毕业于中国科学院计算所，后在日本京都大学深造")  # 搜索引擎模式
print(", ".join(seg_list))
输出:

【全模式】: 我/ 来到/ 北京/ 清华/ 清华大学/ 华大/ 大学

【精确模式】: 我/ 来到/ 北京/ 清华大学

【新词识别】：他, 来到, 了, 网易, 杭研, 大厦    (此处，“杭研”并没有在词典中，但是也被Viterbi算法识别出来了)

【搜索引擎模式】： 小明, 硕士, 毕业, 于, 中国, 科学, 学院, 科学院, 中国科学院, 计算, 计算所, 后, 在, 日本, 京都, 大学, 日本京都大学,深造

清华大学THULAC

THULAC（THU Lexical Analyzer for Chinese）由清华大学自然语言处理与社会人文计算实验室研制推出的一套中文词法分析工具包，具有中文分词和词性标注功能。
支持C++、python、Java。
THULAC具有如下几个特点：
能力强。利用我们集成的目前世界上规模最大的人工分词和词性标注中文语料库（约含5800万字）训练而成，模型标注能力强大。
准确率高。该工具包在标准数据集Chinese Treebank（CTB5）上分词的F1值可达97.3％，词性标注的F1值可达到92.9％，与该数据集上最好方法效果相当。
速度较快。同时进行分词和词性标注速度为300KB/s，每秒可处理约15万字。只进行分词速度可达到1.3MB/s。
授权方式：
THULAC面向国内外大学、研究所、企业以及个人用于研究目的免费开放源代码。
如有机构或个人拟将THULAC用于商业目的，请发邮件至thunlp@gmail.com洽谈技术许可协议。

哈工大LTP

使用HTTPS在线API方式使用.
授权方式：
语言技术平台面向国内外大学、中科院各研究所以及个人研究者免费开放源代码，但如上述机构和个人将该平台用于商业目的（如企业合作项目等）则需要付费。
除上述机构以外的企事业单位，如申请使用该平台，需付费。

分词算法
- 基于字符串匹配（基于字典的方式）：
  即扫描字符串，如果发现字符串的子串和词相同，就算匹配。这类分词通常会加入一些启发式规则。正向最大匹配法、逆向最大匹配法和双向匹配分词法等。
  这类算法优点是速度块，都是O(n)时间复杂度，实现简单，效果尚可。
  也有缺点，就是对歧义和未记录词处理不好。
1. 正向最大匹配法：
假设词典中最大词条所含的汉字个数为n个，取待处理字符串的前n个字作为匹配字段。若词典中含有该词，则匹配成功，分出该词，然后从被比较字符串的n+1处开始再取n个字组成的字段重新在词典中匹配；如果没有匹配成功，则将这n个字组成的字段的最后一位剔除，用剩下的n一1个字组成的字段在词典中进行匹配，如此进行下去，直到切分成功为止。（链接：http://www.jianshu.com/p/e978053b0b95）
2. 逆向最大匹配法：
与正向的区别在于如果匹配不成功则减去最前面的一个字。
3. 最少切分
使每一句中切出的词数最少。

ikanalyzer工具就是这一类

基于统计和机器学习
这类分词基于人工标注的词性和统计特征，对中文进行建模，即根据观测到的数据（标注好的语料）对模型参数进行估计，即训练。在分词阶段再通过模型计算各种分词出现的概率，将概率最大的分词结果作为最终结果。常见的序列标注模型有HMM和CRF。
这类分词算法能很好处理歧义和未记录词问题，效果比前一类效果好，但是需要大量的人工标注数据，以及较慢的分词速度。
ICTCLAS是HMM算法
Jieba的精确模式也是采用HMM算法
Stanford是CRF算法
CRF算法默认被认为是最好的一种方式，基本思路是对汉字进行标注训练，不仅考虑了词语出现的频率，还考虑上下文，具备较好的学习能力，因此其对歧义词和未登录词的识别都具有良好的效果。
论文[Chinese word segmentation as character tagging]中较为详细地阐述了基于字标注的分词法
论文[Combining Classifiers for Chinese Word Segmentation]提出使用机器学习方法对每个字符进行标注，通过机器学习算法训练分类器进行分词。

思路比较：

一般来说，语言模型搜索匹配的方式速度更快，对专业词汇影响好，但是发现新词和消除歧义方面不好，对字典要求比较高，需要不停的更新词典。
词典可以使用CRF等算法训练生成，识别新词。
依据具体项目任务确定采用那种方式。

中文语料库

人民日报：貌似机器分词，错误率高
信息处理用现代汉语词类标记规范(现代汉语语料库词类标记集)
现代汉语语料库词频表
 现代汉语语料库字频表
 现代汉语语料库分词类词频表
 四十万汉语大词库, 解压密码：www.hankcs.com
69万中文词库
 wiki百科语料
维基百科语料库的预处理可参阅博客：维基百科简体中文语料的获取和中文Wiki语料获取
 汉语开放词网，汉语语义词典chinese wordnet
部分资料来源：http://www.aihanyu.org/cncorpus/resources.aspx

最后编辑于：2017.12.11 05:41:20

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 206,126评论 6赞 481
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 88,254评论 2赞 382
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 152,445评论 0赞 341
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 55,185评论 1赞 278
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 64,178评论 5赞 371
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,970评论 1赞 284
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 38,276评论 3赞 399
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,927评论 0赞 259
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 43,400评论 1赞 300
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,883评论 2赞 323
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,997评论 1赞 333
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,646评论 4赞 322
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 39,213评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 30,204评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,423评论 1赞 260
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 45,423评论 2赞 352
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,722评论 2赞 345

中文分词工具及中文语料资源

Stanford Word Segmenter

中科院汉语分词系统ICTCLAS

开源的jieba

支持三种分词模式：

清华大学THULAC

哈工大LTP

分词算法

思路比较：

中文语料库

推荐阅读更多精彩内容