11款开放中文分词引擎大比拼

在逐渐步入DT（DataTechnology）时代的今天，自然语义分析技术越发不可或缺。对于我们每天打交道的中文来说，并没有类似英文空格的边界标志。而理解句子所包含的词语，则是理解汉语语句的第一步。汉语自动分词的任务，通俗地说，就是要由机器在文本中的词与词之间自动加上空格。

一提到自动分词，通常会遇到两种比较典型的质疑。一种质疑是来自外行人的：这件事看上去平凡之极，好像一点儿也不“fancy”，会有什么用呢？另一种质疑则是来自业内：自动分词研究已经进行了数年，而网上也存在各种不同的开放分词系统，但对于实际商用似乎也未见一个“即插即用”的系统。

那么，目前常见的开放分词引擎，到底性能如何呢？为了进行测试，我们调研了11款网上常见的并且公开提供服务的分词系统，包括：

分词的客观量化测试离不开标注数据，即人工所准备的分词“标准答案”。在数据源方面，我们将测试分为：

1.新闻数据：140篇，共30517词语；

2.微博数据：200篇，共12962词语；

3.汽车论坛数据（汽车之家）100篇：共27452词语；

4.餐饮点评数据（大众点评）：100条，共8295词语。

准确度计算规则：

1.将所有标点符号去除，不做比较。

2.参与测试的部分系统进行了实体识别，可能造成词语认定的不统一。我们将对应位置替换成了人工标注的结果，得到准确率估算的上界。

3.经过以上处理，用SIGHAN分词评分脚本比较得到最终的准确率，召回率和F1值。

以上所有数据采用北大现代汉语基本加工规范对所有数据进行分词作为标准。具体数据下载地址请参见附录。通过这四类数据综合对比不同分词系统的分词准确度。

上图为参与比较的10款分词引擎在不同数据的分词准确度结果。可以看出，在所测试的四个数据集上，BosonNLP和哈工大语言云都取得了较高的分词准确率，尤其在新闻数据上。因为庖丁解牛是将所有可能成词的词语全部扫描出来（例如：“最不满意”分为：“最不不满满意”），与其他系统输出规范不同，因而不参与准确率统计。

为了更直接的比较不同数据源的差别，我们从每个数据源的测试数据中抽取比较典型的示例进行更直观的对比。

【新闻数据】

新闻数据的特点是用词规整，符合语法规则，也是普遍做得比较不错的一个领域。对比其他数据源，有7家系统都在新闻领域达到最高。包括IKAnalyzer、盘古分词、搜狗分词、新浪云、NLPIR、语言云、BosonNLP。并且有三家系统准确率超过90%。

样例：香港中文大学将来合肥一中进行招生宣传今年在皖招 8 人万家热线安徽第一门户

微博数据用词多样、话题广泛，并常包含错别字及网络流行词。能够比较全面的体现每家分词系统的准确度。

样例：补了 battle 赛峰暴班的两个弟弟妹妹 @杨宝心 @修儿一个是我很挺的好弟弟一个是我推荐进好声音的妹子虽然都在 battle 阶段都下来了但是我依然像之前那样觉得你们非常棒

【汽车论坛】

汽车数据是针对汽车领域的专业评价数据，会出现很多的专业术语。例如示例中的“胎噪”、“风燥”等，如果系统没有足够强大的训练词库或领域优化，会使准确率有较大程度降低。比较有意思的是，对比其他数据源，有3家系统都在汽车论坛领域达到最高：腾讯文智、SCWS中文分词、结巴分词。

样例：舒适性胎噪风噪偏大避震偏硬过坎弹跳明显

【餐饮点评】

餐饮点评数据为顾客评论数据，更偏重口语化。会出现很多类似“闺蜜”、“萌萌哒”口语化词语和很多不规范的表达，使分词更加困难。

样例：跟闺蜜在西单逛街想吃寿司了在西单没搜到其他的日料店就来禾绿了我们俩都觉得没以前好了

各家系统对于多数简单规范的文本的分词已经达到很高的水平。但在仔细对比每一家中文分词后依旧发现切分歧义词和未登陆词（即未在训练数据中出现的词）仍然是影响分词准确度的两大“拦路虎”。

01、切分歧义

据测试数据的切分结果，一类属于机器形式的歧义，在真实语言环境下，只有唯一可能的正确切分结果，称其为伪歧义。另一类有两种以上可实现的切分结果，称为真歧义。由于真歧义数据无法比较正确或者错误。所有我们着重举例来比较各家系统对伪歧义的处理效果。

正确：在伦敦奥运会上将可能有一位沙特阿拉伯的女子

（BosonNLP、新浪云、语言云、NLPIR、腾讯文智）

错误：在伦敦奥运会上将可能有一位沙特阿拉伯的女子

（PHP结巴分词、SCWS中文分词、搜狗分词、庖丁解牛）

示例中原意指伦敦奥运会可能有一位沙特阿拉伯的女子，错误分词的意思是指上将（军衔）中有一位是沙特阿拉伯的女子，句意截然不同。当然，分析的层次越深，机器对知识库质量、规模等的依赖性就越强，所需要的时间、空间代价也就越大。

02、未登录词：未登录词大致包含三大类

a)新涌现的通用词：类似“神马”、“纳尼”、“甩卖”、“玫瑰金”等新思想、新事物所带来的新词汇，不管是文化的、政治的、还是经济的，在人们的生活中不断涌现。同时很多词语也具有一定的时效性。

b)专业术语：是相对日常用语而言的，一般指的某一行业各种名称用语，大多数情况为该领域的专业人士所熟知。这种未登录词理论上是可预期的。能够人工预先添加到词表中（但这也只是理想状态，在真实环境下并不易做到）。

c)专有名词：如中国人名、外国译名、地名、公司名等。这种词语很多基本上不可通过词典覆盖，考验分词系统的新词识别能力。

【新涌现的通用词或专业术语】

示例中的蓝色字包括专业术语：“肚腩”、“腹肌”、“腹直肌”、“腹外斜肌”、“腹横肌”；新涌现的通用词：“人鱼线”、“马甲线”。大多数的系统对于示例文本的分词结果都不够理想，例如：“大肚腩”（SCWS中文分词） “腹直肌腹外斜肌”（搜狗分词、IKAnalyer、NLPIR、SCWS中文分词）、“人鱼线”（PHP结巴分词）。总的来说这两种类型的数据每家系统都存在一定的缺陷，相对而言哈工大的语言云在这方面表现的较好。

本季最强家庭瘦腰计划彻底告别大肚腩没有腹肌的人生是不完整的平面模特 yanontheway 亲身示范的 9 个动作彻底强化腹直肌腹外斜肌腹内斜肌以及腹横肌每个动作认真做足 50 次一定要坚持做完美的人鱼线性感的马甲线都要我们自己去争取

【专有名词】

示例出现的专有名词包括“蒂莫西伊斯顿”（姓名）、“英国”“意大利”“北欧”（地点）、“金斯敦”（机构名）、“伊丽莎白格林希尔兹”（机构名）。而这种用词典无法穷尽的专有名词也成为各家分词准确率降低的重要原因。其中搜狗分词、IKAnalyer、PHP结巴分词、腾讯文智、SCWS中文分词在新词识别时较为谨慎，常将这类专有名词切分成多个词语。

油画英国画家蒂莫西伊斯顿唯美风油画 timothy easton 毕业于英国金斯敦艺术学院曾获伊丽莎白格林希尔兹基金会奖得以前往意大利和北欧学习一年的机会

当然在分词准确度可以接受的情况下，很多细节问题，包括是否有出错情况、是否支持各种字符、是否标注词性等都可能让我们望而却步。在分词颗粒度选择当中，BosonNLP、SCWS、盘古分词、结巴分词、庖丁解牛都提供了多种选择，可以根据需求来采用不同的分词粒度。与北大的分词标准对比来说，新浪云默认的分词粒度较大，而搜狗分词、腾讯文智分词粒度相对较小。除此之外，BosonNLP、新浪云、NLPIR、腾讯文智同时提供了实体识别、情感分析、新闻分类等其他扩展服务。

下表给出了各家系统在应用方面的详细对比。

中文分词是其他中文信息处理的基础，并且在很多领域都有广泛的应用，包括搜索引擎、机器翻译（MT）、语音合成、自动分类、自动摘要、自动校对等等。随着非结构化文本的广泛应用，中文分词等文本处理技术也变得越来越重要。通过评测可以看出，部分开放分词系统在不同领域已经达到较高准确率。对于数据分析处理的从业者，相信在此之上构建数据分析系统、人机交互平台，更能够起到事半功倍的效果。

注意：分词数据准备及评测由BosonNLP完成。

附录

评测数据地址

各家分词系统链接地址

NLPIR：http://ictclas.nlpir.org/docs

结巴分词：https://github.com/fxsjy/jieba

盘古分词：http://pangusegment.codeplex.com/

庖丁解牛：https://code.google.com/p/paoding/

语言云：http://www.ltp-cloud.com/document

最后编辑于：2017.12.10 11:28:20

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 198,932评论 5赞 466
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 83,554评论 2赞 375
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 145,894评论 0赞 328
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 53,442评论 1赞 268
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 62,347评论 5赞 359
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 47,899评论 1赞 275
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 37,325评论 3赞 390
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 35,980评论 0赞 254
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 40,196评论 1赞 294
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,163评论 2赞 317
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,085评论 1赞 328
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 32,826评论 3赞 316
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 38,389评论 3赞 302
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,501评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 30,753评论 1赞 255
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 42,171评论 2赞 344
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 41,616评论 2赞 339

11款开放中文分词引擎大比拼

推荐阅读更多精彩内容