中文分词十年回顾

中文分词四个难题

  • 词的清晰定义
  • 分词和理解熟先熟后
  • 分词歧义消解
  • 未登录词

词的清晰界定

规范+词表 到分词语料库的词语定义过程;
语料标注的质量取决于一下三条:

  1. 严格执行词表驱动原则:
    词表驱动,就是在上下文未见歧义的情况下,词表词应当作为一个完整的切分单位,决不许随意切碎或组合。
    必须杜绝所谓的“语法词” (比词表词短)和“心理词”(非词表词,又不属于新词)的干扰
  2. 把人名, 地名, 机构等命名实体和日期,时间等数字表达式的定义纳入分词规范;
    保证分词标注质量的第二条措施是把人名、地名、机构名等命名实体和日期、时间等数字表达式的定义纳入分词规范。一方面,这是因为实体词的识别任务与自动分词任务,你中有我,我中有你,是不可分割的整体。另一方面,是因为这些实体词占了文本中未登录词的大约三分之二,把它们定义清楚了肯定有助于进一步提高标注的一致性。
  3. 把规范制定和语料标注两个过程紧密结合起来。
    让分词的规范的制定与分词语料的标注,审定过程交互进行。因为词表只是对词语的一种静态描写,没有说明每个词进入句子以后同周围的词发生的黏着,竞争,重组等复杂行为。当文本中动态出现未登录词,交集型歧义,组合型歧义等现象时,需要在分词规范中引用带标语料库的大量实例来进一步完善下面举些例子
    和/道班/工人/吃/住/在/一起/。
    最近/,/内蒙古/赤峰市/又/发生/一/起/,1,/煤窑/淹/井/事故/,/17/人/死亡/。
    香港中旅/与/中国/旅行社/一道/,/努力/降低/内地/赴/港/旅游团/价格/
    红/马甲/成为/沈阳/初夏/文化/市场/一/道/亮/丽/的/风景/线/。
    2005—2006年微软亚洲研究院(MSRA)提供给Bake off的语料库,由于严格实施质量控制,其百万词级训练语料库的出错率低于千分之一,十万词级测试语料库的出错率低于万分之五
    分词的评价指标:
    评价指标是分词召回率R、准确率P以及R和P的平均值F1
    准确率定义为给定分词结果中切分正确的词次数除以该分词结果中的总词次数
    召回率定义为给定分词结果中切分正确的词次数除以标准答案中的总词次数

分词和理解熟先熟后

由于自动分词是大部分中文信息处理系统的第一步(即前端),是对句子实施句法一语义分析的前提。也就是说,自动分词所依据的只能是文本的表层信息。所以,尽管人在识别句子中的词语时是以理解为基础的,然而从实用的角度考虑,计算机自动分词系统不可能完全照搬人类的分词模式,而通常会选择“先分词后理解”的处理策略。
也就是说分词在先,理解在后。

未登录词对分词精度的影响

长期以来,研究人员一直把未登录词和分词歧义并列为影响分词精度的两大因素。十年来,研究人员在这两个问题上倾注了大量的精力,探索过各种各样的解决方案。其中,对交集型歧义字串进行的大规模语料库调查,以及明确提出把分词歧义消解过程分解为侦察和消歧两个子过程的认识,都是近十年来分词研究的重大收获。
每届 Bake off 都用正向最大匹配(Forward Maximum Matching , 简称 FMM)算法对每个语料库进行带有未登录词的基线(Baseline)和不含未登录词的顶线(Topline)两种切分, 并分别形成两套性能指标,验证了未登录次对分词的影响最大。
这个结论给我们的重要启示是 :在考虑自动分词系统的总体方案时, 那些能够大幅度提升未登录词识别性能的分词方法 ,一般来讲,也将提高分词系统的总体性能 。Bakeoff-2003 及其后的分词技术发展趋势完全证实了这样一个推断。

基于字的分词方法

在 2002 年之前 ,自动分词方法基本上是基于词(或词典)的, 在此基础上可进一步分成基于规则和基于统计的两大类。以往的分词方法, 无论是基于规则的还是基于统计的 ,一般都依赖于一个事先编制的词表(词典)。自动分词过程就是通过词表和相关信息来做出词语切分的决策 。
与此相反 , 基于字标注的分词方法实际上是构词方法。即把分词过程视为字在字串中的标注问题。由于每个字在构造一个特定的词语时都占据着一个确定的构词位置(即词位), 假如规定每个字最多只有四个构词位置:即 B(词首), M (词中),E(词尾)和 S(单独成词)。
(甲)分词结果 :/上海/计划/到/本/世纪/末/实现/人均/国内/生产/总值/五千美元/ 。
(乙)字标注形式 :上/B 海/E 计/B 划/ E 到/S本/S 世/B 纪/E 末/S 实/B 现/E 人/B均/ E 国/B 内/E 生/B产/E 总/B 值/E五/B 千/M 美/M 元/E 。/S
经过实验与实际过程的验证: 字的分词方法已经被证明由于其它方法。
现在较常见的是基于HMM的和基于CRF的分词方法。近来随着深度学习的兴起,基于LSTM的分词模型也在探索中。

Reference

http://jcip.cipsc.org.cn/UserFiles/File/473%E4%B8%AD%E6%96%87%E5%88%86%E8%AF%8D%E5%8D%81%E5%B9%B4%E5%9B%9E%E9%A1%BE_%E9%BB%84%E6%98%8C%E5%AE%81.pdf
http://www.52nlp.cn/%E4%B8%AD%E6%96%87%E5%88%86%E8%AF%8D%E5%85%A5%E9%97%A8%E4%B9%8B%E8%B5%84%E6%BA%90

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 203,324评论 5 476
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,303评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 150,192评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,555评论 1 273
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,569评论 5 365
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,566评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,927评论 3 395
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,583评论 0 257
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,827评论 1 297
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,590评论 2 320
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,669评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,365评论 4 318
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,941评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,928评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,159评论 1 259
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 42,880评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,399评论 2 342

推荐阅读更多精彩内容

  • 层次化的隐马尔可夫模型 在自然语言处理等应用中,由于处理序列具有递归特性,尤其当序列长度比较大时,HMM的复杂度将...
    我偏笑_NSNirvana阅读 6,574评论 1 15
  • 常用概念: 自然语言处理(NLP) 数据挖掘 推荐算法 用户画像 知识图谱 信息检索 文本分类 常用技术: 词级别...
    御风之星阅读 9,148评论 1 25
  • 命名实体识别 命名实体的提出源自信息抽取问题,即从报章等非结构化文本中抽取关于公司活动和国防相关活动的结构化信息,...
    我偏笑_NSNirvana阅读 10,180评论 1 35
  • 转载请注明:终小南 » 中文分词算法总结 什么是中文分词众所周知,英文是以 词为单位的,词和词之间是靠空格隔开,而...
    kirai阅读 9,796评论 3 24
  • 地下酒吧的氛围,果真很有些不同。 整个酒吧充斥着追逐欲望的目光:大胆、直露,但不猥琐。连空气中都释放着性感与欲望的...
    7256c30f3f96阅读 179评论 0 2