HanLP《自然语言处理入门》笔记--3.二元语法与中文分词

笔记转载于GitHub项目：https://github.com/NLP-LOVE/Introduction-NLP

3. 二元语法与中文分词

上一章中我们实现了块儿不准的词典分词，词典分词无法消歧。给定两种分词结果“商品和服务”以及“商品和服务”，词典分词不知道哪种更加合理。

我们人类确知道第二种更加合理，只因为我们从小到大接触的都是第二种分词，出现的次数多，所以我们判定第二种是正确地选择。这就是利用了统计自然语言处理。统计自然语言处理的核心话题之一，就是如何利用统计手法对语言建模，这一章讲的就是二元语法的统计语言模型。

3.1 语言模型

什么是语言模型

模型指的是对事物的数学抽象，那么语言模型指的就是对语言现象的数学抽象。准确的讲，给定一个句子 w，语言模型就是计算句子的出现概率 p(w) 的模型，而统计的对象就是人工标注而成的语料库。

假设构建如下的小型语料库：
```
商品 和 服务
商品 和服 物美价廉
服务 和 货币
```
每个句子出现的概率都是 1/3，这就是语言模型。然而 p(w) 的计算非常难：句子数量无穷无尽，无法枚举。即便是大型语料库，也只能“枚举”有限的数百万个句子。实际遇到的句子大部分都在语料库之外，意味着它们的概率都被当作0，这种现象被称为数据稀疏。

句子几乎不重复，单词却一直在重复使用，于是我们把句子表示为单词列表 $w=w_1w_2...w_k$ ，每个 $w_t,t\in[1,k]$ 都是一个单词，然后定义语言模型：
$\begin{aligned} p(\boldsymbol{w}) &=p\left(w_{1} w_{2} \cdots w_{k}\right) \\ &=p\left(w_{1} | w_{0}\right) \times p\left(w_{2} | w_{0} w_{1}\right) \times \cdots \times p\left(w_{k+1} | w_{0} w_{1} w_{2} \dots w_{k}\right) \\ &=\prod_{t=1}^{k+1} p\left(w_{t} | w_{0} w_{1} \cdots w_{t-1}\right) \end{aligned}$
其中， $w_0=BOS$ (Begin Of Sentence，有时用<s>)， $w_{k+1}=EOS (End Of Sentence，有时也用</s>)$ ，是用来标记句子收尾的两个特殊“单词”，在NLP领域的文献和代码中经常出现。

然而随着句子长度的增大，语言模型会遇到如下两个问题。

数据稀疏，指的是长度越大的句子越难出现，可能统计不到频次，导致 $p(w_k|w_1w_2...w_{k-1})=0$ ，比如 p(商品和货币)=0。
计算代价大，k 越大，需要存储的 p 就越多，即便用上字典树索引，依然代价不菲。

马尔可夫链与二元语法

为了解决以上两个问题，需要使用马尔可夫假设来简化语言模型，给定时间线上有一串事件顺序发生，假设每个事件的发生概率只取决于前一个事件，那么这串事件构成的因果链被称作马尔可夫链。

在语言模型中，第 t 个事件指的是 $w_t$ 作为第 t 个单词出现。也就是说，每个单词出现的概率只取决于前一个单词：

$p(w_t|w_0w_1...w_{t-1})=p(w_t|w_{t-1})$

基于此假设，式子一下子变短了不少，此时的语言模型称为二元语法模型：
$\begin{aligned} p(\boldsymbol{w}) &=p\left(w_{1} w_{2} \cdots w_{k}\right) \\ &=p\left(w_{1} | w_{0}\right) \times p\left(w_{2} | w_{1}\right) \times \cdots \times p\left(w_{k+1} | w_{k}\right) \\ &=\prod_{t=1}^{k+1} p\left(w_{t} | w_{t-1}\right) \end{aligned}$
由于语料库中二元连续的重复程度要高于整个句子的重要程度，所以缓解了数据稀疏的问题，另外二元连续的总数量远远小于句子的数量，存储和查询也得到了解决。

n元语法

利用类似的思路，可以得到n元语法的定义：每个单词的概率仅取决于该单词之前的 n 个单词：
$p(w)=\prod_{t=1}^{k+n-1} p\left(w_{t} | w_{t-n+1} \dots w_{t-1}\right)$
特别地，当 n=1 时的 n 元语法称为一元语法 ( unigram);当 n=3 时的 n 元语法称为三元语法(tigam); n≥4时数据稀疏和计算代价又变得显著起来，实际工程中几乎不使用。

数据稀疏与平滑策略

对于 n 元语法模型，n 越大，数据稀疏问题越严峻。比如上述语料库中“商品货币”的频次就为0。一个自然而然的解决方案就是利用低阶 n 元语法平滑高阶 n 元语法，所谓平滑，就是字面上的意思：使 n 元语法频次的折线平滑为曲线。最简单的一种是线性插值法：
$p\left(w_{t} | w_{t-1}\right)=\lambda p_{\mathrm{ML}}\left(w_{t} | w_{t-1}\right)+(1-\lambda) p\left(w_{t}\right)$
其中， $\lambda\in(0,1)$ 为常数平滑因子。通俗理解，线性插值就是劫富济贫的税赋制度，其中的 λ 就是个人所得税的税率。 $p_{ML}(w_t|w_{t-1})$ 是税前所得， $p(w_t)$ 是社会福利。通过缴税，高收人(高概率)二元语法的一部分收人 (概率)被移动到社会福利中。而零收入(语料库统计不到频次)的一元语法能够从社会福利中取得点低保金，不至于饿死。低保金的额度与二元语法挣钱潜力成正比:二元语法中第二个词词频越高，它未来被统计到的概率也应该越高，因此它应该多拿一点。

类似地，一元语法也可以通过线性插值来平滑：
$p\left(w_{t}\right)=\lambda p_{\mathrm{ML}}\left(w_{t}\right)+(1-\lambda) \frac{1}{N}$
其中，N 是语料库总词频。

3.2 中文分词语料库

语言模型只是一个函数的骨架，函数的参数需要在语料库上统计才能得到。为了满足实际工程需要，一个质量高、分量足的语料库必不可少。以下是常用的语料库：

《人民日报》语料库 PKU
微软亚洲研究院语料库 MSR
香港城市大学 CITYU(繁体)
台湾中央研究院 AS(繁体)

语料库	字符数	词语种数	总词频	平均词长
PKU	183万	6万	111万	1.6
MSR	405万	9万	237万	1.7
AS	837万	14万	545万	1.5
CITYU	240万	7万	146万	1.7

一般采用MSR作为分词语料的首选，有以下原因：

标注一致性上MSR要优于PKU。
切分颗粒度上MSR要优于PKU，MSR的机构名称不予切分，而PKU拆开。
MSR中姓名作为一个整体，更符合习惯。
MSR量级是PKU的两倍。

3.3 训练与预测

训练指的是统计二元语法频次以及一元语法频次，有了频次，通过极大似然估计以及平滑策略，我们就可以估计任意句子的概率分布，即得到了语言模型。这里以二元语法为例：

这里我们选用上面自己构造的小型语料库：data/dictionnary/my_cws_corpus.txt

代码请见：code/ch03/ngram_segment.py

步骤如下：

加载语料库文件并进行词频统计。
对词频文件生成词网

词网指的是句子中所有一元语法构成的网状结构，是HanLP工程上的概念。比如“商品和服务”这个句子，我们将句子中所有单词找出来，起始位置(offset)相同的单词写作一行：
```
0:[ ]
1:[商品]
2:[]
3:[和,和服]
4:[服务]
5:[务]
6:[ ]
```
其中收尾(行0和行6)分别对应起始和末尾。词网必须保证从起点出发的所有路径都会连通到钟点房。

词网有一个极佳的性质：那就是第 i 行的词语 w 与第 i+len(w) 行的所有词语相连都能构成二元语法。

image
词图上的维特比算法

上述词图每条边以二元语法的概率作为距离，那么中文分词任务转换为有向无环图上的最长路径问题。再通过将浮点数乘法转化为负对数之间的加法，相应的最长路径转化为负对数的最短路径。使用维特比算法求解。

这里仅作一下简述，详细过程参考书本第三章。

该模型代码输入是句子“货币和服务”，得到结果如下：

[' ', '货币', '和', '服务', ' ']

结果正确，可见我们的二元语法模型具备一定的泛化能力。

3.4 HanLP分词与用户词典的集成

词典往往廉价易得，资源丰富，利用统计模型的消歧能力，辅以用户词典处理新词，是提高分词器准确率的有效方式。HanLP支持 2 档用户词典优先级：

低优先级：分词器首先在不考虑用户词典的情况下由统计模型预测分词结果，最后将该结果按照用户词典合并。默认低优先级。
高优先级：分词器优先考虑用户词典，但具体实现由分词器子类自行决定。

HanLP分词器简洁版：

from pyhanlp import *

ViterbiSegment = SafeJClass('com.hankcs.hanlp.seg.Viterbi.ViterbiSegment')

segment = ViterbiSegment()
sentence = "社会摇摆简称社会摇"
segment.enableCustomDictionary(False)
print("不挂载词典：", segment.seg(sentence))
CustomDictionary.insert("社会摇", "nz 100")
segment.enableCustomDictionary(True)
print("低优先级词典：", segment.seg(sentence))
segment.enableCustomDictionaryForcing(True)
print("高优先级词典：", segment.seg(sentence))

输出：

不挂载词典： [社会/n, 摇摆/v, 简称/v, 社会/n, 摇/v]
低优先级词典： [社会/n, 摇摆/v, 简称/v, 社会摇/nz]
高优先级词典： [社会摇/nz, 摆/v, 简称/v, 社会摇/nz]

可见，用户词典的高优先级未必是件好事，HanLP中的用户词典默认低优先级，做项目时请读者在理解上述说明的情况下根据实际需求自行开启高优先级。

3.5 二元语法与词典分词比较

按照NLP任务的一般流程，我们已经完成了语料标注和模型训练，现在来比较一下二元语法和词典分词的评测：

算法	P	R	F1	R(oov)	R(IV)
最长匹配	89.41	94.64	91.95	2.58	97.14
二元语法	92.38	96.70	94.49	2.58	99.26

相较于词典分词，二元语法在精确度、召回率及IV召回率上全面胜出，最终F1值提高了 2.5%，成绩的提高主要受惠于消歧能力的提高。然而 OOV 召回依然是 n 元语法模型的硬伤，我们需要更强大的语言模型。

3.6 GitHub项目

HanLP何晗--《自然语言处理入门》笔记：

https://github.com/NLP-LOVE/Introduction-NLP

项目持续更新中......

章节
第 1 章：新手上路
第 2 章：词典分词
第 3 章：二元语法与中文分词
第 4 章：隐马尔可夫模型与序列标注
第 5 章：感知机分类与序列标注
第 6 章：条件随机场与序列标注
第 7 章：词性标注
第 8 章：命名实体识别
第 9 章：信息抽取
第 10 章：文本聚类
第 11 章：文本分类
第 12 章：依存句法分析
第 13 章：深度学习与自然语言处理

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 206,968评论 6赞 482
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 88,601评论 2赞 382
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 153,220评论 0赞 344
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 55,416评论 1赞 279
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 64,425评论 5赞 374
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 49,144评论 1赞 285
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 38,432评论 3赞 401
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 37,088评论 0赞 261
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 43,586评论 1赞 300
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 36,028评论 2赞 325
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 38,137评论 1赞 334
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,783评论 4赞 324
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 39,343评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 30,333评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,559评论 1赞 262
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 45,595评论 2赞 355
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,901评论 2赞 345