概率图模型是一类用图来表达变量相关关系的概率模型。
隐马尔可夫模型
隐马尔可夫模型(简称 HMM)是结构最简单的动态贝叶斯网,这是一种著名的有向图模型,主要应用于时序数据建模,在语音识别、自然语言处理等领域有广泛的应用。
注:系统下一个的状态仅有当前的状态决定,不依赖于以往的任何状态。
马尔可夫随机场
马尔科夫随机场(简称 MRF)是典型的马尔可夫网,这是一种著名的无向图模型。图中每个点表示一个或者一组变量,节点之间的边表示其之间的依赖关系。有一组势函数。
条件随机场
条件随机场(简称 CRF)是一种判别式无向图模型。
生成式模型是直接对联合分布进行建模,而判别式模型则是对条件分布进行建模。前面隐马尔可夫模型和马尔可夫随机场都是生成模型,而条件随机场则是判别模型。
也使用了势函数和图结构上的团来定义P(y|x)。
想要理解CRF,必须判别式模型的概念要深入你心。正因为是判别模型,所以不废话,我上来就直接为了确定边界而去建模,因为我创造出来就是为了这个分边界的目的的。比如说序列求概率(分类)问题,我直接考虑找出函数分类边界。所以才为什么会有这个公式。
所以CRF的建模公式如下:
将三者放在一块做一个总结:HMM -> MEMM: HMM模型中存在两个假设:
- 一是输出观察值之间严格独立,二是状态的转移过程中当前状态只与前一状态有关。但实际上序列标注问题不仅和单个词相关,而且和观察序列的长度,单词的上下文,等等相关。MEMM解决了HMM输出独立性假设的问题。因为HMM只限定在了观测与状态之间的依赖,而MEMM引入自定义特征函数,不仅可以表达观测之间的依赖,还可表示当前观测与前后多个状态之间的复杂依赖。
- MEMM -> CRF:
- CRF不仅解决了HMM输出独立性假设的问题,还解决了MEMM的标注偏置问题,MEMM容易陷入局部最优是因为只在局部做归一化,而CRF统计了全局概率,在做归一化时考虑了数据在全局的分布,而不是仅仅在局部归一化,这样就解决了MEMM中的标记偏置的问题。使得序列标注的解码变得最优解。
- HMM、MEMM(MEMM,最大熵马尔科夫模型)属于有向图,所以考虑了x与y的影响,但没讲x当做整体考虑进去(这点问题应该只有HMM)。CRF属于无向图,没有这种依赖性,克服此问题。