统计分词:为长度为 的字符串确定其概率分布 ,其中到 依次表示文本中的各个词语,一般使用二元概率模型:
1. HMM隐含马尔科夫模型
引言
将分词作为字在字串中的序列标注任务 。对每个字标注其词位(该字在词中的位置),现规定只有四种词位:B (词首)、 M( 词中)、 E (词尾),S(单独成词 )
对每个字的标签记为,每个字记为则目标函数:
上面式子太难算,独立性假设:
这样的假设又会忽视上下文关系,可能会出现B(词首)B(词首)的问题,而两个词首不可能连续出现。
HMM
HMM是解决此问题的一种办法。
根据贝叶斯公式:
为常数,所以目标函数:
针对 作马尔可夫假设,得到 :
又根据联合概率链式法则并进行齐次马尔可夫假设:
齐次马尔可夫假设,下一个状态只与上一个状态有关,即下一个词出现的概率只与上一个词有关,也是二元模型的假设前提
综上:
称为发射概率 , 称为转移概率,通过设置某些,可以排除类似 BBB 、 EM 等不合理的组合。求解的方法参见Veterbi 动态规划算法