隐马尔科夫模型

隐含马尔科夫模型
通信的本质就是编解码和传输的过程
观测信号:o_1, o_2, ...
发送源的信息:s_1, s_2, ...
已知o_1, o_2, ...的情况下,求得令条件概率P(s_1,s_2,...|o_1,o_2,...)达到最大值得那个信息串s_1, s_2, ...,即(解码)
s_1,s_2,... =\mathop{\arg\max}\limits_{all\ s_1,s_2,...} P(s_1,s_2,...|o_1,o_2,...)

通过贝叶斯公式,上述公式等价变换为
\frac{P(o_1,o_2,...|s_1,s_2,...)\cdot P(s_1,s_2,...)}{P(o_1,o_2,...)}
P(o_1,o_2,...)发送端产生信息o_1,o_2,...的可能性(比如说话的人),可忽略的常数
P(s_1,s_2,...)表示s_1,s_2,...在接收端是合符情理的信号
P(o_1,o_2,...|s_1,s_2,...)表示信息s_1,s_2,...在传输后变成接收的信号o_1,o_2,...的可能性

P(o_1,o_2,...|s_1,s_2,...)\cdot P(s_1,s_2,...)可以用Hidden Markov Model来估计

只与它的前一个状态有关,即P(s_t|s_1,s_2,...,s_{t-1})=P(s_t|s_{t-1})的随机过程,称为马尔科夫过程,也称为马尔科夫链

图中表示P(S_{t+1}=m_3|S_t=m_2)=0.6P(S_{t+1}=m_4|S_t=m_2)=0.4

隐含马尔科夫模型是马尔科夫链的一个扩展:任一时刻t的状态s_t是不可见的,但输出o_ts_t相关而且仅跟s_t相关,即独立输出假设

基于马尔科夫假设和独立输出假设,某个特定的状态序列s_1,s_2,...产出输出符号o_1,o_2,...的概率:
P(s_1,s_2,...,o_1,o_2,...)=\prod_{t}P(s_t|s_{t-1})\cdot P(o_t|s_t)

P(o_1,o_2,...|s_1,s_2,...)=\prod_{t}P(o_t|s_t)P(s_1,s_2,...)=\prod_{t}P(s_t|s_{t-1})可以得到上式,说明了通信的解码问题可以用隐含马尔科夫模型来解决。同时,找出上式的最大值进而找出要识别的句子s_1,s_2,...,可以用维特比算法(Viterbi Algorithm)

P(s_1,s_2,...)是语言模型
P(o_1,o_2,...|s_1,s_2,...)在语音识别叫“声学模型”,在机器翻译叫“翻译模型”

P(s_t|s_{t-1})表示从前一个状态s_{t-1}进入当前状态s_t的概率,称为转移概率
P(o_t|s_t)表示每个状态s_t产生相应输出符号o_t的概率,称为生成概率

训练隐含马尔科夫模型的过程,即估算转移概率和生成概率(称为模型参数),直接估算上述参数需要大量的人工标注数据,成本非常高。
更实用的方式是仅仅通过大量观测到的信号o_1,o_2,...就能推算出模型参数的P(s_t|s_{t-1})P(o_t|s_t),即无监督学习的训练方法,主要使用的鲍姆-韦尔奇算法。

鲍姆-韦尔奇算法的思想:
1、首先找到一组能够产出输出序列o_1,o_2,...的模型参数(比如转移概率P和输出概率Q为均匀分布时,是可以产出任意输出序列的),记为M_{\theta_0}
2、根据这个模型M_{\theta_0},计算出某个特定的输出序列的概率P(O|M_{\theta_0});以及最有可能产出这个输出的状态序列P(S|M_{\theta_0}),获得产生O的所有可能路径以及这些路径的概率,和每个状态经历了多少次,到达了哪些状态,输出了哪些符号(看作标注的训练数据),再根据:
P(s_t|s_{t-1})=\frac{P(s_t,s_{t-1})}{P(s_{t-1})}P(o_t|s_t)=\frac{P(o_t, s_t)}{P(s_t)}
计算出新的模型参数\theta_1,即得到M_{\theta_1},可以证明P(O|M_{\theta_1}) > P(O|M_{\theta_0})
3、重复2直至没有找到更好的模型M_{\theta}

上述过程也就是EM过程(Expectation-Maximization)

总结
通信模型可以用隐含马尔科夫模型来解决,自然语言处理、语音识别跟通信原理相通,当然也可以用它
解码算法:维特比算法
训练算法:鲍姆-韦尔奇算法

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 204,590评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 86,808评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 151,151评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,779评论 1 277
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,773评论 5 367
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,656评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,022评论 3 398
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,678评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 41,038评论 1 299
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,659评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,756评论 1 330
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,411评论 4 321
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,005评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,973评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,203评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,053评论 2 350
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,495评论 2 343

推荐阅读更多精彩内容

  • 16宿命:用概率思维提高你的胜算 以前的我是风险厌恶者,不喜欢去冒险,但是人生放弃了冒险,也就放弃了无数的可能。 ...
    yichen大刀阅读 6,032评论 0 4
  • 公元:2019年11月28日19时42分农历:二零一九年 十一月 初三日 戌时干支:己亥乙亥己巳甲戌当月节气:立冬...
    石放阅读 6,870评论 0 2
  • 年纪越大,人的反应就越迟钝,脑子就越不好使,计划稍有变化,就容易手忙脚乱,乱了方寸。 “玩坏了”也是如此,不但会乱...
    玩坏了阅读 2,123评论 2 1
  • 感动 我在你的眼里的样子,就是你的样子。 相互内化 没有绝对的善恶 有因必有果 当你以自己的价值观幸福感去要求其他...
    周粥粥叭阅读 1,633评论 1 5
  • 昨天考过了阿里规范,心里舒坦了好多,敲代码也犹如神助。早早完成工作回家喽
    常亚星阅读 3,031评论 0 1