隐马尔科夫模型

隐含马尔科夫模型
通信的本质就是编解码和传输的过程
观测信号： $o_1, o_2, ...$
发送源的信息： $s_1, s_2, ...$
已知 $o_1, o_2, ...$ 的情况下，求得令条件概率 $P(s_1,s_2,...|o_1,o_2,...)$ 达到最大值得那个信息串 $s_1, s_2, ...$ ，即（解码）
$s_1,s_2,... =\mathop{\arg\max}\limits_{all\ s_1,s_2,...} P(s_1,s_2,...|o_1,o_2,...)$

通过贝叶斯公式，上述公式等价变换为
$\frac{P(o_1,o_2,...|s_1,s_2,...)\cdot P(s_1,s_2,...)}{P(o_1,o_2,...)}$
$P(o_1,o_2,...)$ 发送端产生信息 $o_1,o_2,...$ 的可能性（比如说话的人），可忽略的常数
$P(s_1,s_2,...)$ 表示 $s_1,s_2,...$ 在接收端是合符情理的信号
$P(o_1,o_2,...|s_1,s_2,...)$ 表示信息 $s_1,s_2,...$ 在传输后变成接收的信号 $o_1,o_2,...$ 的可能性

$P(o_1,o_2,...|s_1,s_2,...)\cdot P(s_1,s_2,...)$ 可以用Hidden Markov Model来估计

只与它的前一个状态有关，即 $P(s_t|s_1,s_2,...,s_{t-1})=P(s_t|s_{t-1})$ 的随机过程，称为马尔科夫过程，也称为马尔科夫链

图中表示 $P(S_{t+1}=m_3|S_t=m_2)=0.6$ ， $P(S_{t+1}=m_4|S_t=m_2)=0.4$

隐含马尔科夫模型是马尔科夫链的一个扩展：任一时刻t的状态 $s_t$ 是不可见的，但输出 $o_t$ 跟 $s_t$ 相关而且仅跟 $s_t$ 相关，即独立输出假设

基于马尔科夫假设和独立输出假设，某个特定的状态序列 $s_1,s_2,...$ 产出输出符号 $o_1,o_2,...$ 的概率：
$P(s_1,s_2,...,o_1,o_2,...)=\prod_{t}P(s_t|s_{t-1})\cdot P(o_t|s_t)$

由 $P(o_1,o_2,...|s_1,s_2,...)=\prod_{t}P(o_t|s_t)$ 和 $P(s_1,s_2,...)=\prod_{t}P(s_t|s_{t-1})$ 可以得到上式，说明了通信的解码问题可以用隐含马尔科夫模型来解决。同时，找出上式的最大值进而找出要识别的句子 $s_1,s_2,...$ ，可以用维特比算法（Viterbi Algorithm）

$P(s_1,s_2,...)$ 是语言模型
$P(o_1,o_2,...|s_1,s_2,...)$ 在语音识别叫“声学模型”，在机器翻译叫“翻译模型”

$P(s_t|s_{t-1})$ 表示从前一个状态 $s_{t-1}$ 进入当前状态 $s_t$ 的概率，称为转移概率
$P(o_t|s_t)$ 表示每个状态 $s_t$ 产生相应输出符号 $o_t$ 的概率，称为生成概率

训练隐含马尔科夫模型的过程，即估算转移概率和生成概率（称为模型参数），直接估算上述参数需要大量的人工标注数据，成本非常高。
更实用的方式是仅仅通过大量观测到的信号 $o_1,o_2,...$ 就能推算出模型参数的 $P(s_t|s_{t-1})$ 和 $P(o_t|s_t)$ ，即无监督学习的训练方法，主要使用的鲍姆-韦尔奇算法。

鲍姆-韦尔奇算法的思想：
1、首先找到一组能够产出输出序列 $o_1,o_2,...$ 的模型参数（比如转移概率P和输出概率Q为均匀分布时，是可以产出任意输出序列的），记为 $M_{\theta_0}$
2、根据这个模型 $M_{\theta_0}$ ，计算出某个特定的输出序列的概率 $P(O|M_{\theta_0})$ ；以及最有可能产出这个输出的状态序列 $P(S|M_{\theta_0})$ ，获得产生 $O$ 的所有可能路径以及这些路径的概率，和每个状态经历了多少次，到达了哪些状态，输出了哪些符号（看作标注的训练数据），再根据：
$P(s_t|s_{t-1})=\frac{P(s_t,s_{t-1})}{P(s_{t-1})}$ 和 $P(o_t|s_t)=\frac{P(o_t, s_t)}{P(s_t)}$
计算出新的模型参数 $\theta_1$ ，即得到 $M_{\theta_1}$ ，可以证明 $P(O|M_{\theta_1}) > P(O|M_{\theta_0})$
3、重复2直至没有找到更好的模型 $M_{\theta}$

上述过程也就是EM过程（Expectation-Maximization)

总结
通信模型可以用隐含马尔科夫模型来解决，自然语言处理、语音识别跟通信原理相通，当然也可以用它
解码算法：维特比算法
训练算法：鲍姆-韦尔奇算法

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 204,590评论 6赞 478
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 86,808评论 2赞 381
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 151,151评论 0赞 337
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,779评论 1赞 277
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,773评论 5赞 367
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,656评论 1赞 281
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 38,022评论 3赞 398
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,678评论 0赞 258
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 41,038评论 1赞 299
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,659评论 2赞 321
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,756评论 1赞 330
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,411评论 4赞 321
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 39,005评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,973评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,203评论 1赞 260
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 45,053评论 2赞 350
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,495评论 2赞 343

隐马尔科夫模型

推荐阅读更多精彩内容