程序员也需要感性

(别打我,我可能会变为标题党 hhhhhhhhh)理解EM算法背后的物理意义(idea),个人认为比繁锁公式(见最后插图)推导重要。

人需要感性,idea更能给人一种直观的感受,理解算法的合理性,数学推导只是用一种严谨的话表达出来而已。就好比一个梨很甜,你可以说它含糖量95%,但真的有多甜只有你咬一口才知道吧。EM算法就好比这个梨,我想带大家咬一口,而不是死磕繁琐的公式。本文我会用一个及其简单的例子循序渐进地讲清楚EM背后的idea,至于数学推导证明其正确性,见我下一篇吧。

Expectation Maximization (EM)算法是什么呢?用我的话就是:当你想估计两个参数的值,这两个参数之间又是鸡和蛋的关系,知道其中一个都能得到另外一个。在这样的情况下,用EM能够比较好的估计出这两个值。

001、一道小学题

假设有两枚硬币1和2,随机抛掷后正面朝上的概率为P_1P_2,为了估计这两个概率,每一次抛一个硬币,抛掷5次,结果如下:

硬币 结果 统计
1 正正反正反 3正2反
2 反反正正反 2正3负
1 正反反反反 1正4负
2 正反反正正 3正2负
1 反正正反反 2正3负

所以我们可以直接估计出
P_1 = \frac{(3+1+2)}{15}=0.4 ,P_2=\frac{(2+3)}{10}=0.5

011、加入隐含变量z

继续上面的问题,但我们现在抹去硬币的标记。也就是说我们不知道每轮丢的哪个硬币:

硬币 结果 统计
\ 正正反正反 3正2反
\ 反反正正反 2正3负
\ 正反反反反 1正4负
\ 正反反正正 3正2负
\ 反正正反反 2正3负

而且现在还多了一个隐藏变量z=\{z_1,z_2,z_3,z_4,z_5\}来表示每一轮的硬币是1还是2,其中z_i \in \{0,1\}。但是现在问题是我们不知道z,就不能像上面那样直接估计P_1和P_2。所以我们必须先估计出z,才能进一步估计P_1和P_2

但要估计z,我们又要知道P_1和P_2所以,这就好比是一个鸡生蛋还是蛋生鸡的故事?如何破 (这里可以思考1分钟)

庆幸的是,我们可以通过最大似然估计来解决上述的问题。也就是说我们可以初始化两个P_1和P_2的值,然后按照最大似然概率估计出z,然后在基于z,再按照最大似然概率反过来估计出P_1和P_2。如此循环估计直到与上一轮的值相等,就意味着我们估计的值达到真实值了。

011 EM初级版

正如上面所说,我们先假设P_1 =0.2 ,P_2=0.7因此,根据001中的统计结果,我们可以得到第一轮中是硬币1的概率为0.2*0.2*0.2*0.8*0.8 = 0.0512,硬币2 的概率为0.7*0.7*0.7*0.3*0.3=0.03087。依次类推我们可以得到第2轮到第5轮,硬币1和2的概率如下:

轮数 硬币1 硬币2
1 0.00512 0.03087
2 0.02048 0.01323
3 0.08192 0.00567
4 0.00512 0.03087
5 0.02048 0.01323

按照最大似然的准则:
第1轮中最有可能的是硬币2
第2轮中最有可能的是硬币1
第3轮中最有可能的是硬币1
第4轮中最有可能的是硬币2
第5轮中最有可能的是硬币1
即:
z=\{2,1,1,2,1\}
因此,P_1 = \frac{(2+1+2)}{15}=0.33 ,P_2=\frac{(3+3)}{10}=0.6是不是比我们假设的值更加接近(0.4和0.5)。接下来我们继续用得到的P_1和P_2的值重复上述的步骤。最后就会得到P_1 = \frac{(3+1+2)}{15}=0.4 ,P_2=\frac{(2+3)}{10}=0.5

这里有两个问题:
Q1: 每一轮新估计的P_1和P_2会更加接近真实值吗?
A1:会,一定会!数学上可以证明,但这不是我这篇文章想讨论的范围,有兴趣的看我下一篇理论推导。
Q2:最后一定会收敛于真实值吗?
A2 :不一定,取决于初始值。我们上面的例子能收敛是因为初始值恰好能达到。

100、EM进阶版

OK,我们继续上面的问题。上面我们用随机的两个P_1,P_2估计出最可能的z,而不是所有的z。想一想是不是?

如果我们考虑所有的z,并估计出对应的 P_1,P_2,并按照相应的权重对z也进行加权,最后得到的就会更加靠谱了。

z一共有2^5种可能。那我们要把32种可能都穷尽吗?那也不用全算,我们可以用期望来简化。

结合上面,我们可以算出每轮是硬币1,2的概率,以第一轮为例:是硬币1的概率为\frac{0.00512}{0.00512+0.03087}=0.14,则硬币2的概率为1-0.14=0.86。依次类推,其他4轮的概率如下:

轮数 硬币1 硬币2
1 0.14 0.86
2 0.61 0.39
3 0.94 0.06
4 0.14 0.86
5 0.61 0.39

上表中的右两列表示期望值。看第一行,0.86表示,从期望的角度看,这轮抛掷使用硬币2的概率是0.86。相比于前面的方法,我们按照最大似然概率,直接将第1轮估计为用的硬币2,此时的我们更加谨慎,我们只说,有0.14的概率是硬币1,有0.86的概率是硬币2,不再是非此即彼。这样我们在估计P1或者P2时,就可以用上全部的数据,而不是部分的数据,显然这样会更好一些。

这一步,我们实际是估计出了z的概率分布,这就是Expectation 。

结合第一个表,我们按照期望最大似然的法则来估计新的P_1和 P_2
P_1估计为例,第一轮的3正2反相当于:0.14*3=0.42正,0.14*2=0.28反
依次算出其他四轮:

轮数 正面 反面
1 0.42 0.28
2 1.22 1.83
3 0.94 3.76
4 0.42 0.28
5 1.22 1.83
总计 4.22 7.98

因此,P_1=\frac{4.22}{(4.22+7.98)}=0.35.

可以看到,改变了z值的估计方法后,新估计出的P_1要更加接近0.4。原因就是我们使用了所有抛掷的数据,而不是之前只使用了部分的数据。

这步中,我们根据E步中求出的z的概率分布,依据最大似然概率法则去估计P_1和P_2被称作M步。

1.png

2.png
3.png
4.png

101、总结

以上,我们用一个实际的小例子,来实际演示了EM算法背后的idea,共性存于个性之中,通过这个例子,我们可以对EM算法究竟在干什么有一个深刻感性的认识,掌握EM算法的思想精髓。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 199,711评论 5 468
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 83,932评论 2 376
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 146,770评论 0 330
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 53,799评论 1 271
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 62,697评论 5 359
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,069评论 1 276
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,535评论 3 390
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,200评论 0 254
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,353评论 1 294
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,290评论 2 317
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,331评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,020评论 3 315
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,610评论 3 303
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,694评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 30,927评论 1 255
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 42,330评论 2 346
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 41,904评论 2 341