01 EM算法 - 大纲 - 最大似然估计(MLE)、贝叶斯算法估计、最大后验概率估计(MAP)

EM算法的讲解的内容包括以下几个方面:

1、最大似然估计
2、K-means算法
3、EM算法
4、GMM算法


EM算法本质是统计学中的一种求解参数的方法,基于这种方法,我们可以求解出很多模型中的参数。

1、最大似然估计
求解线性模型的过程中,我们用到了最大似然估计(MLE)的思想。

EM算法达到的目的和最大似然估计是一样的,只不过EM算法可以帮助我们去计算一些隐藏变量的参数。即当极大似然估计无法解决某些问题的时候,我们需要使用EM算法这种迭代算法的思路,不断得逼近最后的参数解。

EM算法不是具体某一种模型,而是一种求解问题的思路。在统计学中这种算法思想用的特别多。


2、K-means算法
K-means算法的求解过程本质上就是EM算法的思想,面试中曾经有人问:K-means算法究竟是如何运用EM算法来实现的? 这样两个算法就通过一个问题来挂上钩了。


3、EM算法
然后讲到如何将EM算法用一种比较通式化的方法来实现求解过程,即但凡我们遇到一个可以用EM算法来解决的问题,我们如何去求解这个问题对应的参数。

就好比极大似然估计中,我们使用联合概率作为似然函数的值,然后求解极大值。当然首先不同的问题会有不同的联合概率,先要把这个联合概率构造出来。


4、GMM算法
最后使用EM算法解决一个问题:有一个模型叫做高斯混合模型(GMM),可以通过EM算法来帮助我们来求解它最后的参数值。


一、最大似然估计(MLE)回顾

最大似然估计(Maximum Likelihood Estimati) 就是利用已知的样本结果,反推最有可能(最大概率)导致这样结果的参数值的计算过程。直白来讲,就是给定了一定的数据,假定知道数据是从某种分布中随机抽取出来的,但是不知道这个分布具体的参数值,即“模型已定,参数未知”,MLE就可以用来估计模型的参数。

MLE的目标是找出一组参数(模型中的参数),使得模型产出观察数据的概率最大。


例子:假定盒子中有黑白两种球,数目未知,黑白球比例也未知,现只知道随机的十次有放回的抽样情况,求各个盒子中抽取出白球的概率?

MLE求解过程:
1、编写似然函数(即联合概率函数) <似然函数:在样本固定的情况下,样本出现的概率与参数θ之间的函数>;
2、对似然函数取对数,并整理;(一般都进行)
3、求导数。
4、解似然方程。

分析: 盒子中只有黑球和白球,假定白球的比例为p,那么黑球的比例为1-p。因为采取的是有放回的随机抽取,那么每次抽取出来的球的颜色服从同一独立分布情况,即每次抽取之间是独立互不影响的。

求解思路

求解盒子1中抽取出白球的概率:

左-求联合概率 中-取对数 右-求极值

求解盒子2中抽取出白球的概率:

左-求联合概率 中-取对数 右-求导并求极值

求解盒子3中抽取出白球的概率:

求解盒子4中抽取出白球的概率:

求解盒子5中抽取出白球的概率:


二、贝叶斯算法估计

贝叶斯算法估计是一种从先验概率和样本分布情况来计算后验概率的一种方式。

贝叶斯算法中的常见概念:
1、P(A)是事件A的先验概率或者边缘概率。
2、P(A|B)是已知B发生后A发生的条件概率,也称为A的后验概率。
3、P(B|A)是已知A发生后B发生的条件概率,也称为B的后验概率。
4、P(B)是事件B的先验概率或者边缘概率。


例子:现在有五个盒子,假定每个盒子中都有黑白两种球,并且黑白球的比例如下;现已知从这五个盒子中的任意一个盒子中有放回的抽取两个球,且均为白球,问这两个球是从哪个盒子中抽取出来的?

1、使用MLE(最大似然估计),结论是从第五个盒子抽取的球:


2、使用贝叶斯算法估计,结论是从第五个盒子抽取的球:假定抽出白球为事件B,从第i个盒子中抽取为事件Ai。

公式进一步分析

思路递进:

现在不是从五个盒子中任选一个盒子进行抽取,而是按照一定的概率选择对应的盒子,概率如下。假定抽出白球为事件B,从第i个盒子中抽取为事件Ai。结论是从第四个盒子抽取的球。


三、最大后验概率估计(MAP)

根据上面的例子我们得出了以下的结论:

(最大后验概率估计Maximum a posteriori estimation)MAPMLE 样,都是通过样本估计参数θ的值;

1、在MLE中,是使似然函数\color{red}{ P(x|θ)}最大的时候参数θ的值,MLE中假设先验概率是一个等值的;

2、而在MAP中,则是求θ使\color{red}{ P(x|θ)P(θ)}的值最大,这也就是要求θ值不仅仅是让似然函数最大,同时要求θ本身出现的先验概率也得比较大。

可以认为MAP是贝叶斯算法的一种应用:

02 EM算法 - K-means算法回顾、EM概述

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 206,602评论 6 481
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 88,442评论 2 382
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 152,878评论 0 344
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 55,306评论 1 279
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 64,330评论 5 373
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,071评论 1 285
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,382评论 3 400
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,006评论 0 259
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 43,512评论 1 300
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,965评论 2 325
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,094评论 1 333
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,732评论 4 323
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,283评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,286评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,512评论 1 262
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,536评论 2 354
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,828评论 2 345

推荐阅读更多精彩内容

  • 在“Hinton是如何理解PCA?”里面,我们体会到Hinton高人一等的见解。 Hinton, 这个深度学习的缔...
    史春奇阅读 3,144评论 0 13
  • 前言 EM算法,在学术界的重视程度,要高于在工业界。它是一个做数据优化的方法。比如现在如果遇到问题,如果想对问题做...
    blade_he阅读 3,382评论 1 53
  • EM算法的每次迭代由两步组成:E步,求期望;M步,求极大。所以这一算法称为期望极大法(expectation ma...
    瘦长的丰一禾阅读 1,669评论 0 3
  • 一、EM算法介绍 我们经常会从样本观察数据中,找出样本的模型参数。 最常用的方法就是极大化模型分布的对数似然函数。...
    owolf阅读 9,488评论 1 7
  • 周一的早上和周五的下午,前者丢了魂的怨妇,后者像脱缰的野马,总之,身在教室而心早已飘飘欲飞了。老师的嘴里吐出的都是...
    听说你那边下雨了阅读 294评论 0 1