StatQuest学习笔记07——最大似然法详解

主要内容

这篇笔记的主要内容是讲最大似然法的,笔记源于StatQuest的视频文件26,27,28。其中文件26内容为j最大似然法(Maximun likelihood)的原理;文件27内容为指数分布;文件28内容为概率和似然。

最大似然法

我们先看一种情况,下面是一批小鼠的体重数据:

image

最大似然法的目的就是找出这批数据最符合哪种分布,而分布呢,有很多种,例如正态分布(Normal),指数分布(Exponential),γ分布(Gamma)等,如下所示:

image

再次回到小鼠的体重数据,小鼠的体重貌似是服合正态分布的,就是下面的这种分布:

image

如果是服从正态分布,那么这批数据就有以下这些特点:

第一,大多数的测量数据(小鼠的体重)都接近于均值,如下所示:

image

第二,这一批的数据都在均值的左右两侧大概呈对称分布,如下所示:

image

不过正态分布也有各种形状,下图中的形状从左到右就是比较瘦的(skinny),正常的(medium),比较胖的(Large Boned),如下所示:

image

一旦我们确定了我们这批数据是服从正态分布的,那么我们就要确定这批数据的中心在哪里,在这么多的正态分布中,为什么这个比那个更好:

image

在找到想要正态分布之前,我们先随便看一个正态分布,看它与我们的数据匹配的程度,如下所示:

image

在下图中,这个正态分布的均值(也就是中间的虚线直线)意思就是,我们测量的多个数据应该在它附近分布。不过,我们的小鼠数据貌似不太在它的均值附近分布,大多数的数据都远离它,如下所示:

image

此时,我们再换一个正态分布,如下所示:

image

在这个正态分布中,我们可以看到,小鼠的体重有很大概率分布在这个曲线的下方,如下所示:

image

我们继续换正态分布曲线,在下面的这个曲线中,我们看到,小鼠体重的数值在很大程度上是分布在曲线的左侧,离曲线的中心位置很远,如下所示:

image

现在我们绘制一下,不同的正态分布曲线能够覆盖小鼠体重数据的可能性(likelihood),黑色的虚线就是正态分布曲线的均值所在位置,如下所示:

image

从这张图可以看出,红色圈上方的点所在的位置有最大的可能性(maximizes the likelihood)观测到小鼠体重。把这个点所在的正态分布曲线提取出来,就是下面的这条曲线:

image

此时,我们就找到均值的最大可能的估计值,就是下面的这个黑色虚线:

image

此时,我们再绘制对标准差的最大可能估计值,如下所示:

image

按照上面的绘制不同曲线均值的方法来绘制标准差的最大可能观测值,如下所示:

image

其中的绿色曲线就是符合我们的小鼠体重数据的曲线,能够最大可能地估计这批数据的均值与标准差,它是最终我们想要的正态分布曲线,如下所示:

image
image

此时我们明白,当有人说他们最大可能地估计了均值或标准差的时候,你就知道,你所观察到的东西就是你最大可能所观察所到的东西,如下所示:

image

对于大多数人来说,“概率(probability)”和“似然(likelihood)”就是一样的。但是,在我们这个教程里,“似然”专门指的是我们所讲的内容,也就是说,似然指的是,你有一批数据,你要找到符合这个数据的某个分布,寻找方法就是找到这个分布的均值和标准差(我觉得这两个参数只适用于正态分布),如下所示:

image

另外我又找了一些资料,总结一下最大似然法与概率的区别(在后文还会讲到):

极大似然估计,通俗理解来说,就是利用已知的样本结果信息,反推最具有可能(最大概率)导致这些样本结果出现的模型参数值。举个例子。

假如有一个罐子,里面有黑白两种颜色的球,数目多少不知,两种颜色的比例也不知。我 们想知道罐中白球和黑球的比例,但我们不能把罐中的球全部拿出来数。现在我们可以每次任意从已经摇匀的罐中拿一个球出来,记录球的颜色,然后把拿出来的球 再放回罐中。这个过程可以重复,我们可以用记录的球的颜色来估计罐中黑白球的比例。假如在前面的一百次重复记录中,有七十次是白球,请问罐中白球所占的比例最有可能是多少?很多人马上就有答案了:70%。而其后的理论支撑是什么呢?就最大似然法。

而概率,就是我们已知现在某事件的概率,来计算它可能的结果。打个比方就是,我们知道一个袋子里有100个球,30个白球,70个黑球,伸手进去抓一个球,是黑球的概率是多少?这就是概率。

最大似然法与指数分布

什么是指数分布

指数分布研究的是事件的时间间隔的概率,像下面这些都属于指数分布:你收到两条微信之间的时间间隔,婴儿出生的时间间隔,来电的时间间隔,奶粉销售的时间间隔,网站访问的时间间隔,它的分布曲线如下所示,其中y轴和x轴与曲线围成的面积是1:

image

如果我们对某个事件感兴趣,那么它在在0到5秒内发生的概率就是x=0x=5之间的这个面积,如下所示:

image

这个曲线的方程如下所示:

image

此时我们在x轴上找到一个值(红叉所在位置),把它代入方程,得到y值,如下所示:

image
image

其中λ表示是的“率”(rate),它表示的是事情发生的频率,如果λ=1,那么这个公式描述的就是正在发生的事情(就像你此时正在看这个视频这个事件),如下所示:

image

如果λ=2(红线),这条曲线描述的就是某些人正在看视频,频率是每秒发生2次,如下所示:

image

如果λ=0.5(黑线),它描述的就是每2秒有1个人在看视频,如下所示:

image

最大似然法与指数分布

我们利用最大然法来找某组数据符合指数分布的目标就是要找到λ值,如下所示:

image

因此,我们(指作者自己)收入了一些该视频观看的时间,其中数据如下:

x1=第1次观看视频与第2次观看视频之间的时间;

x2=第2次观看视频与第3次观看视频之间的时间;

x3=第3次观看视频与第4次观看视频之间的时间;

...

xn=第n次观看视频与第n+1次观看视频之间的时间,如下所示:

image

其中n就是我们的数据数目,此时我们假设我们已经有了一个很好的λ值。那么这个λ是我们第1次数据x1值的可能性是多少呢,如下所示:

image

在上面的公式里,L表示概率,整个公式表示,x1时的概率,同样的,我们可以代入x2,如下所示:

image

那么在x1和x2存在时,λ可能的值是多少呢?下面是计算过程:

image

如果是x1,x2到xn呢?计算过程如下所示:

image

但是,如果我们没有一个很好的λ值呢,为了找到这个λ值,我们需要这么计算(其实就是对下面的这个方程求导,然后令导数等于0即可),L及其后面的公式总体叫做“最大似然函数”(Likelihood function),求它的过程如下所示:

第一步,求出最大似然函数的导数,我们发现,导数的右边含有自然常数e,因此我们可以进行一个log转换,接着计算就行,如下所示:如下所示:

image

第二步,令导数等于0,接着再计算,如下所示:

image
image

从最终的计算结果来看,当我们收集了很多事件之间的时间间隔时,我们把它们代入公式,我们就得到了对λ的最佳估计值,然后我们就可以将这个λ代入指数方程了。

一个案例

例如,如果在第1次观看和第2次观看之间的时间间隔是2秒,也就是说x1=2,在第2次观看和第3次观看之间的时间间隔是2.5秒,那么x2=2.5,而在第3次和第4次观看之间的时间间隔是1.5秒,那么x3=1.5,如下所示:

image

代入方程,如下所示:

image

概率与最大似然估计

我们先看一下小鼠体重的正态分布,它的均值是32,如下所示:

image

标准差为2.5,如下所示:

image

最低值是24,最高值是40,如下所示:

image
image

此时,我们计算一下32克到34克之间小鼠的概率:

image

它的概率就是由正态分布曲线,x轴,以及x=32,x=34围成的面积,就是下面的红色面积部分,经计算,这个面积是0.29,这就是说当我们随机选择一个小鼠时,它的体重在32克到34克之间的概率是29%,如下所示:

image

那么在数学上,我们可以用pr这个符号来表示表示这个概率,完整的表示方法就是pr(体重在32到43之间 | 均值 = 32,标准差=2.5)=0.29,这个公式中间有一个竖线,即|,它表示given,就是说给定的条件,如下所示:

image

现在我们计算一下,随机挑选一只小鼠,它体重大于34克的概率,如下所示:

image

当我们在讨论概率的时候,我们讨论的就是在一个已知分布下,求满足某个条件的概率,就是前面两个案例。现在我们转向最大似然法,如下所示:

image

在讲最大似然法时,我们先假定已经称了1只小鼠的体重了(其实也可以是几只),它的体重是34,它在图中的位置就是红点所在位置:

image

那么我们称1只小鼠是34克在下图正态分布曲线上的可能性就在下面的这个点上:

image

从数学上,我们可以用下面的这个公式来表示:

image

L就是Likelihood的缩写,L(mean = 32 and standard deviation = 2.5)表示:某点个在一个分布(均值为32,标准差为2.5)的可能性,如下所示:

image

这个竖线|表示给定条件(其实就是我们称的小鼠的体重)的意思:

image

竖线后面的就是具体的条件(小鼠体重是34克),最终计算的结果是0.12,如下所示:

image

此时,我们就可以说,我们称了一只小鼠,它的体重是34克,它在某个正态分布曲线(均值为32,标准差为2.5)上的可能性(likelihood)是12%。此时,我们再换一个正态分布曲线(它的均值是34,标准差为2.5),如下所示:

image

经计算,它在这条曲线上的可能性是21%,如下所示:

image

从上面的讲解我们可以得到这些结论:

  1. 概率(probability)指的是某个固定曲线下的面积,它表示为pr(data | distribution)

  2. 似然(Likelihood)指的是对于某个固定的点,它对应的y轴上的数值,这个y轴上的数值在不同的曲线上的取值是不同的,用数学表示就是L(distribution | data),如下所示:

    image

    概率的计算公式如下所示:

    image

参考资料

1.最大似然估计和最小二乘法怎么理解?

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 204,445评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,889评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 151,047评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,760评论 1 276
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,745评论 5 367
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,638评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,011评论 3 398
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,669评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,923评论 1 299
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,655评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,740评论 1 330
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,406评论 4 320
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,995评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,961评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,197评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,023评论 2 350
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,483评论 2 342

推荐阅读更多精彩内容