主要内容
这篇笔记的主要内容是讲最大似然法的,笔记源于StatQuest的视频文件26,27,28。其中文件26内容为j最大似然法(Maximun likelihood)的原理;文件27内容为指数分布;文件28内容为概率和似然。
最大似然法
我们先看一种情况,下面是一批小鼠的体重数据:
最大似然法的目的就是找出这批数据最符合哪种分布,而分布呢,有很多种,例如正态分布(Normal),指数分布(Exponential),γ分布(Gamma)等,如下所示:
再次回到小鼠的体重数据,小鼠的体重貌似是服合正态分布的,就是下面的这种分布:
如果是服从正态分布,那么这批数据就有以下这些特点:
第一,大多数的测量数据(小鼠的体重)都接近于均值,如下所示:
第二,这一批的数据都在均值的左右两侧大概呈对称分布,如下所示:
不过正态分布也有各种形状,下图中的形状从左到右就是比较瘦的(skinny),正常的(medium),比较胖的(Large Boned),如下所示:
一旦我们确定了我们这批数据是服从正态分布的,那么我们就要确定这批数据的中心在哪里,在这么多的正态分布中,为什么这个比那个更好:
在找到想要正态分布之前,我们先随便看一个正态分布,看它与我们的数据匹配的程度,如下所示:
在下图中,这个正态分布的均值(也就是中间的虚线直线)意思就是,我们测量的多个数据应该在它附近分布。不过,我们的小鼠数据貌似不太在它的均值附近分布,大多数的数据都远离它,如下所示:
此时,我们再换一个正态分布,如下所示:
在这个正态分布中,我们可以看到,小鼠的体重有很大概率分布在这个曲线的下方,如下所示:
我们继续换正态分布曲线,在下面的这个曲线中,我们看到,小鼠体重的数值在很大程度上是分布在曲线的左侧,离曲线的中心位置很远,如下所示:
现在我们绘制一下,不同的正态分布曲线能够覆盖小鼠体重数据的可能性(likelihood),黑色的虚线就是正态分布曲线的均值所在位置,如下所示:
从这张图可以看出,红色圈上方的点所在的位置有最大的可能性(maximizes the likelihood)观测到小鼠体重。把这个点所在的正态分布曲线提取出来,就是下面的这条曲线:
此时,我们就找到均值的最大可能的估计值,就是下面的这个黑色虚线:
此时,我们再绘制对标准差的最大可能估计值,如下所示:
按照上面的绘制不同曲线均值的方法来绘制标准差的最大可能观测值,如下所示:
其中的绿色曲线就是符合我们的小鼠体重数据的曲线,能够最大可能地估计这批数据的均值与标准差,它是最终我们想要的正态分布曲线,如下所示:
此时我们明白,当有人说他们最大可能地估计了均值或标准差的时候,你就知道,你所观察到的东西就是你最大可能所观察所到的东西,如下所示:
对于大多数人来说,“概率(probability)”和“似然(likelihood)”就是一样的。但是,在我们这个教程里,“似然”专门指的是我们所讲的内容,也就是说,似然指的是,你有一批数据,你要找到符合这个数据的某个分布,寻找方法就是找到这个分布的均值和标准差(我觉得这两个参数只适用于正态分布),如下所示:
另外我又找了一些资料,总结一下最大似然法与概率的区别(在后文还会讲到):
极大似然估计,通俗理解来说,就是利用已知的样本结果信息,反推最具有可能(最大概率)导致这些样本结果出现的模型参数值。举个例子。
假如有一个罐子,里面有黑白两种颜色的球,数目多少不知,两种颜色的比例也不知。我 们想知道罐中白球和黑球的比例,但我们不能把罐中的球全部拿出来数。现在我们可以每次任意从已经摇匀的罐中拿一个球出来,记录球的颜色,然后把拿出来的球 再放回罐中。这个过程可以重复,我们可以用记录的球的颜色来估计罐中黑白球的比例。假如在前面的一百次重复记录中,有七十次是白球,请问罐中白球所占的比例最有可能是多少?很多人马上就有答案了:70%。而其后的理论支撑是什么呢?就最大似然法。
而概率,就是我们已知现在某事件的概率,来计算它可能的结果。打个比方就是,我们知道一个袋子里有100个球,30个白球,70个黑球,伸手进去抓一个球,是黑球的概率是多少?这就是概率。
最大似然法与指数分布
什么是指数分布
指数分布研究的是事件的时间间隔的概率,像下面这些都属于指数分布:你收到两条微信之间的时间间隔,婴儿出生的时间间隔,来电的时间间隔,奶粉销售的时间间隔,网站访问的时间间隔,它的分布曲线如下所示,其中y轴和x轴与曲线围成的面积是1:
如果我们对某个事件感兴趣,那么它在在0到5秒内发生的概率就是x=0
到x=5
之间的这个面积,如下所示:
这个曲线的方程如下所示:
此时我们在x轴上找到一个值(红叉所在位置),把它代入方程,得到y值,如下所示:
其中λ表示是的“率”(rate),它表示的是事情发生的频率,如果λ=1,那么这个公式描述的就是正在发生的事情(就像你此时正在看这个视频这个事件),如下所示:
如果λ=2(红线),这条曲线描述的就是某些人正在看视频,频率是每秒发生2次,如下所示:
如果λ=0.5(黑线),它描述的就是每2秒有1个人在看视频,如下所示:
最大似然法与指数分布
我们利用最大然法来找某组数据符合指数分布的目标就是要找到λ
值,如下所示:
因此,我们(指作者自己)收入了一些该视频观看的时间,其中数据如下:
x1=第1次观看视频与第2次观看视频之间的时间;
x2=第2次观看视频与第3次观看视频之间的时间;
x3=第3次观看视频与第4次观看视频之间的时间;
...
xn=第n次观看视频与第n+1次观看视频之间的时间,如下所示:
其中n就是我们的数据数目,此时我们假设我们已经有了一个很好的λ
值。那么这个λ
是我们第1次数据x1
值的可能性是多少呢,如下所示:
在上面的公式里,L
表示概率,整个公式表示,x1
时的概率,同样的,我们可以代入x2,如下所示:
那么在x1和x2存在时,λ可能的值是多少呢?下面是计算过程:
如果是x1,x2到xn呢?计算过程如下所示:
但是,如果我们没有一个很好的λ值呢,为了找到这个λ值,我们需要这么计算(其实就是对下面的这个方程求导,然后令导数等于0即可),L
及其后面的公式总体叫做“最大似然函数”(Likelihood function),求它的过程如下所示:
第一步,求出最大似然函数的导数,我们发现,导数的右边含有自然常数e
,因此我们可以进行一个log转换,接着计算就行,如下所示:如下所示:
第二步,令导数等于0,接着再计算,如下所示:
从最终的计算结果来看,当我们收集了很多事件之间的时间间隔时,我们把它们代入公式,我们就得到了对λ的最佳估计值,然后我们就可以将这个λ代入指数方程了。
一个案例
例如,如果在第1次观看和第2次观看之间的时间间隔是2秒,也就是说x1=2,在第2次观看和第3次观看之间的时间间隔是2.5秒,那么x2=2.5,而在第3次和第4次观看之间的时间间隔是1.5秒,那么x3=1.5,如下所示:
代入方程,如下所示:
概率与最大似然估计
我们先看一下小鼠体重的正态分布,它的均值是32,如下所示:
标准差为2.5,如下所示:
最低值是24,最高值是40,如下所示:
此时,我们计算一下32克到34克之间小鼠的概率:
它的概率就是由正态分布曲线,x轴,以及x=32,x=34围成的面积,就是下面的红色面积部分,经计算,这个面积是0.29,这就是说当我们随机选择一个小鼠时,它的体重在32克到34克之间的概率是29%,如下所示:
那么在数学上,我们可以用pr
这个符号来表示表示这个概率,完整的表示方法就是pr(体重在32到43之间 | 均值 = 32,标准差=2.5)=0.29
,这个公式中间有一个竖线,即|
,它表示given
,就是说给定的条件,如下所示:
现在我们计算一下,随机挑选一只小鼠,它体重大于34克的概率,如下所示:
当我们在讨论概率的时候,我们讨论的就是在一个已知分布下,求满足某个条件的概率,就是前面两个案例。现在我们转向最大似然法,如下所示:
在讲最大似然法时,我们先假定已经称了1只小鼠的体重了(其实也可以是几只),它的体重是34,它在图中的位置就是红点所在位置:
那么我们称1只小鼠是34克在下图正态分布曲线上的可能性就在下面的这个点上:
从数学上,我们可以用下面的这个公式来表示:
L
就是Likelihood的缩写,L(mean = 32 and standard deviation = 2.5)
表示:某点个在一个分布(均值为32,标准差为2.5)的可能性,如下所示:
这个竖线|
表示给定条件(其实就是我们称的小鼠的体重)的意思:
竖线后面的就是具体的条件(小鼠体重是34克),最终计算的结果是0.12,如下所示:
此时,我们就可以说,我们称了一只小鼠,它的体重是34克,它在某个正态分布曲线(均值为32,标准差为2.5)上的可能性(likelihood)是12%。此时,我们再换一个正态分布曲线(它的均值是34,标准差为2.5),如下所示:
经计算,它在这条曲线上的可能性是21%,如下所示:
从上面的讲解我们可以得到这些结论:
概率(probability)指的是某个固定曲线下的面积,它表示为
pr(data | distribution)
。-
似然(Likelihood)指的是对于某个固定的点,它对应的y轴上的数值,这个y轴上的数值在不同的曲线上的取值是不同的,用数学表示就是
L(distribution | data)
,如下所示:概率的计算公式如下所示: