基础:常见的参数估计方法

抽样、样本数据 -->观察数据趋势 -->选择模型 -->模型参数估计 -->假设检验


类别 名称 核心函数 求解目标
点估计 最小二乘法 模型参数的误差平方和函数 求偏导数,使误差平方和最小
点估计 最大似然法 似然函数→平均对数似然函数 求偏导数,使似然函数最大,即样本出现的概率达到最大
点估计 最大后验估计 模型参数的后验概率函数 求偏导数,使模型参数的后验概率

误差、残差

  • 与测量有关,误差=观测值与真实值的偏离
    模型:y=θx+随机扰动项
    误差相关影响因素:
    ①随机扰动项:包含所有未知因素,以及应该考虑但没有考虑到的次要因素的影响;
    ②模型的准确性,决定于模型参数θ
  • 与预测有关,残差=观测值与拟合值的偏离。有时,也说偏差。

关于随机扰动项:随机误差是模型的组成部分,也是数理统计的缘由,因为数理统计就是对带有随机性数据的分析。

点估计:
区间估计:

1. 最小二乘法

最小二乘法是数学家高斯在预测行星轨道时提出的。
它的核心思想是:构造误差平方和函数,对其求偏导,让误差平方和函数取得最小值的参数就是模型参数。
注意:最小二乘法本质上是一种参数估计方法,它既可以用于线性回归模型的参数估计,也可以用于非线性回归模型(如曲线模型)的参数估计中。可以说最小二乘法=最小误差平方和参数估计方法,但最小二乘法≠线性回归

2. 频率学派:最大似然估计法MLE

最大似然估计MLE:maximum likelihood estimation

引用《大嘴巴漫谈数据挖掘》中的解释:

一个女生和一个猎人一起打猎,一声枪响,打中一只兔子,请问这一枪是谁打的?

-- 你肯定会认为是猎人打的!这就用到了最大似然法的思想

---- 最大似然法认为当前出现的样本正好对应着总体中概率最大的那个事件;
---- 因为,总体中概率最大的事件实际出现(即被抽样选中)的概率是最大的。

因此,最大似然参数求解的核心思想就是构造当前样本出现的联合概率函数,对其求偏导,让当前样本的概率最大的就是模型参数。

细说似然函数:
假定条件:所有的采样都是独立同分布。
-- 独立,则P(x1,x2) = P(x1)*P(x2);同分布,则针对每次采样,模型相同。

推导过程:
假设x1, x2, x3, ...是独立、同分布的抽样。f为我们所使用的模型,θ为模型参数。

根据最大似然法的思路:当前样本数据出现的联合概率最大。因此,我们计算出:

当前样本数据出现的概率 = P(x1,x2,x3,..) = f(x1,x2,x3,..|θ)
其中:
P(x1,x2,x3,..)是概率
f(x1,x2,x3,..|θ)表示函数模型f(x)的每次抽样的输入变量依次为x1,x2,x3,..,且它的参数是θ,计算结果(值)等于概率。本身不是条件概率!不是条件概率!!

因为x1,x2,x3,..独立,则:
f(x1,x2,x3,..|θ) = f(x1|θ)*f(x2|θ)*f(x3|θ)*...
同理,f(x1|θ)表示x1次抽样时函数模型的参数为θ,本身不是条件概率!!

为了使f(x1,x2,x3,..|θ) 最大,我们对其求偏导数:
但是,需要注意的是该式中x1,x2,x3,..为已知条件,后者θ为未知项。因此,我们定义一个关于未知项θ的函数——似然函数 L(θ):

L(θ|x1,x2,x3,..) = f(x1,x2,x3,..|θ) = f(x1|θ)*f(x2|θ)*f(x3|θ)*...
其中,L(θ|x1,x2,x3,..) 表示似然函数的自变量为θ,参数为x1,x2,x3,..,本身不是条件概率!!

继续对L(θ|x1,x2,x3,..) 求偏导……

通常是两边取对数,再求导:

注释:
-- 这里取对数不改变函数本身的单调性,因此对于求导结果没有影响;
-- 另外,取对数的直接好处就是将连乘变为累加,求导方便多了!

原式

两边对数后,对数似然

这里有两个重要定义:
对数似然:ln L(θ|x1,x2,x3,..),即似然函数L(θ|x1,x2,x3,..) 取对数;
平均对数似然:1/n * ln L(θ|x1,x2,x3,..),即对数似然除以样本总量n

至此,问题出现了如下的逐步替换:
①求解样本数据的最大联合分布概率

②求解使得似然函数L(θ|x1,x2,x3,..)最大的未知参数θ

③求解使得平均对数似然函数1/n * ln L(θ|x1,x2,x3,..)最大的未知参数θ

为什么是对平均对数似然函数的最大值,而不是对数似然函数的最大值?
-- 因为,平均对数似然函数中有 1/n 项,消除了样本数量的影响。
-- 同时,在其他参数估计方法(如最小二乘法)中也同样需要做同样的均值消除样本数量影响处理。

由上可知最大似然估计的一般求解过程:
(1) 写出似然函数L(θ|x1,x2,x3,..);
(2) 对似然函数取对数,再平均,求得 平均对数似然函数;
(3) 求导数 ;
(4) 解似然方程

先判断似然函数的单调性,再通过导数=0求得似然函数取最大值时的模型参数θ。但是,需注意的是,求导后,导数=0得到的θ为一个确定的值,也符合假设条件:x1,x2,x3,..每次独立抽样的概率模型相同。
但是,需要明白在很多实际情况下,当前获取样本数据并不一定就是真实模型(假如存在的话)中概率最大的那个。基于与大数定律相似的原因,只有在样本数量较多时,这种假设才会成立;在样本数量较小时,当前样本概率最大的假设不成立的机会很大。这也就是最大似然估计的局限所在。

参考:
最大似然估计 博客
深入浅出最大似然估计
wikiwand里“最大似然估计”的解释


3. 贝叶斯学派:最大后验估计

最大后验概率估计(Maximum a posteriori estimation, 简称MAP)

背景:正如最大似然估计中假定x1,x2,x3,..每次独立抽样的概率模型相同,现在我们去掉这个假设,将问题复杂化。假如x1,x2,x3,..每次独立抽样的概率模型中的参数θ不是一个固定值,而是一个符合g(θ)概率分布(先验概率)的随机变量。这时,我们就需要用到最大后验估计。
Ps:假定条件变了,问题的复杂度方法变了,模型参数的估计方法也要随之改变。

最大后验估计的核心思想:是以当前样本数据条件下由贝叶斯公式计算出的整个后验概率最大模型参数θ为最终的模型参数。后验=后验概率,最大后验=最大后验概率。
Ps:最大似然估计以让当前样本的概率最大的模型参数θ为最终的模型参数。

再说,“似然” (likelihood)指已经出现事件的发生概率,它并不是“最大似然参数估计方法”的专属名词。在这里,最大后验估计方法中也会涉及似然函数。

先说似然函数:
假设x1, x2, x3, ...是独立抽样,f为我们所使用的模型,θ为模型参数,但是θ不是固定常数,而是具有一定概率分布(先验分布)的随机变量。模型参数θ的先验分布中的参数则被称为超参数(hyperparameter)

样本数据出现的概率 = P(x1,x2,x3,..) = f(x1,x2,x3,..|θ)
其中:
P(x1,x2,x3,..)是概率
f(x1,x2,x3,..|θ)表示函数模型f(x)的每次抽样的输入变量依次为x1,x2,x3,..,且它的参数是θ,计算结果(值)等于概率。本身不是条件概率!不是条件概率!!

似然函数: L(θ|x1,x2,x3,..) = f(x1,x2,x3,..|θ) = f(x1|θ)*f(x2|θ)*f(x3|θ)*...
其中,L(θ|x1,x2,x3,..) 表示似然函数的自变量为θ,参数为x1,x2,x3,..。本身是函数,不是条件概率!

根据贝叶斯公式:
若A、B不完全独立,有相关关系,则P(AB) = P(A|B)*P(B) = P(B|A)*P(A)
→ P(A|B)=P(B|A)*P(A)/P(B)

本问题中,假如每次独立抽样x的概率模型中参数θ不是常数固定项,而是一个随机变量,且参数θ的先验分布为g(θ)。同样的,我们就可以对其用贝叶斯公式:

P(θ|x1, x2, x3, ...) = P(x1, x2, x3, ...|θ) * P(θ) / P(x1, x2, x3, ...) =
其中,P(θ|x1, x2, x3, ...)是条件概率,P(x1, x2, x3, ...|θ) 也是条件概率

P(θ|x1, x2, x3, ...) = f(x1, x2, x3, ...|θ) * g(θ) / f(x1, x2, x3, ...) =
其中,f(x1, x2, x3, ...|θ)表示函数模型的值,θ为模型参数,本身不是条件概率。f(x1, x2, x3, ...) 表示函数模型的值。

继续,将f(x)按照每条抽样数据x1, x2, x3,..的展开,P(θ|x1, x2, x3, ...) =


在现有样本数据条件下参数θ的后验概率
在现有样本数据条件下参数θ的后验概率

其中,
g(θ) 是模型参数θ的先验分布;
f(x1, x2, x3, ...|θ)表示函数模型的值,等于似然函数。θ为模型参数,本身不是条件概率。

临时插播:从上式可以看出后验概率P(θ|x1, x2, x3, ...) 和似然函数f(x1, x2, x3, ...|θ)的差异!二者分别MAP和MLE两种参数估计方法的核心函数,也就是这两种方法计算过程的差异。后验概率在似然函数的基础上还考虑了先验概率的影响

接下来,最大后验估计的核心就是:求出使整个后验概率P(θ|x1, x2, x3, ...) 最大的模型参数θ为最终的模型参数

计算略……

结果:与最大似然估计的结果不同,最大后验估计的结果中多了许多超参数,这就是先验在起作用。模型参数θ的先验分布中的参数则被称为超参数(hyperparameter)

参考:
最大似然估计和最大后验估计
wikiwand 最大后验概率
菜鸟学概率统计——最大后验概率(MAP)
详解最大似然估计(MLE)、最大后验概率估计(MAP),以及贝叶斯公式的理解


小结:

MAP与MLE最大区别是MAP中加入了模型参数本身的概率分布,或者说,MLE中认为模型参数本身的概率的是均匀的,即该概率为一个固定值。当MAP中模型参数θ的先验概率为常数(固定值)时,问题就回到了MLE。

MAP允许我们把先验知识加入到估计模型中,这在样本很少的时候是很有用的,因为样本很少的时候我们的观测结果很可能出现偏差,此时先验知识会把估计的结果“拉”向先验,实际的预估结果将会在先验结果的两侧形成一个顶峰。通过调节先验分布的参数,我们还可以调节把估计的结果“拉”向先验的幅度。这样的参数,我们叫做预估模型的“超参数”。

MLE与MAP两种方法体现了频率学派、贝叶斯学派的观点不同。最大似然估计体现是的频率学派的观点,而最大后验估计体现的是贝叶斯学派的观点。

  • 频率学派认为模型参数θ存在唯一真值。当数据量趋于无穷时,这种方法能给出精准的估计;然而缺乏数据时则可能产生严重的偏差。例如,对于一枚均匀硬币,即θ= 0.5,抛掷5次,出现5次正面 (这种情况出现的概率是1/2^5=3.125%),频率学派会直接估计这枚硬币θ= 1,出现严重错误。
  • 贝叶斯学派认为模型参数 θ是一个随机变量,符合一定的概率分布。在贝叶斯学派里有两大输入和一大输出,输入是先验 (prior)和似然 (likelihood),输出是后验 (posterior)。结合贝叶斯公式理解。
    贝叶斯公式

    P(θ),即先验,指的是在没有观测到任何数据时对θ的预先判断;
    P(X|θ),即似然,是假设θ已知后我们观察到的数据应该是什么样子的;
    P(θ|X),即后验,是最终的参数分布。

这里有两点值得注意的地方:
1)随着样本数据量的增加,参数分布会越来越向数据靠拢,先验P(θ)的影响力会越来越小;
2)如果先验是uniform distribution(即P(θ)=常数,模型参数θ为常数),则贝叶斯方法等价于频率方法。因为直观上来讲,先验P(θ)=常数本质上表示对事物没有任何预判。
参考:频率学派还是贝叶斯学派?聊一聊机器学习中的MLE和MAP

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 204,921评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 87,635评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 151,393评论 0 338
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,836评论 1 277
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,833评论 5 368
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,685评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,043评论 3 399
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,694评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 42,671评论 1 300
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,670评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,779评论 1 332
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,424评论 4 321
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,027评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,984评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,214评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,108评论 2 351
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,517评论 2 343

推荐阅读更多精彩内容

  • 来源: http://www.douban.com/group/topic/14820131/ 调整变量格式: f...
    MC1229阅读 6,907评论 0 5
  • (转自http://www.douban.com/group/topic/14820131/,转自人大论坛) 调整...
    f382b3d9bdb3阅读 10,221评论 0 8
  • 碧空鹅毛碧空开 蜉蝣撼地震仙班 疑是春来冬去快 却道春风送雪来
    雨恬恬兮阅读 172评论 0 0
  • 1 知识改变命运,这句话不知道激励了多少人,让很多人下功夫学习知识,用心读书收获智慧。而知识究竟是如何改变命运的?...
    耕耘生活阅读 2,956评论 90 182
  • 朋友们,我们一定要理解那些在异乡奔波劳碌的亲戚朋友们,因为当我看到这份朋友写给我的感言后,我真正体会到了心...
    孟令杰阅读 556评论 0 1