抽样、样本数据 -->观察数据趋势 -->选择模型 -->模型参数估计 -->假设检验
类别 | 名称 | 核心函数 | 求解目标 |
---|---|---|---|
点估计 | 最小二乘法 | 模型参数的误差平方和函数 | 求偏导数,使误差平方和最小 |
点估计 | 最大似然法 | 似然函数→平均对数似然函数 | 求偏导数,使似然函数最大,即样本出现的概率达到最大 |
点估计 | 最大后验估计 | 模型参数的后验概率函数 | 求偏导数,使模型参数的后验概率 |
误差、残差
- 与测量有关,误差=观测值与真实值的偏离
模型:y=θx+随机扰动项
误差相关影响因素:
①随机扰动项:包含所有未知因素,以及应该考虑但没有考虑到的次要因素的影响;
②模型的准确性,决定于模型参数θ - 与预测有关,残差=观测值与拟合值的偏离。有时,也说偏差。
关于随机扰动项:随机误差是模型的组成部分,也是数理统计的缘由,因为数理统计就是对带有随机性数据的分析。
点估计:
区间估计:
1. 最小二乘法
最小二乘法是数学家高斯在预测行星轨道时提出的。
它的核心思想是:构造误差平方和函数,对其求偏导,让误差平方和函数取得最小值的参数就是模型参数。
注意:最小二乘法本质上是一种参数估计方法,它既可以用于线性回归模型的参数估计,也可以用于非线性回归模型(如曲线模型)的参数估计中。可以说最小二乘法=最小误差平方和参数估计方法,但最小二乘法≠线性回归。
2. 频率学派:最大似然估计法MLE
最大似然估计MLE:maximum likelihood estimation
引用《大嘴巴漫谈数据挖掘》中的解释:
一个女生和一个猎人一起打猎,一声枪响,打中一只兔子,请问这一枪是谁打的?
-- 你肯定会认为是猎人打的!这就用到了最大似然法的思想
---- 最大似然法认为当前出现的样本正好对应着总体中概率最大的那个事件;
---- 因为,总体中概率最大的事件实际出现(即被抽样选中)的概率是最大的。
因此,最大似然参数求解的核心思想就是构造当前样本出现的联合概率函数,对其求偏导,让当前样本的概率最大的就是模型参数。
细说似然函数:
假定条件:所有的采样都是独立同分布。
-- 独立,则P(x1,x2) = P(x1)*P(x2);同分布,则针对每次采样,模型相同。
推导过程:
假设x1, x2, x3, ...是独立、同分布的抽样。f为我们所使用的模型,θ为模型参数。
根据最大似然法的思路:当前样本数据出现的联合概率最大。因此,我们计算出:
当前样本数据出现的概率 = P(x1,x2,x3,..) = f(x1,x2,x3,..|θ)
其中:
P(x1,x2,x3,..)是概率
f(x1,x2,x3,..|θ)表示函数模型f(x)的每次抽样的输入变量依次为x1,x2,x3,..,且它的参数是θ,计算结果(值)等于概率。本身不是条件概率!不是条件概率!!
因为x1,x2,x3,..独立,则:
f(x1,x2,x3,..|θ) = f(x1|θ)*f(x2|θ)*f(x3|θ)*...
同理,f(x1|θ)表示x1次抽样时函数模型的参数为θ,本身不是条件概率!!
为了使f(x1,x2,x3,..|θ) 最大,我们对其求偏导数:
但是,需要注意的是该式中x1,x2,x3,..为已知条件,后者θ为未知项。因此,我们定义一个关于未知项θ的函数——似然函数 L(θ):
L(θ|x1,x2,x3,..) = f(x1,x2,x3,..|θ) = f(x1|θ)*f(x2|θ)*f(x3|θ)*...
其中,L(θ|x1,x2,x3,..) 表示似然函数的自变量为θ,参数为x1,x2,x3,..,本身不是条件概率!!
继续对L(θ|x1,x2,x3,..) 求偏导……
通常是两边取对数,再求导:
注释:
-- 这里取对数不改变函数本身的单调性,因此对于求导结果没有影响;
-- 另外,取对数的直接好处就是将连乘变为累加,求导方便多了!
这里有两个重要定义:
对数似然:ln L(θ|x1,x2,x3,..),即似然函数L(θ|x1,x2,x3,..) 取对数;
平均对数似然:1/n * ln L(θ|x1,x2,x3,..),即对数似然除以样本总量n
至此,问题出现了如下的逐步替换:
①求解样本数据的最大联合分布概率
↓
②求解使得似然函数L(θ|x1,x2,x3,..)最大的未知参数θ
↓
③求解使得平均对数似然函数1/n * ln L(θ|x1,x2,x3,..)最大的未知参数θ
为什么是对平均对数似然函数的最大值,而不是对数似然函数的最大值?
-- 因为,平均对数似然函数中有 1/n 项,消除了样本数量的影响。
-- 同时,在其他参数估计方法(如最小二乘法)中也同样需要做同样的均值消除样本数量影响处理。
由上可知最大似然估计的一般求解过程:
(1) 写出似然函数L(θ|x1,x2,x3,..);
(2) 对似然函数取对数,再平均,求得 平均对数似然函数;
(3) 求导数 ;
(4) 解似然方程
先判断似然函数的单调性,再通过导数=0求得似然函数取最大值时的模型参数θ。但是,需注意的是,求导后,导数=0得到的θ为一个确定的值,也符合假设条件:x1,x2,x3,..每次独立抽样的概率模型相同。
但是,需要明白在很多实际情况下,当前获取样本数据并不一定就是真实模型(假如存在的话)中概率最大的那个。基于与大数定律相似的原因,只有在样本数量较多时,这种假设才会成立;在样本数量较小时,当前样本概率最大的假设不成立的机会很大。这也就是最大似然估计的局限所在。
参考:
最大似然估计 博客
深入浅出最大似然估计
wikiwand里“最大似然估计”的解释
3. 贝叶斯学派:最大后验估计
最大后验概率估计(Maximum a posteriori estimation, 简称MAP)
背景:正如最大似然估计中假定x1,x2,x3,..每次独立抽样的概率模型相同,现在我们去掉这个假设,将问题复杂化。假如x1,x2,x3,..每次独立抽样的概率模型中的参数θ不是一个固定值,而是一个符合g(θ)概率分布(先验概率)的随机变量。这时,我们就需要用到最大后验估计。
Ps:假定条件变了,问题的复杂度方法变了,模型参数的估计方法也要随之改变。
最大后验估计的核心思想:是以当前样本数据条件下由贝叶斯公式计算出的整个后验概率最大的模型参数θ为最终的模型参数。后验=后验概率,最大后验=最大后验概率。
Ps:最大似然估计以让当前样本的概率最大的模型参数θ为最终的模型参数。
再说,“似然” (likelihood)指已经出现事件的发生概率,它并不是“最大似然参数估计方法”的专属名词。在这里,最大后验估计方法中也会涉及似然函数。
先说似然函数:
假设x1, x2, x3, ...是独立抽样,f为我们所使用的模型,θ为模型参数,但是θ不是固定常数,而是具有一定概率分布(先验分布)的随机变量。模型参数θ的先验分布中的参数则被称为超参数(hyperparameter)。
样本数据出现的概率 = P(x1,x2,x3,..) = f(x1,x2,x3,..|θ)
其中:
P(x1,x2,x3,..)是概率
f(x1,x2,x3,..|θ)表示函数模型f(x)的每次抽样的输入变量依次为x1,x2,x3,..,且它的参数是θ,计算结果(值)等于概率。本身不是条件概率!不是条件概率!!
似然函数: L(θ|x1,x2,x3,..) = f(x1,x2,x3,..|θ) = f(x1|θ)*f(x2|θ)*f(x3|θ)*...
其中,L(θ|x1,x2,x3,..) 表示似然函数的自变量为θ,参数为x1,x2,x3,..。本身是函数,不是条件概率!
根据贝叶斯公式:
若A、B不完全独立,有相关关系,则P(AB) = P(A|B)*P(B) = P(B|A)*P(A)
→ P(A|B)=P(B|A)*P(A)/P(B)
本问题中,假如每次独立抽样x的概率模型中参数θ不是常数固定项,而是一个随机变量,且参数θ的先验分布为g(θ)。同样的,我们就可以对其用贝叶斯公式:
P(θ|x1, x2, x3, ...) = P(x1, x2, x3, ...|θ) * P(θ) / P(x1, x2, x3, ...) =
其中,P(θ|x1, x2, x3, ...)是条件概率,P(x1, x2, x3, ...|θ) 也是条件概率
↓
P(θ|x1, x2, x3, ...) = f(x1, x2, x3, ...|θ) * g(θ) / f(x1, x2, x3, ...) =
其中,f(x1, x2, x3, ...|θ)表示函数模型的值,θ为模型参数,本身不是条件概率。f(x1, x2, x3, ...) 表示函数模型的值。
↓
继续,将f(x)按照每条抽样数据x1, x2, x3,..的展开,P(θ|x1, x2, x3, ...) =
其中,
g(θ) 是模型参数θ的先验分布;
f(x1, x2, x3, ...|θ)表示函数模型的值,等于似然函数。θ为模型参数,本身不是条件概率。
临时插播:从上式可以看出后验概率P(θ|x1, x2, x3, ...) 和似然函数f(x1, x2, x3, ...|θ)的差异!二者分别MAP和MLE两种参数估计方法的核心函数,也就是这两种方法计算过程的差异。后验概率在似然函数的基础上还考虑了先验概率的影响。
接下来,最大后验估计的核心就是:求出使整个后验概率P(θ|x1, x2, x3, ...) 最大的模型参数θ为最终的模型参数。
计算略……
结果:与最大似然估计的结果不同,最大后验估计的结果中多了许多超参数,这就是先验在起作用。模型参数θ的先验分布中的参数则被称为超参数(hyperparameter)。
参考:
最大似然估计和最大后验估计
wikiwand 最大后验概率
菜鸟学概率统计——最大后验概率(MAP)
详解最大似然估计(MLE)、最大后验概率估计(MAP),以及贝叶斯公式的理解
小结:
MAP与MLE最大区别是MAP中加入了模型参数本身的概率分布,或者说,MLE中认为模型参数本身的概率的是均匀的,即该概率为一个固定值。当MAP中模型参数θ的先验概率为常数(固定值)时,问题就回到了MLE。
MAP允许我们把先验知识加入到估计模型中,这在样本很少的时候是很有用的,因为样本很少的时候我们的观测结果很可能出现偏差,此时先验知识会把估计的结果“拉”向先验,实际的预估结果将会在先验结果的两侧形成一个顶峰。通过调节先验分布的参数,我们还可以调节把估计的结果“拉”向先验的幅度。这样的参数,我们叫做预估模型的“超参数”。
MLE与MAP两种方法体现了频率学派、贝叶斯学派的观点不同。最大似然估计体现是的频率学派的观点,而最大后验估计体现的是贝叶斯学派的观点。
- 频率学派认为模型参数θ存在唯一真值。当数据量趋于无穷时,这种方法能给出精准的估计;然而缺乏数据时则可能产生严重的偏差。例如,对于一枚均匀硬币,即θ= 0.5,抛掷5次,出现5次正面 (这种情况出现的概率是1/2^5=3.125%),频率学派会直接估计这枚硬币θ= 1,出现严重错误。
-
贝叶斯学派认为模型参数 θ是一个随机变量,符合一定的概率分布。在贝叶斯学派里有两大输入和一大输出,输入是先验 (prior)和似然 (likelihood),输出是后验 (posterior)。结合贝叶斯公式理解。
P(θ),即先验,指的是在没有观测到任何数据时对θ的预先判断;
P(X|θ),即似然,是假设θ已知后我们观察到的数据应该是什么样子的;
P(θ|X),即后验,是最终的参数分布。
这里有两点值得注意的地方:
1)随着样本数据量的增加,参数分布会越来越向数据靠拢,先验P(θ)的影响力会越来越小;
2)如果先验是uniform distribution(即P(θ)=常数,模型参数θ为常数),则贝叶斯方法等价于频率方法。因为直观上来讲,先验P(θ)=常数本质上表示对事物没有任何预判。
参考:频率学派还是贝叶斯学派?聊一聊机器学习中的MLE和MAP