浅谈最小二乘法

最小二乘法是回归分析的一种标准方法,它通过最小化每个方程式结果中的残差平方和来近似超定系统(方程组多于未知数的方程组)。

回归分析(regression analysis)指的是确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法。

最重要的应用是数据拟合。 最小二乘意义上的最佳拟合将残差平方的总和最小化(残差为:观察值与模型提供的拟合值之间的差)。 当问题在自变量(x变量)中具有很大的不确定性时,则简单回归和最小二乘法会出现问题。 在这种情况下,可以考虑拟合变量误差模型所需的方法,而不是最小二乘法。

最小二乘问题分为两类:线性或普通最小二乘非线性最小二乘,这取决于残差在所有未知量中是否是线性的。线性最小二乘问题发生在统计回归分析中,它有解析解。非线性问题通常是通过迭代优化来解决的,每次迭代系统都近似为线性系统,因此两种情况下的计算核心是相似的。

多项式最小二乘法将因变量预测中的方差描述为自变量函数与拟合曲线的偏差。

当观测值来自指数族且满足温和条件时,最小二乘估计和最大似然估计是相同的。最小二乘法也可以由矩估计的方法导出。

下面的讨论主要是以线性函数的形式提出的,但是最小二乘法的使用对于更一般的函数族是有效和实用的。同时,通过迭代地应用局部二次逼近似然(通过Fisher 信息),最小二乘法可用于拟合广义线性模型

最小二乘法通常归功于卡尔·弗里德里希·高斯(Carl Friedrich Gauss,1795),但它首先由阿德里安·玛丽·勒让德(Adrien Marie Legendre,1805)发表。

问题陈述

目标包括调整模型函数的参数以最适合数据集。 一个简单的数据集由n个点(数据对)(x_i,y_i),i=1,...,n组成,其中x_i是自变量,y_i是由观测值获得的因变量。模型函数具有f(x,\beta),在向量\beta中保持m个可调参数。目的是为“最佳”拟合数据的模型找到参数值。 模型对数据点的拟合度通过其残差来度量,残差定义为因变量的实际值与模型预测的值之间的差:r_i=y_i-f(x_i,\beta),最小二乘法通过最小化残差平方和S来寻找最佳参数值:S=\sum_{i=1}^nr^2_i,二维模型的一个例子是直线模型。y轴的截距表示为\beta_0,斜率为\beta_1,模型函数由f(x,\beta)=\beta_0+\beta_1x,请参见线性最小二乘法,以获取该模型的完整示例。

一个数据点可以由多个自变量组成。例如,当将一个平面拟合到一组高度测量值时,平面是两个自变量的函数,例如x和z。在最一般的情况下,每个数据点可能有一个或多个自变量和一个或多个因变量。

下图是一个是一个残差图,说明了r_i=0的随机波动,显示了Y_i=\alpha+\beta x_i+U_i这个线性模型是合适的,U_i是一个随即独立的变量。

img

如果残差点具有某种形状并且不是随机波动的,线性模型就不合适。例如,如果残差图如右图所示为抛物线形状,则为抛物线模型Y_i=\alpha+\beta x_i +\gamma x^2_i +U_i对数据更加合适。抛物线模型的残差可以通过r_i=y_i-\hat \alpha-\hat \beta x_i-\hat \gamma x^2_i计算。

限制

这种回归公式只考虑因变量中的观测误差(但是可替代的全最小二乘回归可以解释这两个变量中的误差)。有两种截然不同的语境,具有不同的含义:

  • 回归预测。这里对模型进行了拟合,以提供一个预测规则,用于拟合的数据所适用的类似情况下的应用。在这里,与这种未来应用相对应的因变量将受到与用于拟合的数据中相同类型的观测误差的影响。因此,对这些数据使用最小二乘预测规则在逻辑上是一致的。

  • 回归拟合“真实关系”。在用最小二乘法拟合的标准回归分析中,有一个隐含的假设,即自变量中的误差为零或严格控制,以至于可以忽略不计。当自变量中的误差不可忽略时,可以使用测量误差模型;这种方法可以导致参数估计假设检验置信区间,这些方法考虑到自变量中存在的观测误差。另一种方法是用总最小二乘法拟合模型;这可以被看作是采取了一种务实的方法来平衡不同误差源的影响,从而形成一个用于模型拟合的目标函数。

解最小二乘问题

通过设置梯度为0求得平方和的最小值。因为模型包含m个参数,因此有m个梯度方程:
\frac{\partial S}{\partial \beta_j}=2\sum_i\frac{\partial r_i}{\partial \beta_j}=0,j=1,...,m
r_i=y_i-f(x_i ,\beta),梯度方程可以推导为:
-2\sum_ir_i\frac{\partial f(x_i,\beta)}{\partial \beta_j}=0,j=1,...,m
梯度方程适用于所有最小二乘问题。每一个问题都需要模型及其偏导数的特殊表达式。

线性最小二乘

当模型由参数的线性组合组成时,回归模型是线性模型,即:
f(x,\beta)=\sum_{j=1}^m\beta_j\phi_j(x)
式中\phi_j是x的函数。
X_{ij}=\phi_j(x_i),并将自变量和因变量转换为矩阵X和Y,我们可以按以下方式计算最小二乘,注意D是所有数据的集合。
L(D,\vec \beta)=||X\vec \beta-Y||^2=(X \vec \beta-Y)^T(X \vec \beta-Y)=Y^TY-Y^TX\vec \beta-\vec \beta^TX^TY+\vec \beta^TX^TX\vec \beta
通过将损失梯度设置为零并求解\vec{\beta},可以找到最小值。
\frac{\partial L(D,\vec \beta)}{\partial \vec \beta}=\frac{\partial Y^TY-Y^TX\vec \beta-\vec \beta^TX^TY+\vec \beta^TX^TX\vec \beta}{\partial \vec \beta}=-2X^TY+2X^TX\vec \beta
最后,将损失的梯度设置为零,并求解\vec{\beta},我们得到:
-2X^TY+2X^TX\vec \beta=0 \Rightarrow X^TY=X^TX\vec \beta \Rightarrow \vec{\hat \beta} =(X^TX)^{-1}X^TY

非线性最小二乘

在某些情况下非线性最小二乘问题有一个解析解,但通常情况下是没有的。在没有解析解的情况下,用数值算法求出使目标最小化的参数​的值。大多数算法都涉及到参数的初始值的选择。然后,迭代地对参数进行细化,即通过逐次逼近得到这些参数:
\beta^{k+1}_j=\beta^{k}_j+ \Delta\beta_j
式中,上标k是迭代数,增量\Delta \beta_j的向量,称为位移向量。在一些常用算法中,每次迭代该模型都可以通过对\beta^k近似一阶泰勒级数展开来线性化:
\begin{align}f(x_i,\beta) &= f^k(x_i,\beta)+\sum_j \frac{\partial f(x_i,\beta)}{\partial \beta_j}(\beta_j-\beta^k_j) \\&=f^k(x_i,\beta)+\sum_jJ_{ij}\Delta\beta_j\end{align}
Jacobian矩阵J是常数、自变量和参数的函数,因此它在每次迭代时都会改变。残差由:
r_i=y_i-f^k(x_i,\beta)-\sum_{k=1}^mJ_{ik}\Delta\beta_k=\Delta y_i-\sum_{j=1}^mJ_{ij}\Delta \beta_j
为最小化r_i的平方和,将梯度方程置为0,求解\Delta \beta_j
-2\sum_{i=1}^nJ_{ij}(\Delta y_i-\sum_{k=1}^mJ_{ik}\Delta \beta_k)=0
经过重新排列,形成m个联立线性方程组,正规方程组
\sum^n_{i=1}\sum^m_{k=1}J_{ij}J_{ik}\Delta\beta_k=\sum^n_{i=1}J_{ij}\Delta y_i\ \ \ \ (j=1,...,m)
正规方程用矩阵表示法写成
(J^TJ)\Delta \beta = J^T \Delta y
这就是高斯牛顿法的定义公式。

线性最小二乘与非线性最小二乘的区别

  • 模型函数f在线性最小二乘LLSQ中是参数的线性组合形式f=X_{i1}\beta_1+X_{i2}\beta_2+...,该模型可以表示直线、抛物线或任何其他函数的线性组合。在非线性最小二乘NLLSQ中,参数以函数的形式表示,如\beta^2,e^{\beta x}等。如果导数\partial f/ \partial \beta_j既不是常数也不是只依赖于自变量的值,模型的参数都是线性的。否则模型是非线性的。
  • 求NLLSQ问题的解需要参数的初始值;LLSQ不需要。
  • NLLSQ的求解算法通常要求雅可比矩阵的计算类似于LLSQ。偏导数的解析表达式可能很复杂。如果无法得到解析表达式,则必须通过数值近似计算偏导数,或者必须估计雅可比矩阵,通常是通过有限差分
  • 在NLLSQ中,不收敛(算法无法找到最小值)是一种常见的现象。
  • LLSQ是全局凹的,所以不收敛不是问题。
  • 求解NLLSQ通常是一个迭代过程,当满足收敛准则时,迭代过程必须终止。LLSQ解可以使用直接方法计算,尽管具有大量参数的问题通常使用迭代方法来解决,例如Gauss–Seidel方法。
  • 在LLSQ中,解是唯一的,但在NLLSQ中,平方和可能存在多个最小值。
  • 在误差与预测变量不相关的情况下,LLSQ得到了无偏估计,但即使在这种情况下,NLLSQ估计通常是有偏的。

在寻求非线性最小二乘问题的解时,必须考虑这些差异。

统计学

为了对结果进行统计检验,有必要对实验误差的性质作出假设。通常的假设是误差属于正态分布。中心极限定理支持这样的观点:在许多情况下,这是一个很好的近似。

  • 高斯-马尔可夫定理。在误差是独立变量具有期望为零、不相关且方差相等的线性模型中,观测值的任何线性组合的最佳线性无偏估计量是其最小二乘估计量。”最佳”是指参数的最小二乘估计具有最小方差。当误差都属于同一分布时,等方差假设是有效的。
  • 在线性模型中,如果误差属于正态分布,则最小二乘估计量也是最大似然估计量

然而,如果误差不是正态分布的,中心极限定理通常意味着只要样本足够大,参数估计就会近似正态分布。因此,鉴于误差均值独立于自变量这一重要性质,误差项的分布在回归分析中不是一个重要问题。具体来说,误差项是否服从正态分布并不重要。

在具有单位权重的最小二乘法计算中,或在线性回归中,第j个参数的方差Var(\hat \beta_j),通常估计为:
var(\hat \beta_j)=\sigma ^2([X^TX]^{-1})_{jj} \approx \frac S{n-m}([X^TX]^{-1})_{jj}
其中,真实误差方差\sigma^2由基于目标函数平方和最小值的估计值代替。分母,n−m,是统计自由度;请参见有效自由度以获取归纳。
如果参数的概率分布已知或渐近近似,则可以找到置信限。同样,如果残差的概率分布已知或假设,则可以对残差进行统计检验。如果已知或假设实验误差的概率分布,我们就可以导出因变量的任何线性组合的概率分布。当假设误差服从正态分布时,推断很容易,因此意味着参数估计和残差也将是正态分布的,这取决于自变量的值。

加权最小二乘

当Ω(残差的相关矩阵)的所有非对角项都为空时,广义最小二乘法的一个特例称为加权最小二乘法;观测值的方差(沿协方差矩阵对角线)可能仍然不相等(异方差)。更简单地说,异方差是当Y_i的方差取决于x_i的值,这会导致残差图产生“扇出”效应,使其朝向更大的Y_i值,如下侧残差图所示。另一方面,同构性假设Y_i和的U_i方差相等。

img

与主成分之间的关系

关于一组点的平均值的第一个主成分可以用最接近数据点的那条线来表示(用最接近的距离的平方来测量,即垂直于直线)。相比之下,线性最小二乘法只尝试最小化y方向上的距离。因此,虽然二者使用相似的误差度量,但线性最小二乘法是一种优先处理一维数据的方法,而PCA则同等对待所有维度。

正则化

tikhonov 正则化

在某些情况下,最小二乘解的正则化版本可能更可取。Tikhonov正则化(或岭回归)添加了一个约束,即参数向量的L2范数\|\beta\|^2,即参数向量的L2范数,不大于给定值。它可以通过添加\alpha\|\beta\|^2,其中\alpha是一个常数(这是约束问题的拉格朗日形式)。在贝叶斯背景下,这相当于在参数向量上放置一个零均值正态分布的先验

Lasso method

最小二乘法的另一种正则化版本是Lasso(least absolute shrinkage and selection operator),它使用\|\beta\|,参数向量的L1范数,不大于给定值。(如上所述,这相当于通过添加惩罚项\alpha\|\beta\|对最小二乘法进行无约束最小化)。在贝叶斯背景下,这相当于在参数向量上放置一个零平均拉普拉斯 先验分布。优化问题可以使用二次规划或更一般的凸优化方法,以及由具体算法如最小角度回归算法。
Lasso 和岭回归的一个主要区别是,在岭回归中,随着惩罚的增加,所有参数都会减少但仍然保持非零;而在Lasso中,增加惩罚将导致越来越多的参数被驱动到零。这是Lasso相对于岭回归的一个优势,因为驱动参数为零会从回归中取消选择特征。因此,Lasso自动选择更相关的特征并丢弃其他特征,而岭回归永远不会完全丢弃任何特征。基于LASSO开发了一些特征选择技术,包括引导样本的Bolasso方法和分析不同\alpha值对应的回归系数,对所有特征进行评分的FeaLect方法

L1正则化公式在某些情况下是有用的,因为它倾向于选择更多参数为零的解,从而给出依赖较少变量的解。因此,Lasso及其变体是压缩传感领域的基础。这种方法的一个扩展是弹性网络正则化

From Wikipedia, the free encyclopedia

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 204,732评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 87,496评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 151,264评论 0 338
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,807评论 1 277
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,806评论 5 368
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,675评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,029评论 3 399
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,683评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 41,704评论 1 299
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,666评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,773评论 1 332
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,413评论 4 321
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,016评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,978评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,204评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,083评论 2 350
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,503评论 2 343