浅谈最小二乘法

最小二乘法是回归分析的一种标准方法，它通过最小化每个方程式结果中的残差平方和来近似超定系统（方程组多于未知数的方程组）。

回归分析（regression analysis)指的是确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法。

最重要的应用是数据拟合。最小二乘意义上的最佳拟合将残差平方的总和最小化（残差为：观察值与模型提供的拟合值之间的差）。当问题在自变量（x变量）中具有很大的不确定性时，则简单回归和最小二乘法会出现问题。在这种情况下，可以考虑拟合变量误差模型所需的方法，而不是最小二乘法。

最小二乘问题分为两类：线性或普通最小二乘和非线性最小二乘，这取决于残差在所有未知量中是否是线性的。线性最小二乘问题发生在统计回归分析中，它有解析解。非线性问题通常是通过迭代优化来解决的，每次迭代系统都近似为线性系统，因此两种情况下的计算核心是相似的。

多项式最小二乘法将因变量预测中的方差描述为自变量函数与拟合曲线的偏差。

当观测值来自指数族且满足温和条件时，最小二乘估计和最大似然估计是相同的。最小二乘法也可以由矩估计的方法导出。

下面的讨论主要是以线性函数的形式提出的，但是最小二乘法的使用对于更一般的函数族是有效和实用的。同时，通过迭代地应用局部二次逼近似然（通过Fisher 信息），最小二乘法可用于拟合广义线性模型。

最小二乘法通常归功于卡尔·弗里德里希·高斯（Carl Friedrich Gauss，1795），但它首先由阿德里安·玛丽·勒让德（Adrien Marie Legendre，1805）发表。

问题陈述

目标包括调整模型函数的参数以最适合数据集。一个简单的数据集由n个点（数据对） $(x_i,y_i),i=1,...,n$ 组成，其中 $x_i$ 是自变量， $y_i$ 是由观测值获得的因变量。模型函数具有 $f(x,\beta)$ ，在向量 $\beta$ 中保持m个可调参数。目的是为“最佳”拟合数据的模型找到参数值。模型对数据点的拟合度通过其残差来度量，残差定义为因变量的实际值与模型预测的值之间的差： $r_i=y_i-f(x_i,\beta)$ ，最小二乘法通过最小化残差平方和S来寻找最佳参数值： $S=\sum_{i=1}^nr^2_i$ ，二维模型的一个例子是直线模型。y轴的截距表示为 $\beta_0$ ，斜率为 $\beta_1$ ，模型函数由 $f(x,\beta)=\beta_0+\beta_1x$ ，请参见线性最小二乘法，以获取该模型的完整示例。

一个数据点可以由多个自变量组成。例如，当将一个平面拟合到一组高度测量值时，平面是两个自变量的函数，例如x和z。在最一般的情况下，每个数据点可能有一个或多个自变量和一个或多个因变量。

下图是一个是一个残差图，说明了 $r_i=0$ 的随机波动，显示了 $Y_i=\alpha+\beta x_i+U_i$ 这个线性模型是合适的， $U_i$ 是一个随即独立的变量。

img

如果残差点具有某种形状并且不是随机波动的，线性模型就不合适。例如，如果残差图如右图所示为抛物线形状，则为抛物线模型 $Y_i=\alpha+\beta x_i +\gamma x^2_i +U_i$ 对数据更加合适。抛物线模型的残差可以通过 $r_i=y_i-\hat \alpha-\hat \beta x_i-\hat \gamma x^2_i$ 计算。

限制

这种回归公式只考虑因变量中的观测误差（但是可替代的全最小二乘回归可以解释这两个变量中的误差）。有两种截然不同的语境，具有不同的含义：

回归预测。这里对模型进行了拟合，以提供一个预测规则，用于拟合的数据所适用的类似情况下的应用。在这里，与这种未来应用相对应的因变量将受到与用于拟合的数据中相同类型的观测误差的影响。因此，对这些数据使用最小二乘预测规则在逻辑上是一致的。
回归拟合“真实关系”。在用最小二乘法拟合的标准回归分析中，有一个隐含的假设，即自变量中的误差为零或严格控制，以至于可以忽略不计。当自变量中的误差不可忽略时，可以使用测量误差模型；这种方法可以导致参数估计、假设检验和置信区间，这些方法考虑到自变量中存在的观测误差。另一种方法是用总最小二乘法拟合模型；这可以被看作是采取了一种务实的方法来平衡不同误差源的影响，从而形成一个用于模型拟合的目标函数。

解最小二乘问题

通过设置梯度为0求得平方和的最小值。因为模型包含m个参数，因此有m个梯度方程：
$\frac{\partial S}{\partial \beta_j}=2\sum_i\frac{\partial r_i}{\partial \beta_j}=0,j=1,...,m$
由 $r_i=y_i-f(x_i ,\beta)$ ，梯度方程可以推导为：
$-2\sum_ir_i\frac{\partial f(x_i,\beta)}{\partial \beta_j}=0,j=1,...,m$
梯度方程适用于所有最小二乘问题。每一个问题都需要模型及其偏导数的特殊表达式。

线性最小二乘

当模型由参数的线性组合组成时，回归模型是线性模型，即：
$f(x,\beta)=\sum_{j=1}^m\beta_j\phi_j(x)$
式中 $\phi_j$ 是x的函数。
令 $X_{ij}=\phi_j(x_i)$ ，并将自变量和因变量转换为矩阵X和Y，我们可以按以下方式计算最小二乘，注意D是所有数据的集合。
$L(D,\vec \beta)=||X\vec \beta-Y||^2=(X \vec \beta-Y)^T(X \vec \beta-Y)=Y^TY-Y^TX\vec \beta-\vec \beta^TX^TY+\vec \beta^TX^TX\vec \beta$
通过将损失梯度设置为零并求解 $\vec{\beta}$ ，可以找到最小值。
$\frac{\partial L(D,\vec \beta)}{\partial \vec \beta}=\frac{\partial Y^TY-Y^TX\vec \beta-\vec \beta^TX^TY+\vec \beta^TX^TX\vec \beta}{\partial \vec \beta}=-2X^TY+2X^TX\vec \beta$
最后，将损失的梯度设置为零，并求解 $\vec{\beta}$ ，我们得到：
$-2X^TY+2X^TX\vec \beta=0 \Rightarrow X^TY=X^TX\vec \beta \Rightarrow \vec{\hat \beta} =(X^TX)^{-1}X^TY$

非线性最小二乘

在某些情况下非线性最小二乘问题有一个解析解，但通常情况下是没有的。在没有解析解的情况下，用数值算法求出使目标最小化的参数的值。大多数算法都涉及到参数的初始值的选择。然后，迭代地对参数进行细化，即通过逐次逼近得到这些参数：
$\beta^{k+1}_j=\beta^{k}_j+ \Delta\beta_j$
式中，上标k是迭代数，增量 $\Delta \beta_j$ 的向量，称为位移向量。在一些常用算法中，每次迭代该模型都可以通过对 $\beta^k$ 近似一阶泰勒级数展开来线性化：
$\begin{align}f(x_i,\beta) &= f^k(x_i,\beta)+\sum_j \frac{\partial f(x_i,\beta)}{\partial \beta_j}(\beta_j-\beta^k_j) \\&=f^k(x_i,\beta)+\sum_jJ_{ij}\Delta\beta_j\end{align}$
Jacobian矩阵J是常数、自变量和参数的函数，因此它在每次迭代时都会改变。残差由：
$r_i=y_i-f^k(x_i,\beta)-\sum_{k=1}^mJ_{ik}\Delta\beta_k=\Delta y_i-\sum_{j=1}^mJ_{ij}\Delta \beta_j$
为最小化 $r_i$ 的平方和，将梯度方程置为0，求解 $\Delta \beta_j$ ：
$-2\sum_{i=1}^nJ_{ij}(\Delta y_i-\sum_{k=1}^mJ_{ik}\Delta \beta_k)=0$
经过重新排列，形成m个联立线性方程组，正规方程组：
$\sum^n_{i=1}\sum^m_{k=1}J_{ij}J_{ik}\Delta\beta_k=\sum^n_{i=1}J_{ij}\Delta y_i\ \ \ \ (j=1,...,m)$
正规方程用矩阵表示法写成
$(J^TJ)\Delta \beta = J^T \Delta y$
这就是高斯牛顿法的定义公式。

线性最小二乘与非线性最小二乘的区别

模型函数f在线性最小二乘LLSQ中是参数的线性组合形式 $f=X_{i1}\beta_1+X_{i2}\beta_2+...$ ，该模型可以表示直线、抛物线或任何其他函数的线性组合。在非线性最小二乘NLLSQ中，参数以函数的形式表示，如 $\beta^2，e^{\beta x}$ 等。如果导数 $\partial f/ \partial \beta_j$ 既不是常数也不是只依赖于自变量的值，模型的参数都是线性的。否则模型是非线性的。
求NLLSQ问题的解需要参数的初始值；LLSQ不需要。
NLLSQ的求解算法通常要求雅可比矩阵的计算类似于LLSQ。偏导数的解析表达式可能很复杂。如果无法得到解析表达式，则必须通过数值近似计算偏导数，或者必须估计雅可比矩阵，通常是通过有限差分。
在NLLSQ中，不收敛（算法无法找到最小值）是一种常见的现象。
LLSQ是全局凹的，所以不收敛不是问题。
求解NLLSQ通常是一个迭代过程，当满足收敛准则时，迭代过程必须终止。LLSQ解可以使用直接方法计算，尽管具有大量参数的问题通常使用迭代方法来解决，例如Gauss–Seidel方法。
在LLSQ中，解是唯一的，但在NLLSQ中，平方和可能存在多个最小值。
在误差与预测变量不相关的情况下，LLSQ得到了无偏估计，但即使在这种情况下，NLLSQ估计通常是有偏的。

在寻求非线性最小二乘问题的解时，必须考虑这些差异。

统计学

为了对结果进行统计检验，有必要对实验误差的性质作出假设。通常的假设是误差属于正态分布。中心极限定理支持这样的观点：在许多情况下，这是一个很好的近似。

高斯-马尔可夫定理。在误差是独立变量具有期望为零、不相关且方差相等的线性模型中，观测值的任何线性组合的最佳线性无偏估计量是其最小二乘估计量。”最佳”是指参数的最小二乘估计具有最小方差。当误差都属于同一分布时，等方差假设是有效的。
在线性模型中，如果误差属于正态分布，则最小二乘估计量也是最大似然估计量。

然而，如果误差不是正态分布的，中心极限定理通常意味着只要样本足够大，参数估计就会近似正态分布。因此，鉴于误差均值独立于自变量这一重要性质，误差项的分布在回归分析中不是一个重要问题。具体来说，误差项是否服从正态分布并不重要。

在具有单位权重的最小二乘法计算中，或在线性回归中，第j个参数的方差 $Var(\hat \beta_j)$ ，通常估计为：
$var(\hat \beta_j)=\sigma ^2([X^TX]^{-1})_{jj} \approx \frac S{n-m}([X^TX]^{-1})_{jj}$
其中，真实误差方差 $\sigma^2$ 由基于目标函数平方和最小值的估计值代替。分母，n−m，是统计自由度；请参见有效自由度以获取归纳。
如果参数的概率分布已知或渐近近似，则可以找到置信限。同样，如果残差的概率分布已知或假设，则可以对残差进行统计检验。如果已知或假设实验误差的概率分布，我们就可以导出因变量的任何线性组合的概率分布。当假设误差服从正态分布时，推断很容易，因此意味着参数估计和残差也将是正态分布的，这取决于自变量的值。

加权最小二乘

当Ω（残差的相关矩阵）的所有非对角项都为空时，广义最小二乘法的一个特例称为加权最小二乘法；观测值的方差（沿协方差矩阵对角线）可能仍然不相等（异方差）。更简单地说，异方差是当 $Y_i$ 的方差取决于 $x_i$ 的值，这会导致残差图产生“扇出”效应，使其朝向更大的 $Y_i$ 值，如下侧残差图所示。另一方面，同构性假设 $Y_i$ 和的 $U_i$ 方差相等。

img

与主成分之间的关系

关于一组点的平均值的第一个主成分可以用最接近数据点的那条线来表示（用最接近的距离的平方来测量，即垂直于直线）。相比之下，线性最小二乘法只尝试最小化 $y$ 方向上的距离。因此，虽然二者使用相似的误差度量，但线性最小二乘法是一种优先处理一维数据的方法，而PCA则同等对待所有维度。

正则化

tikhonov 正则化

在某些情况下，最小二乘解的正则化版本可能更可取。Tikhonov正则化（或岭回归）添加了一个约束，即参数向量的L2范数 $\|\beta\|^2$ ，即参数向量的L2范数，不大于给定值。它可以通过添加 $\alpha\|\beta\|^2$ ，其中 $\alpha$ 是一个常数（这是约束问题的拉格朗日形式）。在贝叶斯背景下，这相当于在参数向量上放置一个零均值正态分布的先验。

Lasso method

最小二乘法的另一种正则化版本是Lasso（least absolute shrinkage and selection operator），它使用 $\|\beta\|$ ，参数向量的L1范数，不大于给定值。（如上所述，这相当于通过添加惩罚项 $\alpha\|\beta\|$ 对最小二乘法进行无约束最小化）。在贝叶斯背景下，这相当于在参数向量上放置一个零平均拉普拉斯先验分布。优化问题可以使用二次规划或更一般的凸优化方法，以及由具体算法如最小角度回归算法。
Lasso 和岭回归的一个主要区别是，在岭回归中，随着惩罚的增加，所有参数都会减少但仍然保持非零；而在Lasso中，增加惩罚将导致越来越多的参数被驱动到零。这是Lasso相对于岭回归的一个优势，因为驱动参数为零会从回归中取消选择特征。因此，Lasso自动选择更相关的特征并丢弃其他特征，而岭回归永远不会完全丢弃任何特征。基于LASSO开发了一些特征选择技术，包括引导样本的Bolasso方法和分析不同 $\alpha$ 值对应的回归系数，对所有特征进行评分的FeaLect方法

L1正则化公式在某些情况下是有用的，因为它倾向于选择更多参数为零的解，从而给出依赖较少变量的解。因此，Lasso及其变体是压缩传感领域的基础。这种方法的一个扩展是弹性网络正则化。

From Wikipedia, the free encyclopedia