1. 最小二乘学习法
最小二乘学习法(后续简称二乘法)是对模型输出和训练集输出的残差的平方和最小时的参数进行学习:
优化目标:
二乘法也称L2损失最小化学习法.
线性模型训练样本的残差平方表示如下:
其中, 是训练输出的n维行向量, 是基函数的nxb设计矩阵:
也是输入数据的基函数向量向量组成的列向量矩阵.
求平方差的参数向量的偏微分:
上式推导:
常用的矩阵求导公式:
- 改写为向量积
2.展开多项式
- 对第二项求关于的导数:
根据矩阵求导公式:
故
- 对第三项求的导数:
根据矩阵求导公式:
故
第一项求的导数为0, 故:
得证.
时取得最小值, 此时最小二乘解满足
解得:
广义逆矩阵: 是对逆矩阵的推广, 只有方阵, 非奇异矩阵才有逆矩阵, 单矩形矩阵或奇异矩阵都可以定义广义逆矩阵.
令广义逆矩阵为:
, 则可写为:
2. 最小二乘解的性质
补充知识: 奇异值分解
矩阵A()的SVD定义为:
奇异值在主对角线上. U和V均为酋矩阵, 满足,
SVD分解步骤:
①对()方阵(做特征分解: , 所有特征向量组成V矩阵, V中的每个特征向量为右奇异向量
②对()方阵做特征分解: , 所有特征向量组成U矩阵, U中的每个特征向量为右奇异向量
③奇异值矩阵为对角矩阵, 每个奇异值, 为左奇异矩阵中奇异向量对应的特征值
设计矩阵(线性模型的基函数矩阵)的奇异值分解:
分别称为奇异值, 左奇异向量, 右奇异向量.
- 奇异值非负
- 奇异向量满足正交性
的广义逆矩阵:
是标量的广义逆矩阵,
最小二乘解表示为:
模型输出向量变换为列向量:
因此, 是的正交投影矩阵, 最小二乘法输出向量是值域的正交投影得到的.
带入真实函数中的参数:
可知, 真的输出值向量就存在于中
结论: 用最小二乘法的向量若是由的正投影得到的, 则可以有效去除y中的噪音.
噪声期望E为0是, 就是真是参数的无偏估计:
渐近无偏性:
增加训练样本n, 上式会向着模型中最优参数方向收敛的性质
补充知识: 投影矩阵
- 投影到向量
向量b在向量a上的投影, 其中 (a,b均为向量)
求解:
设b在a直线上的投影为, 作直线a的垂线直线e, 则e为向量b到向量p的最短距离, 且.
- 投影到子空间
若投影p, 向量b, 矩阵P满足, 则称P为投影矩阵. 将改写一下, , 可将投影向量看做秩为1的投影矩阵P.- 投影矩阵的两个典型的性质
① P是一个对称矩阵
②它的平方等于它自身:P2=P
3. 带约束的最小二乘
- L2约束也称L2正则化, 回归问题里也叫岭回归(Ridge Regression),也叫权重衰减(weight decay), 可改善模型的过拟合.
- L1约束也叫"稀疏规则算子"(Lasso regularization), 模型参数太多时, 模型求解耗时太多, 稀疏学习可将大部分参数置为0, 从而快速求解.
L1和L2约束二乘的参数空间:
1. L2约束二乘
约束条件如下:
L2参数空间, 是一个参数空间原点为圆心,R为半径内的圆(一般为超球):
引入拉格朗日对偶问题:
利用拉格朗日对偶问题, 求解:
的最优解问题, 可得到最优化问题的解, 上式中拉格朗日待定因子的解由圆半径R决定
简化版(不由R决定):
上式表示对样本拟合程度, 与组合得到最小值, 防止过拟合
L2约束的LS关于的微分可通过下式求解:
上文已经求过:
根据矩阵求导公式:
综合(2)(3)求(1)中关于的微分:
令关于的导数为0, L2约束的LS的解为:
上式结论:
- 将矩阵相加提高其正则性, 进而更稳定地进行逆矩阵求解.
- L2约束的LS也称为L2正则化的LS, 式(1)中的称为正则项, 为正则化参数
- L2正则化有时也称岭回归
将设计矩阵做奇异值分解:
带入上上式, 则L2约束的LS解表示为:
上式结论:
- 时, L2约束的LS蜕化为一般的LS
- 设计矩阵计算条件恶劣,包含极小的奇异值时, 变得极大, 训练输出y的噪声会增加
- 分母中加入正的常数, 避免过大, 进而可防止过拟合
拓展: 更一般L2约束的LS
更一般的L2约束LS使用正则化矩阵G, 可得到更一般的表示:
问题表示:
求解:
更一般的L2约束的LS解求解过程, 和标准L2约束的LS大体相同:
- 参数空间:
矩阵G对称正定时, 将数据限制在椭圆区域内. 下图为更一般的L2约束的LS参数空间:
模型选择
- 部分空间约束或L2约束的LS, 都过分依赖正交投影矩阵P和 正则化参数λ的选择
- 选择合适的P和λ至关重要
采用不同的输入样本, 决定算法中各个参数值的过程称为模型选择
2. L1约束二乘
L1约束二乘的参数空间:
稀疏学习中常用L1进行条件约束:
其中,
再回顾L1和L2约束二乘的参数空间:
以含参线性模型为例对上图做分析:
- 训练误差是关于的向下的二次凸函数, 因此在参数空间内有椭圆状等高线, 底部是最小二乘解
- :椭圆等高线和圆周交点是L2约束LS的解, 即-Constrained Least Squares
- :椭圆等高线和菱形的角的焦点是L1约束LS的解, L1约束LS的解一定位于参数的轴上
L1约束二乘求解
L1范数包含原点处不可微分的绝对值, 故不能像L2约束那样简单求解:
下面通过利用拉格朗日对偶问题求解, 考虑L1正则化的最优化问题:
L1范数原点不能微分, 用微分的二次函数控制:
函数如图:
L2正则化LS一般表达式:
线性模型的解:
现在的解的情况下,绝对值函数也是与二次函数的上界相外切的,因此,是成立的。另外,是为最小的时候取到的,也是成立的。由于是J的上界, 因此也是成立的, 综上可得:
可见, 更新后的解比现在的解更收敛, 具体如下图所示:
给定适当的初始值反复更新这个解, l1约束二乘的解就可使用l2约束二乘法来求得.
3.Lp约束二乘
范数:
时称最大值范数:
p=0时L_0范数表示非零向量元素个数:
范数的单位球(R=1):
分析:
- 时,坐标轴上呈现有峰值的尖形
- 时,单位球呈现凸形
稀疏解存在的特殊条件:
1.约束空间为凸形(非凸优化困难)
2.坐标轴上呈现有峰值的尖形
就像上图展示的那样,在坐标轴上呈有峰值的尖形是存在稀疏解的秘诀。另一方面,满足约束条件的空间如果不是凸型的话,可能存在局部最优解,但是最优化工作就会变得异常艰难。因此,当p=1时是稀疏解存在的唯一的凸型,由此可知,L1约束的最小二乘学习法是非常特殊的一种学习方法。
满足Lp范数的约束条件的空间性质:
4. 弹性网络(L1+L2)
L1约束的限制:
- 参数b比训练样本n多时, 线性模型可选择的最大特征数被局限为n
- 线性模型中形成集群构造(有多个基函数相似的集合)时, LS选择一个忽略其它, 核模型输入样本是簇构造是更易形成集群构造
- 参数b比样本n少时, 的通用性比更差
解决方案是L1+L2, 这个方法就是利用L1+L2范数的凸结合来进行约束的:
这里, 满足的标量, 时, L1+L2约束变为L1约束; 时, L1+L2约束变为L2约束; 时, 在参数轴上保持尖形.
时, L1+L2范数的单位球如下图所示(黑实线):
由图可见, 时L1+L2范数的单位球和范数的单位球形状完全相同, 然而, 如果用放大镜放大角的部分, 会发现范数的单位球像L2那样平滑, 但是L1+L2范数的单位球则像L1范数那样呈尖形.
因此L1+L2范数约束也会想L1范数约束那样容易求得稀疏解.
此外, 另外,即使参数b比训练样本数n还要多,L1+L2约束的最小二乘学习法也可以拥有n个以上的非零参数。另外,当基函数为集合构造的时候,经常会以集合为单位对基函数进行选择,实验证明:L1+L2约束的最小二乘学习法比L1约束的最小二乘学习法具有更高的精度。然而,除了加入正则化参数λ之外,为了调整L1范数和L2范数的平衡,还需要引入参数T,这也是L1+L2约束最小二乘学习法在实际中所面临的问题。