稀疏学习
带约束的LS+交叉验证组合是非常有效的回归方法, 缺点是参数太多时求解耗时.
稀疏学习将大部分参数置0, 大大加速参数求解.
L1约束的LS
稀疏学习使用L1条件约束:
其中,
L1和L2对比:
以对于参数的线性模型为例对上图做分析:
- 训练误差是关于的向下的二次凸函数, 因此在参数空间内有椭圆状等高线, 底部是最小二乘解
- :椭圆等高线和圆周交点是L2约束LS的解, 即-Constrained Least Squares
- :椭圆等高线和菱形的角的焦点是L1约束LS的解, L1约束LS的解一定位于参数的轴上
L1CLS的解在参数轴上, 很容易用稀疏的方式求解.
L1约束的LS求解
利用拉格朗日对偶问题求解, 考虑L1正则化的最优化问题:
L1范数原点不能微分, 用微分的二次函数控制:
函数如图:
L2正则化LS一般表达式:
线性模型
几个解的函数图像:
高斯核模型
分别用L1,L2约束求解:
求解结果:
结论: 结果无太大差异, 但L2约束的LS的50个参数全部非0; L1约束LS的50个参数, 有37个为0, 学习结果是是13个核函数的线性拟合.
Lp约束的LS
L1,L2范数的更广义定义, 范数:
时称最大值范数:
范数表示非零向量元素个数:
范数的单位球(R=1):
分析:
稀疏解存在的特殊条件:
如此, 只有范数满足条件, L1约束的LS是非常特殊的学习方法
满足范数约束条件的空间性质:
L1+L2约束的LS
约束的LS也称为弹性网络
先回顾两个模型.
-
线性模型
是基函数向量, 基函数举例:
-
核模型
高斯核函数:
回顾约束:
-
约束
转化为拉格朗日对偶问题:
不考虑参数空间圆的半径R时化简为:
-
约束:
转化为拉格朗日对偶问题:
-
的参数空间:
L1约束的限制:
- 参数b比训练样本n多时, 线性模型可选择的最大特征数被局限为n
- 线性模型中形成集群构造(有多个基函数相似的集合)时, LS选择一个忽略其它, 核模型输入样本是簇构造是更易形成集群构造
- 参数b比样本n少时, 的通用性比更差
解决方案是:
范数单位球:
范数的单位球:
结论:
- 单位球凸, 角部呈尖形, 故和一样易求得稀疏解
- 可学得n个以上非零参数
- 基函数为集合构造时, 常以集合为单位对基函数选择
- 比约束的LS具有更高的精度