L0范数:很难优化求解(NP难问题)
L1范数:是L0的最优凸近似,且具有特征自动选择和使得模型更具解释性的优点
L2范数:使得权重接近于0但是不等于0,且较均匀。一般认为参数值较小的模型较简单,能适应不同的数据集,一定程度上避免了过拟合。有利于处理条件数不好情况下矩阵求逆问题。不但可以防止过拟合,还可以让我们的优化求解变得稳定和快速。
正则化的本质
正则化的目的是限制参数过多或者过大,避免模型更加复杂。为了达到这一目的,最直观的方法就是限制w的个数,但这类问题属于NP-hard问题,求解非常困难。所以一般的做法是寻找更宽松的限定条件。如L2正则化就是对w的平方和做数值上界限定,即所有w的平方和不超过参数C。这时候我们的目标就转换为:最小化训练样本误差,但是要满足w平方和小于C的条件。
L2的限定区域是平滑的,与中心点等距,而L1的限定区域是包含凸点的,尖锐的,这些凸点更接近最优解位置,或者说和目标函数的接触机会远大于其他部分,就会造成最优值出现在坐标轴上,很多w为0
L2不带绝对值,求导计算方便
- L1、L2范数的适用场景
L1范数是各参数的绝对值之和(稀疏规则算子),L2范数是各参数平方和的开方(权重衰减)。L1范数会去除掉一些没有信息的特征,把这些特征对应的权重变为0。但 L2范数会使的w 的每个元素都接近于0,但不会等于0。L2精度更好,L1的效果在处理稀疏矩阵数据的时候比较棒
- L1正则化使得模型参数更具有稀疏性的原理是什么
解空间的不同造成的 ,如上图所示,L2正则项约束后的解空间是圆形,L1正则项约束后的解空间是多边形。多边形的解空间更容易在尖角处与等高线碰撞出稀疏解