L1正则:绝对值,Lasso回归
L2正则:平方,岭回归
差别
主要差别:
- L1正则化可以产生稀疏权值矩阵,即产生一个稀疏模型(部分参数为0),可以用于特征选择
- L2正则化可以防止模型过拟合(overfitting);一定程度上,L1也可以防止过拟合
1. 参数角度
L1
当w大于0时,更新的参数w变小;当w小于0时,更新的参数w变大;所以,L1正则化容易使参数变为0,即特征稀疏化。
L2
当w趋向于0时,参数减小的非常缓慢,因此L2正则化使参数减小到很小的范围,但不为0。
2. 先验概率分布
当先验分布是拉普拉斯分布时,正则化项为L1范数
当先验分布是高斯分布时,正则化项为L2范数。
拉普拉斯分布本身是稀疏的,值只在很小的范围内的概率比较大:
3. 几何角度
参考西瓜书P253
损失函数的解要出现在L1/L2范数等值线和平方误差项等值线交点处,L1范数倾向于相交在坐标轴上,L2范数倾向于相交在象限内——L1部分参数为0,更稀疏
自己写给自己看的博客
文章内容不保证正确
部分内容来源于网络,侵删
今天也是元气满满的一天哦~~
冲鸭~~QWQ