(1)什么是正则化
-
1、从结构风险化角度,解释什么是正则化
经验风险其实就是样本本身带来的误差。
结构风险就是学习器带来的误差。
当假设空间、损失函数、训练集确定的情况下,经验风险可以确定;
如果样本量足够大,经验风险趋近于期望损失,经验风险最小化可以保证有很好的学习效果;
但是如果样本量小,经验风险最小化的效果未必好,容易造成过拟合,因此结构最小化是为了防止过拟合而提出来的策略。
正则化是结构风险最小化策略的实现。
正则化符合奥卡姆剃刀原理:在所有可能选择的模型,能够很好的解释已知数据并且十分简单才是最好的模型
-
2、从贝叶斯估计角度,解释什么是正则化
从贝叶斯估计的角度来看,正则化对应于模型的先验概率,可以假设复杂的模型有较大的先验概率,简单的模型有较小的先验概率。
有正则化就是最大后验概率的参数估计方法
无正则化就是最大似然概率的参数估计方法
一、先了解几个概念
先验概率,后验概率,似然概率,条件概率,贝叶斯,最大似然
似然函数,最大似然估计
f(x|θ)表示的就是在给定参数theta的情况下,x出现的可能性多大。L(θ|x)表示的是在给定样本x的时候,哪个参数theta使得x出现的可能性多大。
二、最大似然估计和最大后验概率
最大似然估计和最大后验概率估计的区别
相信读完上文,MLE和MAP的区别应该是很清楚的了。MAP就是多个作为因子的先验概率P(θ)。或者,也可以反过来,认为MLE是把先验概率P(θ)认为等于1,即认为θ是均匀分布。
详解最大似然估计(MLE)、最大后验概率估计(MAP),以及贝叶斯公式的理解
(2)作用
L1正则化产生稀疏的权值, L2正则化产生平滑的权值
L1也可以作为特征选择的一种
(3)为什么产生稀疏值或平滑作用
可以从两个角度解释:贝叶斯角度和梯度下降角度
-
一:贝叶斯角度
常见的L1/L2正则,分别等价于引入先验信息:参数符合拉普拉斯分布/高斯分布。没有加,就是符合均匀分布
-
二:梯度下降角度