根据上一篇文章可知,根据梯度下降法可以求出参数,但是求出的参数就是最好的模型呢?我也不知道,咱们下面看看一个问题
如果当给定的数据线性可分的时候,逻辑回归的参数会趋于无限大吗?
那么我们来看看,上面的假设是否成立。
由目标函数可知:
由第一个式子可知,要想y=1的概率趋向于1,那么W^tx+b就会趋向于无穷大,那么w就会趋向于无穷大,所以我们的假设是成立的
当参数无穷大,管理者就会趋向1,结果虽然很完美,但是会出现过拟合现象
那么就要限制参数变得太大,添加L2正则。
为什么添加L2正则呢?个人的理解是
1、L1正则化会导致参数值变为0,但是L2却只会使得参数值减小
2、在机器学习中也将L2正则称为weight decay,在回归问题中,关于L2正则的回归还被称为Ridge Regression岭回归。weight decay还有一个好处,它使得目标函数变为凸函数,梯度下降法和L-BFGS都能收敛到全局最优解。
那么添加正则后的目标函数是:
假如|w|很大=》lamda|w|就会变得很大
lamda是超参数
a:if lamda=0时,没有任何限制
b:if lamda=很大时,w变的更小,解决过拟合
c:if lamda=很小时时,w变得更大,会出现欠拟合
那么加上正则的梯度下降法的导数函数:
1、BGD
2、SGD
接下来看看L1和L2正则。