龟龟是最可爱的小猫咪
关于正则化
对于一个线性分类来说,训练目的是找出一个权重矩阵使得loss fuction接近于0,假设有这样一个权重矩阵W满足条件,那么倍增W可能仍然满足条件。
这当然不是我们想要看到的,那么为了规避这种情况,可以给loss fuction加上正则惩罚项,如L2规范化(正则化)
L2 正则化
L2翻数的定义:
或者可以写成
以SVM的henge loss为例,加上L2正则项之后的损失函数为:
损失函数由两部分组成,一部分是由数据决定的data loss, 另一部分是与数据无关的仅仅由权重本身所决定的正则损失项Regularization loss,乘以一个L2正则系数λ,通常由cross-valiadation决定
展开就是:
L2惩罚在同等情况下更倾向于选择出更小更均匀(漫反射状)的权重,避免个别维度的权重过大,一定程度上可以改善过拟合。