HOML(Hands-On Machine Learning)上对L1_norm和L2_norm的解释:
左上图是L1_norm. 背景是损失函数的等高线(圆形), 前景是L1_penalty的等高线(菱形), 这两个组成了最终的目标函数.
在梯度下降的过程中, 对于损失函数的梯度为白色点轨迹, 对于L1_penalty函数的梯度为黄色点轨迹. 可以看出, 黄色的点更容易取值为0.
因此在考虑两个损失的权衡时, 目标函数会在参数取0的周围波动, 因此更容易取到0(右上图).
可能你会问, 第一张为什么偏向于theta2 = 0, 第二章偏向于theta1 = 0. 因为第一张只考虑了L1_penalty, 在L1_penalty的梯度方向就是向theta2 = 0靠. 但是加入了损失函数就不相同了, 它会先向一个减少最多的方向(这里偏向于损失函数, 在损失函数的减少得差不多的时候, 就开始两边的权衡, 靠近最优值波动的那段)
注: 函数的切线方向就是等高线的法线方向, 要分清!