L0, L1, L2规则化
- L0范数是指向量中非0的元素的个数。如果我们用L0范数来规则化一个参数矩阵W的话,就是希望W的大部分元素都是0。
- L1范数是指向量中各个元素绝对值之和,也有个美称叫“稀疏规则算子”(Lasso regularization) (L0, L1可以实现参数矩阵W的稀疏化,即更多的0值,这样有利于****特征选择(Feature Selection)****)
- L2范数是指向量各元素的平方和然后求平方根。我们让L2范数的规则项||W||2最小,可以使得W的每个元素都很小,都接近于0,但与L1范数不同,它不会让它等于0,而是接近于0;而越小的参数说明模型越简单,越简单的模型则越不容易产生过拟合现象。