机器学习基础（4）- L1和L2正则区别

本文主要用于理解正则化的原理，并且重点比较了L1与L2这两种正则化方法的区别。

基本目录如下：

正则化的原理
1.1 什么是正则化
1.2 常用的正则化方法
1.3 正则化的另一种解释
L1与L2正则化的区别
2.1 解空间形状不同
2.2 先验假设不同
2.3 适用场景不同

------------------第一菇 - 正则化的原理------------------

1.1 什么是正则化

在机器学习领域，模型的优化绝对是一个重头戏。刚接触这个领域的同学，可能会沉迷于选择更加复杂或是更加fancy的模型去解决一些问题，反而忽略了对简单模型的优化本质（更别提复杂模型了）的理解，本文就回归到最基础的地方，以逻辑回归作为示例，带着大家来深入理解其中一种优化的方法（也就是本文的主角）- 正则化。

熟悉逻辑回归的同学，应该不难写出其目标函数（如下），

$argmin_w-\prod_{i=1}^{n}p(y_i | x_i;w)$
也就是说，我们要去优化的参数是 $w$ ，从而使得整个目标函数最小。这个时候，大家别急着去求解，停下来，想一想，参数 $w$ 在这个目标函数中有什么特殊的地方。比如，我抛出一个问题，当给定的数据是线性可分的时候，逻辑回归的参数 $w$ 会趋向于无穷大吗？或者换一种表达方式（如下图），对于两个类，我现在有ABC三条线可供选择，那逻辑回归更倾向于训练出的模型是哪个？

思考题.png

其实上面这个问题也很简单，我们还是得从逻辑回归的本质出发去理解。我们都知道，

$p(y=1|x;w) = \frac{1}{1 + e^{-(w^{T}x + b)}}$
大家有木有想过，当参数 $w$ 趋向于正无穷的时候，上式会发生什么？没错，上式会趋向于1！这是我们想得到的么？当然！因为，正样本的概率无限接近1，那意味着正样本几乎不会增大我们上面提到的目标函数，反之对于负样本，对于 $w$ 趋向于无穷大的情况，概率接近0，也正是我们期望得到的。这也就是说，假设给定的数据是线性可分的，逻辑回归的参数 $w$ 会趋向于无穷大（上述思考题答案就是B）！但这个无穷大真的是我们所期望的吗？显然不是，上面的A和C其实都是更加理想的分割线，因此，这种情况我们称之为对模型的过度训练，也就是过拟合了。而本文要介绍的正则化方法，正是为了解决这种参数过大的问题。

还是针对逻辑回归，此时，我们在原有的目标函数上加上正则项（ $L2$ 范数），如下，

$argmin_w-\prod_{i=1}^{n}p(y_i | x_i, w) + \lambda \left \| w \right \|_{2}^{2}$
这个式子，就起到了控制参数 $w$ 的作用，这个想必大家应该都能瞬间领悟到吧？如果 $w$ 过大的话，后面这项正则项（ $\lambda \left \| w \right \|_{2}^{2}$ ）就会变得很大（而这与我们最小化目标函数的目标不符），其中 $\lambda$ 是超参数，当 $\lambda$ 越大，参数 $w$ 就会相应取值更小，当 $\lambda$ 越小，参数 $w$ 就会相应取值更大。至此，为何会有正则化一项，我们算是讲清楚了。

1.2 常用的正则化方法

其实说到正则化方法，我们的本质就是选择一种 $w$ 的范数。比较常见的有 $L0, L1, L2$ ，比较特殊的是nuclear norm（本文不作介绍）

对于 $L0$ 范数就是数一下该向量中有多少个非0的个数。

其中对于 $L1$ 范数就是，

$\left \| w \right \|_{1} = \sum_{i=1}^{d}\left | w_i \right |$

对于 $L2$ 范数就是，

$\left \| w \right \|_{2} = \sum_{i=1}^{d}w_{i}^{2}$

1.3 正则化的另一种解释

事实上，正则化本身的目的想必大家都已经明白了，而再进一步想其实就是限制了参数的取值空间。因此，我们也可以简单理解为，“带正则项”和“带约束条件”（比如不能取过大的值）是等价的。而通过约束参数的取值空间，从而防止过拟合。因此，假设我们为上面的逻辑回归问题加一个参数的约束，比如说 $w$ 的 $L2$ 范数的平方不能大于 $m$ ，则我们的问题就会转为，

$\left\{\begin{matrix} argmin_w-\prod_{i=1}^{n}p(y_i | x_i;w) \\ \\ s.t. \left \| w \right \|_{2}^{2} \leq m \end{matrix}\right.$
熟悉求解带约束条件的凸优化问题的同学，应该也能很自然的联想到引入拉格朗日乘子的方法，因此我们就能得到，

$-\prod_{i=1}^{n}p(y_i | x_i;w) + \lambda(\left \| w \right \|_{2}^{2} - m)$

而满足上式的KKT条件，其实就是上面提到的参数 $w$ 带 $L2$ 正则项的优化问题的最优解的条件（梯度为0，感兴趣的同学可以自行写一下很容易发现）

------------------第二菇 - L1与L2正则化的区别------------------
L1与L2正则化最大的不同，其实就在于前者更容易产生稀疏解（让很多参数置0），而后者则不会。以下将从多个角度来带领大家理解这个概念。

2.1 解空间形状不同

大多数的教科书或是博客，都会从两者的解空间形状来解释两者的区别，本文也不例外，先从解空间的角度来理解。

如下图所示，

解空间.png

左图是L1正则项约束后的解空间（假设二维空间，简单理解为 $w1+w2=C$ ），右图就是L2正则项约束后的解空间（简单理解为 $w_1^2+w_2^2=R$ ）。彩色的等高线就是凸优化问题中目标函数的等高线，显然多边形的解空间更容易与等高线在交角处（顶点）碰撞出稀疏解（稀疏可以理解为，并非所有维度的参数均有值，部分参数为0，为0的话就可以理解为该维度的特征没有起到作用），而圆形的解空间，则很难在边角处碰撞，故不易产生稀疏解，更倾向于平滑的解。因此，几何角度的理解，比较直观易懂，本文也不作额外展开。

2.2 先验假设不同

从贝叶斯的角度来理解L1和L2正则的化，其实就跟上面所说的另一个另一种解释一样，我们只是提前为解空间加一个约束条件。而其中L1正则化的方式就是对模型的参数引入了拉普拉斯先验，而L2正则化则相当于对模型引入了高斯先验。本文拿拉普拉斯先验举例。

假设我们的场景还是逻辑回归，且该模型的参数满足拉普拉斯先验，则我们可以得到，

$P(\theta) - Laplace(\mu, b)$
其中， $\mu$ 就是该分布的参数。则我们可以写出，

$P(\theta) = \frac{1}{2b}exp({\frac{\left | \theta \right |}{-b}})$
则根据MAP的思想，我们可以得到，

$argmaxP(\theta|D) = argmax(logP(D|\theta) + logP(\theta))$

则根据上面KKT条件讲的，需要求解上式的梯度，前半部分不变，后半部分我们可以写成，

$。。。+ \frac{\left | \theta \right |}{b}$

大家有木有发现，其实这就是我们加的L1正则，同理运用高斯分布，我们可以推导出L2正则（有个二次项）。

理解到了这一层面，想必大家也对L1L2的先验有了比较深刻的理解，那其实我们来看一下俩个分布曲线图，也能大概推测出俩者的解分布。

比如，对于高斯分布曲线，

高斯分布.png

大家可以看到，高斯分布在极值点（0点）处是平滑的，因此，在极值点附近取不同值点可能性是接近点，因为，L2正则只会让参数更接近0但不会取值为0。

而对于拉普拉斯分布曲线，

拉普拉斯分布.png

大家可以看到，该分布在极值点（0点）处是一个尖峰，故其取值为0的可能性更大。以上就是从L1L2两者的先验假设不同来理解其解的不同。

2.3 适用场景不同

至此，想必大家对L1L2正则的理解已经很深刻了，但到真实的运用场景时，我们又该如何抉择呢？其实也很简单，从上面L1L2的区别，大家也应该知道，L1容易产生稀疏解，而L2则不会。在一般情况下（经验而论）我们一般采取L2正则会更多一一些（更易让参数值约束在小空间范围），但对于需要对特征进行筛选的场景，那我们可以选择L1正则，通过参数的值来确定哪些特征是有意义被留下来的。有些应用场景，也会把L1和L2联合起来使用，本文就不作展开来，有兴趣同学可以自行了解。

简单总结一下本文，先是讲述了正则化的一些本质理解，并且通过提问的方式引发读者对正则化的进一步思考。接着也附上了两种正则方式的比较，并给出了多种角度的理解。希望大家读完本文后对机器学习中的正则化这一块有全新的认识。有说的不对的地方也请大家指出，多多交流，大家一起进步～😁

最后编辑于：2019.10.27 12:30:17

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 204,189评论 6赞 478
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 85,577评论 2赞 381
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 150,857评论 0赞 337
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,703评论 1赞 276
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,705评论 5赞 366
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,620评论 1赞 281
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 37,995评论 3赞 396
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,656评论 0赞 258
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 40,898评论 1赞 298
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,639评论 2赞 321
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,720评论 1赞 330
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,395评论 4赞 319
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 38,982评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,953评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,195评论 1赞 260
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 44,907评论 2赞 349
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,472评论 2赞 342