机器学习基础(4)- L1和L2正则区别

本文主要用于理解正则化的原理,并且重点比较了L1与L2这两种正则化方法的区别。

基本目录如下:

  1. 正则化的原理
    1.1 什么是正则化
    1.2 常用的正则化方法
    1.3 正则化的另一种解释

  2. L1与L2正则化的区别
    2.1 解空间形状不同
    2.2 先验假设不同
    2.3 适用场景不同

------------------第一菇 - 正则化的原理------------------

1.1 什么是正则化

在机器学习领域,模型的优化绝对是一个重头戏。刚接触这个领域的同学,可能会沉迷于选择更加复杂或是更加fancy的模型去解决一些问题,反而忽略了对简单模型的优化本质(更别提复杂模型了)的理解,本文就回归到最基础的地方,以逻辑回归作为示例,带着大家来深入理解其中一种优化的方法(也就是本文的主角)- 正则化。

熟悉逻辑回归的同学,应该不难写出其目标函数(如下),

argmin_w-\prod_{i=1}^{n}p(y_i | x_i;w)
也就是说,我们要去优化的参数是w,从而使得整个目标函数最小。这个时候,大家别急着去求解,停下来,想一想,参数w在这个目标函数中有什么特殊的地方。比如,我抛出一个问题,当给定的数据是线性可分的时候,逻辑回归的参数w会趋向于无穷大吗?或者换一种表达方式(如下图),对于两个类,我现在有ABC三条线可供选择,那逻辑回归更倾向于训练出的模型是哪个?

思考题.png

其实上面这个问题也很简单,我们还是得从逻辑回归的本质出发去理解。我们都知道,

p(y=1|x;w) = \frac{1}{1 + e^{-(w^{T}x + b)}}
大家有木有想过,当参数w趋向于正无穷的时候,上式会发生什么?没错,上式会趋向于1!这是我们想得到的么?当然!因为,正样本的概率无限接近1,那意味着正样本几乎不会增大我们上面提到的目标函数,反之对于负样本,对于w趋向于无穷大的情况,概率接近0,也正是我们期望得到的。这也就是说,假设给定的数据是线性可分的,逻辑回归的参数w会趋向于无穷大(上述思考题答案就是B)!但这个无穷大真的是我们所期望的吗?显然不是,上面的A和C其实都是更加理想的分割线,因此,这种情况我们称之为对模型的过度训练,也就是过拟合了。而本文要介绍的正则化方法,正是为了解决这种参数过大的问题。

还是针对逻辑回归,此时,我们在原有的目标函数上加上正则项(L2范数),如下,

argmin_w-\prod_{i=1}^{n}p(y_i | x_i, w) + \lambda \left \| w \right \|_{2}^{2}
这个式子,就起到了控制参数w的作用,这个想必大家应该都能瞬间领悟到吧?如果w过大的话,后面这项正则项(\lambda \left \| w \right \|_{2}^{2})就会变得很大(而这与我们最小化目标函数的目标不符),其中\lambda是超参数,当\lambda越大,参数w就会相应取值更小,当\lambda越小,参数w就会相应取值更大。至此,为何会有正则化一项,我们算是讲清楚了。

1.2 常用的正则化方法

其实说到正则化方法,我们的本质就是选择一种w的范数。比较常见的有L0, L1, L2,比较特殊的是nuclear norm(本文不作介绍)

对于L0范数就是数一下该向量中有多少个非0的个数。

其中对于L1范数就是,

\left \| w \right \|_{1} = \sum_{i=1}^{d}\left | w_i \right |

对于L2范数就是,

\left \| w \right \|_{2} = \sum_{i=1}^{d}w_{i}^{2}

1.3 正则化的另一种解释

事实上,正则化本身的目的想必大家都已经明白了,而再进一步想其实就是限制了参数的取值空间。因此,我们也可以简单理解为,“带正则项”和“带约束条件”(比如不能取过大的值)是等价的。而通过约束参数的取值空间,从而防止过拟合。因此,假设我们为上面的逻辑回归问题加一个参数的约束,比如说wL2范数的平方不能大于m,则我们的问题就会转为,

\left\{\begin{matrix} argmin_w-\prod_{i=1}^{n}p(y_i | x_i;w) \\ \\ s.t. \left \| w \right \|_{2}^{2} \leq m \end{matrix}\right.
熟悉求解带约束条件的凸优化问题的同学,应该也能很自然的联想到引入拉格朗日乘子的方法,因此我们就能得到,

-\prod_{i=1}^{n}p(y_i | x_i;w) + \lambda(\left \| w \right \|_{2}^{2} - m)

而满足上式的KKT条件,其实就是上面提到的参数wL2正则项的优化问题的最优解的条件(梯度为0,感兴趣的同学可以自行写一下很容易发现)

------------------第二菇 - L1与L2正则化的区别------------------
L1与L2正则化最大的不同,其实就在于前者更容易产生稀疏解(让很多参数置0),而后者则不会。以下将从多个角度来带领大家理解这个概念。

2.1 解空间形状不同

大多数的教科书或是博客,都会从两者的解空间形状来解释两者的区别,本文也不例外,先从解空间的角度来理解。

如下图所示,


解空间.png

左图是L1正则项约束后的解空间(假设二维空间,简单理解为w1+w2=C),右图就是L2正则项约束后的解空间(简单理解为w_1^2+w_2^2=R)。彩色的等高线就是凸优化问题中目标函数的等高线,显然多边形的解空间更容易与等高线在交角处(顶点)碰撞出稀疏解(稀疏可以理解为,并非所有维度的参数均有值,部分参数为0,为0的话就可以理解为该维度的特征没有起到作用),而圆形的解空间,则很难在边角处碰撞,故不易产生稀疏解,更倾向于平滑的解。因此,几何角度的理解,比较直观易懂,本文也不作额外展开。

2.2 先验假设不同

从贝叶斯的角度来理解L1和L2正则的化,其实就跟上面所说的另一个另一种解释一样,我们只是提前为解空间加一个约束条件。而其中L1正则化的方式就是对模型的参数引入了拉普拉斯先验,而L2正则化则相当于对模型引入了高斯先验。本文拿拉普拉斯先验举例。

假设我们的场景还是逻辑回归,且该模型的参数满足拉普拉斯先验,则我们可以得到,

P(\theta) - Laplace(\mu, b)
其中,\mu就是该分布的参数。则我们可以写出,

P(\theta) = \frac{1}{2b}exp({\frac{\left | \theta \right |}{-b}})
则根据MAP的思想,我们可以得到,

argmaxP(\theta|D) = argmax(logP(D|\theta) + logP(\theta))

则根据上面KKT条件讲的,需要求解上式的梯度,前半部分不变,后半部分我们可以写成,

。。。+ \frac{\left | \theta \right |}{b}

大家有木有发现,其实这就是我们加的L1正则,同理运用高斯分布,我们可以推导出L2正则(有个二次项)。

理解到了这一层面,想必大家也对L1L2的先验有了比较深刻的理解,那其实我们来看一下俩个分布曲线图,也能大概推测出俩者的解分布。

比如,对于高斯分布曲线,


高斯分布.png

大家可以看到,高斯分布在极值点(0点)处是平滑的,因此,在极值点附近取不同值点可能性是接近点,因为,L2正则只会让参数更接近0但不会取值为0。

而对于拉普拉斯分布曲线,


拉普拉斯分布.png

大家可以看到,该分布在极值点(0点)处是一个尖峰,故其取值为0的可能性更大。以上就是从L1L2两者的先验假设不同来理解其解的不同。

2.3 适用场景不同

至此,想必大家对L1L2正则的理解已经很深刻了,但到真实的运用场景时,我们又该如何抉择呢?其实也很简单,从上面L1L2的区别,大家也应该知道,L1容易产生稀疏解,而L2则不会。在一般情况下(经验而论)我们一般采取L2正则会更多一一些(更易让参数值约束在小空间范围),但对于需要对特征进行筛选的场景,那我们可以选择L1正则,通过参数的值来确定哪些特征是有意义被留下来的。有些应用场景,也会把L1和L2联合起来使用,本文就不作展开来,有兴趣同学可以自行了解。

简单总结一下本文,先是讲述了正则化的一些本质理解,并且通过提问的方式引发读者对正则化的进一步思考。接着也附上了两种正则方式的比较,并给出了多种角度的理解。希望大家读完本文后对机器学习中的正则化这一块有全新的认识。有说的不对的地方也请大家指出,多多交流,大家一起进步~😁

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 204,189评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,577评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 150,857评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,703评论 1 276
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,705评论 5 366
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,620评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,995评论 3 396
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,656评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,898评论 1 298
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,639评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,720评论 1 330
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,395评论 4 319
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,982评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,953评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,195评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 44,907评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,472评论 2 342

推荐阅读更多精彩内容