从范数到正则化

范数是一个在数学领域中常用的工具,同时也是学习机器学习原理中经常碰到的概念。本文将从范数的定义出发,逐步带你理解其在机器学习中的应用。

首先需要明确的是,范数是一个函数,在机器学习中我们通常用它来衡量向量的大小。L^p​范数定义为:
\left \| x \right \|_p = \left ( \sum_{i}\left | x^i \right |^p \right )^{1/p}

1.常见的范数

下面简要介绍一些常见的范数,到这一步暂且只需要记住它们的形式。

1.1 L^2范数

p = 2时,L^2范数也被称为欧几里得范数,表示从远点出发到向量x确定的点的欧几里得距离。这个范数在机器学习中应用的非常频繁,我们先记住它的简化表示:\left \| x \right \|
\left \| x \right \| = \left ( \sum_{i}\left | x^i \right |^2 \right )^{1/2}

1.2 平方L^2范数

顾名思义就是L^2​范数的平方,好处就是它显然比L^2​范数容易计算,可以简单的通过点积x^Tx​计算。

1.3 L^1范数

有些情况下平方L^2范数不是很受欢迎,因为它在原点附近增长得十分缓慢。有时候区分恰好是零和非零但值很小的元素是很重要的,这时候就可以使用各位置斜率相同L^1范数:
\left \| x \right \|_1 = \sum_{i}\left | x^i \right |

1.4 L^\infty范数

L^\infty范数也被称为最大范数,表示向量中具有最大幅值的元素的绝对值:
\left \| x \right \|_\infty = \underset{i}{max}\left | x_i \right |

2.深度学习中的正则化

2.1偏差(bias)和方差(variance)

在介绍深度学习中的正则化之前,我们先要从机器学习的场景出发思考,是什么问题促使我们需要用正则化这个工具呢?​

偏差和方差通常可以用来判断模型拟合数据的情况,看下面这张图,\bigcirc\times代表两种不同的样本点。

第一个坐标系中由于分类器接近于线性,拟合数据的能力比较差,表现出欠拟合,对应高偏差high bias;第三个坐标系对于训练数据过拟合,对应高方差high variance;而中间的坐标系则是恰到好处的,我们比较希望得到的泛化能力较强的模型。

因此:

  • if high bias:{更大的网络/更长的训练时长/(更合适的算法)}
  • if high variance:{更多的数据/正则化/(更合适的算法)}

我们可以将正则化理解为“对学习算法的修改——目的是为了减少泛化误差,以偏差的增加换取方差的减少,从而抑制过拟合。”

2.2正则化如何抑制过拟合

我们将目标函数定义为J(\theta ;X,y),正则化后的目标函数为\tilde{J}(\theta ;X,y),\theta = w + b。通常只对权重w做正则化惩罚而不针对偏置项b,为了简单起见,我们假设没有偏置项:
\tilde{J}(w ;X,y) = J(w ;X,y) + \alpha 正则项

\alpha \in [0,\infty)是权衡正则化强度的超参。

2.2.1 L^2正则化

L^2​范数正则化也被称为权重衰减,这时
正则项 = \frac{1}{2}\left \| w \right \|_{2}^{2}
带入正则化后的目标函数
\tilde{J}(w ;X,y) = J(w ;X,y) + \frac{\alpha}{2}\left \| w \right \|_{2}^{2}
从上文1.2 平方L^2​范数的介绍中得到\left \| w \right \|_{2}^{2} = w^Tw​,因此
\tilde{J}(w ;X,y) = J(w ;X,y) + \frac{\alpha}{2}w^Tw
与之对应的梯度为:
\bigtriangledown _w\tilde{J}(w ;X,y) = \bigtriangledown _wJ(w ;X,y) + \alpha w
使用梯度下降更新权重,\euro为学习率:
w\leftarrow w - \epsilon (\bigtriangledown _wJ(w ;X,y) + \alpha w)
即:
w\leftarrow (1-\euro\alpha)w - \epsilon (\bigtriangledown _wJ(w ;X,y) )
可以看出加入权重衰减后会引起学习规则的修改,在每步梯度更新之前都会先收缩权重向量——将权重向量前边乘上一个小于1的权重因子(1-\epsilon \alpha),也就是说,正则化惩罚系数\alpha升高会将权重w拉向0。可以从两个角度进一步理解一下这个操作:

a.在神经网络中,当一些权重趋近于0时,则可以理解为去掉了一些逻辑单元,简化后的网络虽然小但深度很大。从而将高方差的模型往高偏差的方向拉,直到获取一个恰到好处的模型。

b.假设神经网络每层的激活函数为g(z) = tanh(z),z = w^{[l] }\varepsilon^{[l-1] }+b,正则化惩罚系数\alpha 升高 \rightarrow w减小 \rightarrow z 减小,从而使得g(z)从①③的非线性状态区域进入②接近于线性状态的区域,导致每层几乎是线性的(线性函数叠加仍然为线性),起到抑制过拟合的效果。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 194,319评论 5 459
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 81,801评论 2 371
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 141,567评论 0 319
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 52,156评论 1 263
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 61,019评论 4 355
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 46,090评论 1 272
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 36,500评论 3 381
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 35,192评论 0 253
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 39,474评论 1 290
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 34,566评论 2 309
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 36,338评论 1 326
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 32,212评论 3 312
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 37,572评论 3 298
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 28,890评论 0 17
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 30,169评论 1 250
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 41,478评论 2 341
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 40,661评论 2 335

推荐阅读更多精彩内容