从范数到正则化

范数是一个在数学领域中常用的工具，同时也是学习机器学习原理中经常碰到的概念。本文将从范数的定义出发，逐步带你理解其在机器学习中的应用。

首先需要明确的是，范数是一个函数，在机器学习中我们通常用它来衡量向量的大小。 $L^p$ 范数定义为：
$\left \| x \right \|_p = \left ( \sum_{i}\left | x^i \right |^p \right )^{1/p}$

1.常见的范数

下面简要介绍一些常见的范数，到这一步暂且只需要记住它们的形式。

1.1 $L^2$ 范数

当 $p = 2$ 时， $L^2$ 范数也被称为欧几里得范数，表示从远点出发到向量 $x$ 确定的点的欧几里得距离。这个范数在机器学习中应用的非常频繁，我们先记住它的简化表示: $\left \| x \right \|$ 。
$\left \| x \right \| = \left ( \sum_{i}\left | x^i \right |^2 \right )^{1/2}$

1.2 平方 $L^2$ 范数

顾名思义就是 $L^2$ 范数的平方，好处就是它显然比 $L^2$ 范数容易计算，可以简单的通过点积 $x^Tx$ 计算。

1.3 $L^1$ 范数

有些情况下平方 $L^2$ 范数不是很受欢迎，因为它在原点附近增长得十分缓慢。有时候区分恰好是零和非零但值很小的元素是很重要的，这时候就可以使用各位置斜率相同的 $L^1$ 范数：
$\left \| x \right \|_1 = \sum_{i}\left | x^i \right |$

1.4 $L^\infty$ 范数

$L^\infty$ 范数也被称为最大范数，表示向量中具有最大幅值的元素的绝对值：
$\left \| x \right \|_\infty = \underset{i}{max}\left | x_i \right |$

2.深度学习中的正则化

2.1偏差(bias)和方差(variance)

在介绍深度学习中的正则化之前，我们先要从机器学习的场景出发思考，是什么问题促使我们需要用正则化这个工具呢？

偏差和方差通常可以用来判断模型拟合数据的情况，看下面这张图， $\bigcirc$ 和 $\times$ 代表两种不同的样本点。

第一个坐标系中由于分类器接近于线性，拟合数据的能力比较差，表现出欠拟合，对应高偏差high bias；第三个坐标系对于训练数据过拟合，对应高方差high variance；而中间的坐标系则是恰到好处的，我们比较希望得到的泛化能力较强的模型。

因此：

if high bias:{更大的网络/更长的训练时长/（更合适的算法）}
if high variance:{更多的数据/正则化/（更合适的算法）}

我们可以将正则化理解为“对学习算法的修改——目的是为了减少泛化误差，以偏差的增加换取方差的减少，从而抑制过拟合。”

2.2正则化如何抑制过拟合

我们将目标函数定义为 $J(\theta ;X,y)$ ,正则化后的目标函数为 $\tilde{J}(\theta ;X,y)$ , $\theta = w + b$ 。通常只对权重 $w$ 做正则化惩罚而不针对偏置项 $b$ ,为了简单起见，我们假设没有偏置项：
$\tilde{J}(w ;X,y) = J(w ;X,y) + \alpha 正则项$

$\alpha \in [0,\infty)$ 是权衡正则化强度的超参。

2.2.1 $L^2$ 正则化

$L^2$ 范数正则化也被称为权重衰减，这时
$正则项 = \frac{1}{2}\left \| w \right \|_{2}^{2}$
带入正则化后的目标函数
$\tilde{J}(w ;X,y) = J(w ;X,y) + \frac{\alpha}{2}\left \| w \right \|_{2}^{2}$
从上文1.2 平方 $L^2$ 范数的介绍中得到 $\left \| w \right \|_{2}^{2} = w^Tw$ ，因此
$\tilde{J}(w ;X,y) = J(w ;X,y) + \frac{\alpha}{2}w^Tw$
与之对应的梯度为：
$\bigtriangledown _w\tilde{J}(w ;X,y) = \bigtriangledown _wJ(w ;X,y) + \alpha w$
使用梯度下降更新权重， $\euro$ 为学习率：
$w\leftarrow w - \epsilon (\bigtriangledown _wJ(w ;X,y) + \alpha w)$
即：
$w\leftarrow (1-\euro\alpha)w - \epsilon (\bigtriangledown _wJ(w ;X,y) )$
可以看出加入权重衰减后会引起学习规则的修改，在每步梯度更新之前都会先收缩权重向量——将权重向量前边乘上一个小于1的权重因子 $(1-\epsilon \alpha)$ ，也就是说，正则化惩罚系数 $\alpha$ 升高会将权重 $w$ 拉向0。可以从两个角度进一步理解一下这个操作：

a.在神经网络中，当一些权重趋近于0时，则可以理解为去掉了一些逻辑单元，简化后的网络虽然小但深度很大。从而将高方差的模型往高偏差的方向拉，直到获取一个恰到好处的模型。

b.假设神经网络每层的激活函数为 $g(z) = tanh(z)，z = w^{[l] }\varepsilon^{[l-1] }+b$ ，正则化惩罚系数 $\alpha 升高 \rightarrow w减小 \rightarrow z 减小$ ，从而使得 $g(z)$ 从①③的非线性状态区域进入②接近于线性状态的区域，导致每层几乎是线性的（线性函数叠加仍然为线性），起到抑制过拟合的效果。

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 194,319评论 5赞 459
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 81,801评论 2赞 371
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 141,567评论 0赞 319
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 52,156评论 1赞 263
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 61,019评论 4赞 355
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 46,090评论 1赞 272
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 36,500评论 3赞 381
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 35,192评论 0赞 253
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 39,474评论 1赞 290
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 34,566评论 2赞 309
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 36,338评论 1赞 326
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 32,212评论 3赞 312
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 37,572评论 3赞 298
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 28,890评论 0赞 17
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 30,169评论 1赞 250
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 41,478评论 2赞 341
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 40,661评论 2赞 335

从范数到正则化

1.常见的范数

1.1 范数

1.2 平方范数

1.3 范数

1.4 范数