梯度下降算法

1. 三种梯度下降算法：

Batch Gradient Descent：

全部样本梯度下降一次，批梯度下降每次更新使用了所有的训练数据，最小化损失函数，如果只有一个极小值，那么批梯度下降是考虑了训练集所有数据，是朝着最小值迭代运动的，但是缺点是训练样本很大时，单次迭代需要时间太长，更新速度会很慢。

Stochastic Gradient Descent：

随机梯度下降在每次更新的时候，只考虑了一个样本点，这样会大大加快训练数据，也恰好是批梯度下降的缺点，有可能由于训练数据的噪声点较多，那么每一次利用噪声点进行更新的过程中，就不一定是朝着极小值方向更新，到达loss最低区域后还可能会跳出来，当然这也可以使它从局部最小值区域跳出来，可以使用学习率衰减来缓解这个问题。

Q：为什么随机梯度下降算法为什么可以避免局部最小值？

A：因为它不是精确的沿着某个最优解(可能是局部最优)的方向前进，只随机一部分数据，会存在一定可能性让方向偏离最优方向从而可以跳出局部最小。即便其陷入到局部的极小值点，他计算的梯度仍可能不为0，这样就有可能跳出局部的极小值而继续进行搜索。但也不能说是避免，只是比梯度下降要很大程度缓解这个问题。

Mini-batch Gradient Descent：

部分样本梯度下降一次，小批量梯度下降法是为了解决批梯度下降法的训练速度慢，以及随机梯度下降法的准确性综合而来，它可能不会收敛也可能不会在很小的范围内波动(同样可以用学习率衰减的方法来缓解这个问题)。

总结：

相较于GD，SGD能更有效的利用信息，特别是信息比较冗余的时候。举个例子，比如所有样本都需要向一个方向优化，GD优化一次需要对整个样本集迭代一次，而SGD只对一个样本优化就可以达到同样的效果。SGD相对于GD的另外一个优点是可以跳出局部最小值区域。

而mini-batch GD综合了两者的优点，既有了GD的向量化加速，还能像SGD更有效利用样本信息、可以跳出局部最小值区域的优点。另外，使用mini-batch，你还会发现不需要等待整个训练集被处理完就可以开始进行后续工作。

2. 动量优化法Momentum：

动量方法旨在加速学习，通过优化相关方向的训练和弱化无关方向的振荡，来加速SGD训练，特别是处理高曲率，小但一致的梯度，或是带噪声的梯度。动量算法积累了之前梯度指数级衰减的移动平均，并且继续沿该方向移动，带动量的SGD算法如图红色：

从图中可以看出后者加快了优化速度，抑制了震荡。

其具体的实现是计算梯度的指数加权平均数，并利用它更新权重。相当于对原始梯度做了一个平滑，使得参数更新的方向更加稳定，波动更小，因此速度更快，这要归功于指数加权平均。

指数加权平均：

假设我们有一年365天的气温数据θ1,θ2,...,θ365，把他们化成散点图，如下图所示：

这些数据有些杂乱，我们想画一条曲线，用来表征这一年气温的变化趋势，那么我们需要把数据做一次平滑处理。最常见的方法是用一个滑动窗口滑过各个数据点，计算窗口的平均值，从而得到数据的滑动平均值。但除此之外，我们还可以使用指数加权平均来对数据做平滑。其公式如下：

v就是指数加权平均值，也就是平滑后的气温。β的典型值是0.9，平滑后的曲线如下图所示：

回看Momentum算法：

现在再回过头来看Momentum算法的迭代更新公式：

v是上一个时刻的动量值加上此时的梯度变化值，最终的参数更新考虑了梯度以及动量值的平均，可以防止陷入局部最低点

dw是我们计算出来的原始梯度，v则是用指数加权平均计算出来的梯度。这相当于对原始梯度做了一个平滑，然后再用来做梯度下降。实验表明，相比于标准梯度下降算法，Momentum算法具有更快的收敛速度。为什么呢？看下面的图，蓝线是标准梯度下降法，可以看到收敛过程中产生了一些震荡。这些震荡在纵轴方向上是均匀的，几乎可以相互抵消，也就是说如果直接沿着横轴方向迭代，收敛速度可以加快。Momentum通过对原始梯度做了一个平滑，正好将纵轴方向的梯度抹平了（红线部分），使得参数更新方向更多地沿着横轴进行，因此速度更快。

3. AdaGrad 自适应学习率算法：

针对简单的SGD及Momentum存在的问题，2011年John Duchi等发布了AdaGrad优化算法(Adaptive Gradient，自适应梯度)，它能够对每个不同的参数调整不同的学习率，对频繁变化的参数以更小的步长进行更新，而稀疏的参数以更大的步长进行更新。

该算法的思想是独立地适应模型的每个参数：具有较大偏导的参数相应有一个较大的学习率，而具有小偏导的参数则对应一个较小的学习率

具体来说，每个参数的学习率会缩放各参数反比于其历史梯度平方值总和的平方根

$g_{t}$ 表示第t时间步的梯度（向量，包含各个参数对应的偏导数， $g_{t}$ , $i$ 表示第 $i$ 个参数t时刻偏导数）

$g_{t}^2$ 表示第t时间步的梯度平方（向量，由 $g_{t}$ 各元素自己进行平方运算所得，即Element-wise）

与SGD的核心区别在于计算更新步长时，增加了分母：梯度平方累积和的平方根。此项能够累积各个参数 $g_{t}$ ,i的历史梯度平方，频繁更新的梯度，则累积的分母项逐渐偏大，那么更新的步长(stepsize)相对就会变小，而稀疏的梯度，则导致累积的分母项中对应值比较小，那么更新的步长则相对比较大。

优势：在数据分布稀疏的场景，能更好利用稀疏梯度的信息，比标准的SGD算法更有效地收敛。

缺点：主要缺陷来自分母项的对梯度平方不断累积，随之时间步地增加，分母项越来越大，最终导致学习率收缩到太小无法进行有效更新。

4. RMSprop：

RMSProp是Geoffrey Hinton教授在教案中提到的算法，结合梯度平方的指数移动平均数来调节学习率的变化。能够在不稳定（Non-Stationary）的目标函数情况下进行很好地收敛。计算t时间步的梯度：

计算梯度平方的指数移动平均数（Exponential Moving Average），γ是遗忘因子（或称为指数衰减率），依据经验，默认设置为0.9。

梯度更新时候，与AdaGrad类似，只是更新的梯度平方的期望（指数移动均值），其中ε=10^-8，避免除数为0。默认学习率α=0.001。

优势：能够克服AdaGrad梯度急剧减小的问题，在很多应用中都展示出优秀的学习率自适应能力。尤其在不稳定(Non-Stationary)的目标函数下，比基本的SGD、Momentum、AdaGrad表现更良好.

5. Adam：

Adam算法即自适应时刻估计方法（Adaptive Moment Estimation），能计算每个参数的自适应学习率。

在实际应用中，Adam方法效果良好。与其他自适应学习率算法相比，其收敛速度更快，学习效果更为有效，而且可以纠正其他优化技术中存在的问题，如学习率消失、收敛过慢或是高方差的参数更新导致损失函数波动较大等问题。

对更新的步长计算，能够从梯度均值及梯度平方两个角度进行自适应地调节，而不是直接由当前梯度决定，ε=10^-8，避免除数变为0。

最后编辑于：2021.06.20 20:45:33

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 205,033评论 6赞 478
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 87,725评论 2赞 381
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 151,473评论 0赞 338
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,846评论 1赞 277
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,848评论 5赞 368
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,691评论 1赞 282
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 38,053评论 3赞 399
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,700评论 0赞 258
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 42,856评论 1赞 300
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,676评论 2赞 323
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,787评论 1赞 333
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,430评论 4赞 321
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 39,034评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,990评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,218评论 1赞 260
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 45,174评论 2赞 352
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,526评论 2赞 343