优化方法总结

优化算法框架

神经网络模型中有多种优化算法，优化算法的作用用来优化更新参数。
对于优化算法而言，主要的框架如下。
参数： $w$ 目标函数： $f(w)$ 学习率 $\alpha$ 。
对于每个epoch t：
step1：计算当前梯度 $g_{t} = \nabla f_{w_t}$
step2：计算动量。
一阶动量： $m_{t}=\phi(g_{1},g_{2},...,g_{t})$
二阶动量: $V_{t}=Z(g_{1},g_{2},...,g_{t})$
step3：计算当前时刻下降梯度 $\eta_{t}=\alpha * \frac{m_{t}}{\sqrt{V_{t}}}$
step4：更新参数 $w_{t+1} = w_{t}-\eta_{t}$
对于不同的优化算法而言，区别主要在于第一步和第二步。对于梯度的计算，一阶动量的计算，和二阶动量的计算存在差别。
三、四步的计算更新，各个算法之间都是相同的。

优化算法介绍

SGD

最常见的SGD
直接没有step2，没有引入动量。
$m_t=g_1$ $V_{t}=I$
在实际的实现中，可能会对学习率 $\alpha$ 进行改变，会使用衰减学习率。
SGD的缺点是 1 收敛速度慢，2 有可能会困在局部最优解。

SGDM

也就是SGD+ Momentum。这里引入了一阶动量。
从直观理解就是加入了一个惯性，在坡度比较陡的地方，会有较大的惯性，这是下降的多。坡度平缓的地方，惯性较小，下降的会比较慢。
修改SGD中的一阶动量为
$m_t=\beta_1 *m_{t-1}+(1-\beta_{1})*g_{t}$
等式右边有两部分，加号左边的部分为之前积累的下降方向，加号右边为当前的梯度。两者的权重用参数来控制。
$\beta$ 越大，说明下降的方向越依赖于以往的惯性。可以减少方向的突变。

SGD+NAG

NAG是：Nesterov Accelerated Gradient
这里是针对SGD会陷在局部最优附近的缺点进行改进。
在前面针对收敛慢改，引进一阶动量后，这里着眼于step1里的梯度计算。通常 $\beta$ 会设的比较大，这就说明下降方向主要由历史方向积累决定，那么在step1里，不看当前的梯度，而是看下一步时刻的梯度。直观理解为多看一步，计算下一步的梯度。
用下一个点的梯度下降方向，与历史累积动量结合，计算step2里的一阶动量。
计算公式如下
$g_{t}=\nabla f(w_{t} - \alpha *\frac{m_{t-1}}{\sqrt{V_{t-1 } } })$

AdaGrad

前面的优化算法主要着眼于一阶动量的设计，从AdaGrad开始，将引入二阶动量。参数的二阶动量在这里表示为当前维度上，历史积累的全部的梯度的平方和。
将step3里的公式修改一下顺序，那前面的部分可以看成学习率。这里的分母是二阶动量。这里的学习率（包含二阶动量）会随着二阶动量的积累而逐渐变化，这就是‘自适应学习’。
$\eta_{t}=\frac{\alpha}{\sqrt{V_{t}}} *m_t$
宏观来分析，这里参数更新时，希望从少更新的维度多学习，经常更新的参数那里少学习一点。对于频繁更新的的参数，二阶动量迅速积累，会使的学习率降低，那么在同一次更新中，模型会学到比较少的内容。而不频繁更新的参数，学习率会比较大，每次更新时学到的东西比较多。
Ada算法的缺点也很明显，二阶动量是历史梯度的积累，是个单调递增的值，当分母越来越大时，整个的学习率会趋于0，会提前停止学习。

AdaDelta / RMSProp

为了改进AdaGrad中的二阶动量会不断增加的缺点，这里提出了一个时间窗口。计算二阶动量的时候只计算这个时间窗口内的动量。避免了二阶动量的持续积累。
二阶动量的计算公式如下
$V_t = \beta_ * V_{t-1} + (1- \beta)g_{t}^2$

Adam

SGD-M 引入了一阶动量，AdaG 引入了二阶动量。
二者结合就是Adam,同时考虑一阶动量和二阶动量。
二者的计算公式如下：
$m_t = \beta_1 *m_{t-1}+(1-\beta_1)g_{t}$
$V_{t}= \beta_{2} * V_{t-1} + (1-\beta_2)g_{t}^2$

Nadam

回头看最初的优化框架，已经分别在一阶动量和二阶动量做了研究。还剩下当前的梯度可以进行尝试。参考前面的NAG，Nadam就是Adam+Nesterov。
在Adam的基础上保持其他计算公式不变，更改当前梯度的计算公式为
$g_{t}=\nabla f(w_{t} - \alpha *\frac{m_{t-1}}{\sqrt{V_{t-1 } } })$

自适应优化算法缺点分析

从前面的介绍可以看出，Adam系列的算法表面上更优秀，针对原本的SGD的缺点做了各种改变。但是对于Adam算法，目前也存在着缺点。
其中一个很严重的问题是Adam算法有可能不收敛。因为二阶动量取决于一段时间内的梯度的积累。这段时间内的数据如果有异常，会导致这个二阶动量极不稳定。在学习的后期，学习率有可能不断震荡，导致整个模型无法收敛。
同时因为动量的引入，在学习的后期，存在可能使一步过大，错过最优解。
综上所述，虽然Adam看着很完美，但在实际应用中还是存在着缺点。所以到底是各种优化器要如何选择，还是要取决于具体的情况和个人的调参经验。

调参经验

后续会逐渐更新个人的调参经验。

参考文献

[1]一个框架看懂优化算法之异同 SGD/AdaGrad/Adam
[2]Adam的两宗罪
[3]如何理解随机梯度下降(Stochastic gradient descent，SGD)？

最后编辑于：2019.03.06 15:49:05

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 194,761评论 5赞 460
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 81,953评论 2赞 371
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 141,998评论 0赞 320
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 52,248评论 1赞 263
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 61,130评论 4赞 356
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 46,145评论 1赞 272
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 36,550评论 3赞 381
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 35,236评论 0赞 253
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 39,510评论 1赞 291
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 34,601评论 2赞 310
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 36,376评论 1赞 326
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 32,247评论 3赞 313
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 37,613评论 3赞 299
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 28,911评论 0赞 17
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 30,191评论 1赞 250
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 41,532评论 2赞 342
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 40,739评论 2赞 335