详解梯度下降优化算法

1. 文章

An overview of gradient descent optimization algorithms

2. 概要

梯度优化算法，作为各大开源库（如Tensorflow，Keras，PyTorch等）中重要的黑盒子，在网络训练中至关重要，拥有很强的魔力（实用性），但官网一般很少介绍各种梯度优化算法变种的原理。作者在这篇文章里，介绍了不同优化算法的基本原理，旨在让读者知道每个优化算法的利弊和适用的场景，也涉及了一些在并行化和分布式下的结构形式。

3. 前言

对于优化神经网络而言，梯度下降是目前最主流、最常见的算法，目前几乎所有的开源库都包含丰富的梯度优化算法，如Adam、Adagrad，SGD，RMSprop等。作者在文章依次介绍了当前常见的算法参数更新原理，并给出了自己的一些见解。

在给定神经网络时，梯度下降被用来最小化目标函数J(θ)，通过不断往负梯度方向更新网络参数。学习率η用来确定每次更新多大的梯度步长。换句话说，我们总是沿着目标函数的斜坡往下走，直到到达一个山谷（局部最优解或者最优解）。

4. 梯度下降

4.1 Batch gradient descent

又称Vanilla gradient descent，通过计算整个训练样本的梯度来更新参数θ：

因为我们需要计算所有的训练数据的梯度，进行一次参数更新，因此BGD非常慢，无法处理内存放不下数据的情况，也无法进行在线更新。

for i in range(nb_epochs):
        params_grad = evaluate_gradient(loss_function, data, params)
        Params = params - learning_rate * params_grad

目前各大框架都支持梯度的自动求导，如果要自己实现求导，最好做一下梯度检查。

4.2 随机梯度下降（Stochastic gradient descent）

随机梯度下降，每次选取一个样本进行参数更新：

BGD存在着梯度冗余计算的问题——在每个参数更新之前，重复计算了相同的样本梯度。SGD通常速度更快一些，可用于在线更新。但是因为SGD每次仅用一个样本进行频繁的参数更新，可能导致目标函数值震荡比较厉害，如下图：

SGD存在震荡问题

4.3 Mini-Batch gradient descent

MBGD结合了上述两个基本算法的优点，每次借助batch_size个样本进行参数更新：

降低了参数跟新的波动方差，保证稳定收敛
在计算batch样本的梯度更新参数时，可以借助矩阵运算，非常高效
batch_size一般在50~256，根据不同的任务取值不同
batch是很经典的思想，在后文中提到的SGD，均指支持batch的SGD

for i in range(nb_epochs):
        np.random.shuffle(data)
        for batch in get_batches(data, batch_sizes=50):
                params_grad = evaluate_gradient(loss_function, batch, params)
                Params = params - learning_rate * params_grad

4.4 存在的挑战

mini-batch梯度下降算法并不能保证能收敛到一个很好解上，主要面临以下几个问题：

很难选择一个合适的学习率η。学习率太小则收敛特别慢，学习率太大，会导致在最优解附近震荡，甚至偏离最优解得到局部最优解
自适应学习率调度，能够在训练过程不断调整学习率的大小。根据预定义的降级参数，可以训练的不同阶段，递减的降低学习率的大小（衰减因子），但是在何时，以何种尺度衰减学习率，同样是一个难题。
此外，所有的参数共享同一学习率η。如果训练数据是稀疏的，特征具有不同的频次，这时我们并不想以同样的步长更新参数，更希望对很少出现的特征对应的参数，进行更大步长的更新。
另一个重要问题是，在神经网络里常常是严重非凸的误差函数，如果避免落入局部最优解？Dauphin等人认为局部最优解并不是最棘手问题——鞍点才是，在鞍点处，梯度接近为0，在用SGD时，很难保证能逃离鞍点区域。

5. 优化算法

作者介绍了目前常见的优化算法，这里不讨论在高维数据中无法技术实现的算法，如拟牛顿法。

5.1 动量法（Momentum）

SGD在目标函数的“峡谷”处常出现震荡难以快速收敛的问题，如下图所示，在每一次更新时，损失函数会在峡谷处来回摆动。动量法的思想在于通过阻尼这种往复“摆动”，保持SGD在相对不变方便的动量，以加速收敛速度——抵消峡谷两侧的动量，维护向谷底运动的动量。

γ通常取0.9。实质上，当我们使用动量法时，就像从山上推下一个球，球会逐渐累积往山谷滚的动量，越滚越快。在参数更新中，动量会对指向相同方向的维度对应的参数进行持续更新，约束梯度方向总是改变的维度参数，尽可能引导损失函数向“谷底”收敛。

不带动量的SGD和带动量的SGD收敛对比

5.2 Nesterov accelerated gradient（NAG）

但是，让“球”无脑地沿着斜坡向下滚并不总能得到让人满意的解。我们更希望有这样的一个小球，它能够对下一步怎么滚有个基本的“主见“，在滚过斜坡遇到上坡时，能够减速，防止越过最优解。

NAG则在动量法的基础上引入了”预测“的功能。在动量法中，我们用γv_{t-1}更新参数θ。通过计算θ-γv_{t-1}处的梯度，可以对下一个位置的走向做一个初步的预估：

NAG原理图

依旧设γ在0.9左右。当动量法第一次计算当前梯度时（短蓝线），并在累积梯度方向上进行了一大步参数更新（长蓝线）；NAG是首先在之前的梯度方向上走了一大步（棕色线），然后在此位置上评估一下梯度，最后做出一个相对正确的参数更新（绿线）。这种“先知”更新方法可以避免走过头而逃离了最优解——这在RNN相关的各种任务中收益甚好。

以上的参数更新策略同样可以适用于SGD。

5.3 Adagrad

Adagrad可以自适应的调节学习率：对于很少更新的参数采用较大的学习率，对于频繁更新的参数采取更小的学习率——非常适合处理稀疏的数据。谷歌的Dean等人发现，在使用它训练大规模神经网络时，Adagrad很大程度上提升了SGD的鲁棒性。同时，Penningto等人用它来训练GloVe词嵌入模型，因为低频词相对高频词需要更大的学习步长。

在之前的优化算法中，我们对所有的参数θ采取了相同的学习η。Adagrad在不同训练的step t中，对不同的参数θi应用不同的学习率。我们先看每个参数是怎么更新的，在进行向量表示。为了简要起见，令g(t,i)为在step t下参数θi的梯度：

SGD在每一步t对参数θi的更新：

Adagrad修正了上述的更新量，考虑了历史梯度的信息：

其中Gt是一个对角矩阵，在(i, i)处的元素表示到step t时历史θi的梯度平方和。分母下的常量是平滑因子（一般取1e-8）。值得注意的是，没有平方根运算时，算法性能会很差。

Adagrad的好处在于，它避开了人工调参学习率的问题，绝大部分开源库实现只需要在开始的时候设置η=0.01即可。

主要缺点在于它累积了历史梯度作为分母：因为每一个新梯度平方后都是非负值，在训练过程中，分母会越来越大，导致学习率整体会减小直至最后无限小——意味着算法不再能够学习到新的知识。后续算法会解决这个问题的。

5.4 Adadelta

Adadelta是Adagrad的一种拓展形式——Adadelta仅考虑了一个历史时间窗口w下的累积梯度（在实现上并非存储历史梯度，而是借助衰减因子），避免了Adagrad中学习率总是单调递减的问题。
在t步时的平均梯度，取决于历史累积梯度和当前梯度（衰减因子作为trade-off）：

γ值类似之前动量法中的因子，通常取0.9。简单期间，我们重写一下SGD的参数更新公式：

在Adagrad优化算法中，上两式变为：

我们把Gt替换为历史梯度的衰减平方:

对于分母，刚好是梯度的均方根误差，则上式变为：

作者指出：the units is this update(as well as in SGD, Momentum, or Adagrad) do not match, i.e. the update should have the same hypothetical units as the paramter. 因此，则定义了另一个指数衰减方式——参数平方更新，而非梯度的平方。

因此，参数更新的的均方根误差为：

但是RMS[delt(θ)t]是未知的，我们借助先前step的参数更新的估计值逼近。则在之前的更新规则中用RMS[delt(θ)t-1]代替学习率：

在 Adadelta优化算法中，并不需要我们设置学习率的初始值，η会自动根据更新规则进行估计。

5.5 RMSprop

RMSprop是Hinton在他的Coursera课程上提出的（未公布）的自适应学习率的梯度优化方法。它和Adadelta关注和解决的问题是一样的——学习率的单调递减问题。

Hinton 建议γ设置为0.9，初始学习率建议设置为0.001

5.6 Adam

Adaptive Moment Estimation(Adam)，是另一种针对每个参数自适应调整学习率η的优化算法。除了会衰减累积历史的梯度平方和（类似Adadelta, RMSprop），Adam还会保存历史梯度的衰减累积和，类似动量的概念：

Mt和vt分别是梯度的一阶、二阶估计，并在训练开始时被初始为0，Adam的作者观察到这两值偏置接近0，尤其在初始化前后且两个beta的取值接近1时（衰减率很小）。
计算两个和梯度相关变量的无偏估计值：

进行参数更新：

作者提出beta1的值建议0.9，beta2的值建议0.999，平滑因子设置为1e-8。经验上来讲，在实际使用中Adam相对于其他自适应学习率优化算法，效果要更好一点

5.7 AdaMax

在Adam中vt的更新规则类似于在历史的梯度上应用了L2正则：

我们可以基于此扩展成Lp正则：

但是p值取得过大可能导致数值不稳定——这也是为什么实际使用中L1和L2才比较常见。但是，当p=无穷大时也具有稳定行为。基于此，作者提出了AdaMax，为了避免与Adam混淆，我们使用ut表示无穷正则约束：

我们将ut代替之前Adam更新公式中vt的平方根：

需要指出的是，ut依赖于max操作，因此并不像Adam中的vt和mt那样偏置接近于0，这也是为什么我们不要计算ut的bias correction的原因。建议η=0.002，beta1=0.9，beta2=0.999

5.8 Nadam

正如上述所见，Adam可以看做是RMSprop和动量法的结合，NAG是动量法的高阶版本。而Nadam(Nesterov-accelerated Adaptive Moment Estimation)则可以看做是Adam和NAG的组合版本。为了把NAG整合进Adam里，我们需要修正一下动量mt的计算方式。
首先，我们先回顾下动量法的更新公式：

其中，J是目标损失函数，γ是动量衰减因子，η是学习率，上式可以整理为：

从式子中可以看出，动量法涉及两个部分——历史动量方向一小步和当前梯度方向一小步。NAG考虑了预测信息，能够在当前梯度方向迈出更加精确的一步：

Dozat提出了一种方式修正NAG：相对于应用动量值两次——①更新梯度gt②更新参数θt+1，我们现在应用一个前视（look-ahead）动量直接更新当前参数：

这里，相对于之前利用mt-1的向量，我们使用了当前向量mt做眺望。为了能够把NAG动量加到Adam中，我们替换了先前的动量向量，首先，回忆一下Adam的更新规则：

将mt的表达式带入最后一个公式里：

括号里的第一项是先前步骤的无偏估计，可以替换为：

考虑到look-ahead的动量，将mt-1替换为mt即可得到Nadam的更新规则：

5.9 可视化

所有的优化算法都是同样的初始点出发，可以看出，Adagrad，Adadelta，RMSprop可以很迅速的沿着正确方向收敛，而动量法和NAG开始时会偏离正确收敛方向，但是NAG在后续的step中由于考虑到了预见信息，修正了方向。

在鞍点的表现：SGD，动量法和NAG很难突破鞍点的困境——尽管最后后两者逃离了鞍点。但Adagrad，RMSprop和Adadelta能够很好的快速找到最优负梯度防线，Adadelta拔得头筹。

5.10 如何选择

那么如何选择合适的优化算法呢？
如果数据是稀疏的，你也许可以使用自适应学习率的算法，可帮助你获取更好的性能，而且不需要手动调节学习率参数。

总的来说，RMSprop是Adagrad的扩展——在处理梯度单调衰减问题上。RMSprop，Adadelta，Adam在考虑历史梯度方面，非常相似。目前，Adam是整体最好的选择。

SGD虽然倾向于能找到最小值，但是花费的step要更大一些，对权重初始化比较敏感，不能轻易逃出鞍点，有陷入局部最优解的风险。如果你在训练一个很深很复杂的神经网络，又希望能快速收敛，建议选择上述自适应学习率的优化算法。

6. 并行和分布式下的SGD

TODO

7. 优化SGD的其他技巧

我们讨论一些除了优化算法之外的能提升模型性能的tircks。

7.1 Shuffling and Curriculum Learning

一般情况下，我们在训练模型时，常常会打乱样本的输入顺序——否则，模型可能会捕捉这种顺序信息，最后得到有偏置的模型。

从另一方面来讲，有时候我们目的在于逐渐学习越来越难得问题，这时我们可以先喂给模型相对容易区分学习的样本，然后逐渐提升样本区分难度——这称为Curriculum Learning

7.2 Batch Normalization

为了促进学习过程，我们一般会对模型参数进行零均值单位方差的初始化，在训练过程中，由于参数往不同方向更新，网络层常会损失这种分布，会导致模型收敛较慢，尤其是网络很深的时候。

Batch Normalization会对每个batch的样本重建这种零均值单位方差的数据分布，同时随着反向传播进行适应改变。可以将BN作为网络单独的一层，这样我们可以用更大的学习率而不用太过关心参数初始化问题。BN可以认为是一种正则手段，一般不和dropout一起使用。

7.3 Early Stopping

Hinton言：Early stopping is beautiful free lunch. 如果在训练过程中，你的validation error不再下降时，就应该考虑终止训练。

7.4 Gradient Noise

Neelakantan等人在每个梯度更新中添加了高斯噪音：

并对方差进行了退火处理：

他们指出通过添加高斯噪声能够提高模型在初始化不好时的鲁棒性，帮助训练复杂的网络，认为高斯噪声能够帮助模型逃离局部最优解。

8. 小结

作者在这篇文章中，介绍了各种梯度下降优化算法的变种——动量法，NAG，Adagrad，Adadelta，RMSprop，Adam，Nadam，Adamax等。

最后编辑于：2018.11.14 17:16:46

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 217,277评论 6赞 503
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 92,689评论 3赞 393
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 163,624评论 0赞 353
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 58,356评论 1赞 293
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 67,402评论 6赞 392
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 51,292评论 1赞 301
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 40,135评论 3赞 418
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 38,992评论 0赞 275
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 45,429评论 1赞 314
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 37,636评论 3赞 334
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 39,785评论 1赞 348
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 35,492评论 5赞 345
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 41,092评论 3赞 328
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 31,723评论 0赞 22
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 32,858评论 1赞 269
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 47,891评论 2赞 370
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 44,713评论 2赞 354