NFNet, 理解BN然后抛弃它 2021-05-15

https://arxiv.org/pdf/2102.06171.pdf
NFNet这篇论文的内容很多，和他的前作(https://arxiv.org/pdf/2101.08692.pdf)一起
针对BN的作用提出了一系列方法来替代BN，以避免了它的一些弊端。然后作者又基于 SE-ResNeXt-D 和这些方法调整了一个新的模型屠了榜。

Normalization Free，NFNet

为什么要替代BN？ BN的缺点

BN是在15年提出的，因为它可以很有效的帮助快速，稳定进行训练，后来几乎成了深度神经网络的标配。
李宏毅：BV1bx411V798 推荐一下这个讲解BN的视频。不过里面使用的关于covariant shift 的解释现在被证明关系不大了，虽然BN的原作者就是这么解释的。有兴趣可以看看这篇论文。
How does batch normalization help optimization? 【2】
（https://arxiv.org/pdf/1805.11604.pdf）

这里回顾一下BN的算法，就是计算隐藏层单元激活值的均值和方差，然后归一化使得均值为0，方差为1，然后再引入两个可训练参数γ和β进行缩放和偏移。这个乍一看有点多此一举，但是μ和σ是关于当前隐藏层单元激活值的，它们由当前batch的输入和当前的参数决定，而γ和β则是模型对于归一化（均值为零，方差为1）之后的激活值通过学习得到的。我的理解是，如果把归一化的特征直接送去非对称的激活函数比如ReLU，那可能会丢失很多信息，数据的分布会偏移到正值，但是，这个是损失函数的不对称导致，而γ和β就是用来在激活之前学习一个更有利的偏移和缩放。

归一化以后还有两个γ和β可学习参数，用在激活之前。

BN的效果有目共睹，但是存在一些缺点，NFNet列出三个主要的：

增加计算量，均值和方差，因为反向传播还要记住一些结果，导致内存开销过大.
训练和测试时的模型差异。因为批量归一化处理的是隐藏单元的激活值，而参数不断更新会导致激活值均值和方差也不断变化，最后测试时一般选用一些平均的参数。
打破了minibatch里的训练样本的独立性。这一点比较严重，对于分布式训练很麻烦，对于某些模型比如对比学习方法，还需要进行特别处理（参考MoCo中shuffling batch）。
Batch size 要更大才能更接近整个数据集中真实的均值, NFNet在前作中曾经做过实验， batch size 小的时候，表现更好，但是当batch size大的时候，使用BN的模型表现更好。

优点和逐个替代

现在来看看NFNet论文中列出的BN的四点主要优点：

首先现在BN一般是和残差连接结合使用，缩小了残差分支的激活值，让训练在早期得以顺利进行。

这一点作者通过引入参数α和β来缩放参数达到目的，称使训练更稳定。

α一般设置比较小（0.2），β根据初始值的方差确定

Batch normalization eliminates mean-shift。
很多像ReLU这样的函数，只会保留正值，BN就消除了由激活函数引起的这种均值偏移。

均值偏移问题，作者用对参数重新标准化进行。

对参数重新标准化

正则化效果。
这个就有点祸兮福之所倚的感觉，因为每个Batch的均值和方差相比整个数据集是不同的，batch越小，噪声越大，那我们一般是希望让batch更大一点，噪声小一些，不过这些噪声的作用又一定程度上对模型进行了正则化。

作者使用了dropout和Stochastic Depth。dropout 大家应该熟悉，就是随机忽略一些单元，而随机深度就是随机忽略一些层，反正后来的模型也都很深了。

高效的large-batch训练。
这个就是来源于上面文献2推翻了BN原作者的观点，直观一点理解就是，顺滑了 loss landscape，BN使得损失变化得更小，梯度的幅值也更小（更加满足利普希茨条件）。使得梯度下降优化更加容易，使用更大的学习率也能稳定进行训练。这篇论文提供了理论证明，得到了如下结论，但是最好去看原文，我的理解可能有误。

顺滑了loss的曲面，使得下降的过程更加平稳。
使用BN后的重新缩放会保留所有的最优值。
BN Loss的利普西茨性质使得对于任何初始参数值，更容易达到最优点。

总之就是更快更稳地训练。

Adaptive Gradient Clipping 非常简单，就是如果反向传播得到的梯度太大了，那就梯度不变。因为这种剧烈的变化往往是导致不稳定的因素。而这个系数同时取决于梯度的大小和梯度作用的参数的大小。不过AGC也不要总是在每一层使用，具体可以去参考原文。

梯度裁剪这个概念其实也不新鲜了，这是2020年另一篇paper提出来的autoClip，用的是梯度幅度的百分比

NFNet的adaptive gradient clipping, 由W当前参数大小和梯度模共同决定

相同模型使用BN和使用AGC的对比实验结果

作者在附录中还给出了很多实验细节和详细的解释，有需要的话可以参考。

BN的应用集合：

SimCLR中使用 Global BN，整合一个batch的数据分配到不同硬件上，导致均值和方差估计不准的问题。

Momentum Contrast的归一化策略

MoCo Shuffling BN

模型细节

基于SE-ResNeXt-D，
输入图片归一化处理，
在stem部分每一层卷积之后非线性激活，
重要的是在stem最后一层卷积之后没有激活。
激活函数使用GELU，但是ReLU和SiLU效果差不读，
使用 Squeeze & Excite ，

image.png

NF block，左边的旁路是在缩放以及激活之后进行的

最后编辑于：2021.05.18 05:24:47

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 218,546评论 6赞 507
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 93,224评论 3赞 395
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 164,911评论 0赞 354
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 58,737评论 1赞 294
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 67,753评论 6赞 392
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 51,598评论 1赞 305
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 40,338评论 3赞 418
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 39,249评论 0赞 276
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 45,696评论 1赞 314
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 37,888评论 3赞 336
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 40,013评论 1赞 348
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 35,731评论 5赞 346
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 41,348评论 3赞 330
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 31,929评论 0赞 22
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 33,048评论 1赞 270
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 48,203评论 3赞 370
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 44,960评论 2赞 355

NFNet, 理解BN然后抛弃它 2021-05-15

为什么要替代BN？ BN的缺点

优点和逐个替代

BN的应用集合：

模型细节

推荐阅读更多精彩内容