Bag of Tricks for Image Classification with Convolutional Neural Networks

——列举在ImageNet数据集上提高分类性能的训练技巧

——以ResNet-50为例，将top-1准确率从75.3%提高的79.29%

Baseline

训练

1、随机采样图片，将其编码为[0,255]之间的32位浮点数

2、随机裁剪，长宽比例为[3/4,4/3]，面积比例为[8%,100%]，然后将裁剪区域resize为224*224

3、以0.5的概率水平翻转

4、使用服从[0.6,1.4]之间均匀分布的系数缩放色调，饱和度和亮度

5、添加采样系数服从高斯分布N(0,0.1)的PCA噪声

6、对RGB三通道，分别减去123.68,116.779,103.939，除以58.393,57.12,57.375

验证

将每张图片的短边变为256像素，同时保证长宽比例，从中心裁剪出224*224的图像，同时进行归一化，不进行随机数据扩张。

卷积层和全连接层的参数以Xavier进行随机初始化，所有偏置初始化为0，对于BN， $\gamma$ 初始化为1， $\beta$ 初始化为0。

使用NAG（Nesterov Accelerated Gradient）作为优化算法，在8块NVIDIA V100显卡上训练120轮，0-30轮，学习率0.1,30-60轮，学习率0.01，60-90轮，学习率0.001,90-120轮，学习率0.0001。

Tricks

Large-batch training

对于凸优化问题，收敛概率随着batch_size的增大而下降，在神经网络的训练中，当训练相同的轮数时，大batch_size的验证性能不如小batch_size。以下方法可以改善这个问题：

Linear scaling learning rate

大batch_size不会提高随机梯度下降的期望，但是会降低梯度的方差（噪声），因此可能需要提高学习率来在梯度反方向上进行更大程度的下降，随着batch_size变化线性增大学习率在ResNet50上是可行的。batch_size = 256，lr = 0.1，当batch_size = b时，lr = b/256。

Learning rate warmup

在训练初期，所有的参数都是随机初始化的，偏离最终收敛的状态很远，因此如果使用较大的学习率将会导致数值不稳定，warmup首先使用很小的学习率，当训练过程稳定之后再恢复到初始学习率。设置warmup_step = m，假设初始学习率为 $\eta$ ，对于第 $i(1\leq i\leq m)$ 个batch，设置学习率为 $i\eta /m$ 。

Zero $\gamma$

BN层将输入 $\hat{x}$ 归一化为 $\gamma \hat{x} +\beta$ ，这两个参数都是学习的，且分别被初始化为 $1,0$ ，Zero gamma策略就是将所有在残差块（residual block）最后一层的BN层初始化为0，使网络在初始化阶段更容易训练。

No bias decay

weight decay 通常同时应用到权重和偏置上，L2正则化使得参数变得稀疏，有文章提出只对权重使用正则化来一直抑制拟合，no bias decay借鉴这个思路，只对卷积层和全连接层的权重进行weight decay，其余参数，如BN层参数都不进行正则化。

Low precision training

神经网络通常以32位浮点数进行训练，但是，有的新硬件可能具有增强的算术逻辑单元，用于较低精度的数据类型。进行低精度训练将加快训练速度。以FP16进行梯度计算，但是所有参数都有着FP32的备份用于参数更新，另外，给loss乘以一个标量以更好地将梯度范围与FP16对齐也是一种实用的解决方案。

Exp

ResNet-50的结构：

ResNet-50

在ResNet-50的第四个阶段中（stage 4），进行下采样的残差块结构为：

Dowm Sampling

模型调整（Model Tweaks）：

模型调整

B：调整卷积核步长，减少信息损失

C：将网络初始阶段的7*7卷积变为3个3*3卷积，（卷积计算量与卷积核大小的平方成正比）

D：在短路连接中增加AvgPool（2*2，s=2），并将1*1卷积步长变为1，避免使用步长为2的1*1卷积

Training Refinements

Cosine Learning Rate Decay

之前的方法有step_decay，cosine lr_decay的策略是假设总的batch数量为 $T$ （暂不考虑warm_up），在batch为 $t$ 时，学习率 $\eta_t = \frac{1}{2}(1+cos(\frac{t \pi }{T} ))\eta$ ，其中 $\eta$ 是初始学习率。

使用Cosine Learning Rate Decay 策略

Label Smoothing

在分类网络的最后一层，一般是全连接层，隐层单元个数为K，对于给定图片，某一类别 $i$ 的预测概率为 $q_i=\frac{exp(z_i)}{\sum\nolimits_{j=1}^Kexp(z_j) }$

给定标注 $p_i =1 (i=y) \quad p_i = 0(otherwise)$ ，交叉熵损失定义为： $l(p,q)=-\sum_{i=1}^Kp_ilog(q_i)$

那么， $-log(q_y) = -z_y+log(\sum_{i=1}^K exp(z_i))$ ，优化的结果将是 $z_y^*$ 趋于无穷，其余项很小，它鼓励不同类别的输出得分有着非常显著的区别，这可能导致过拟合。

label smoothing的策略是将实际标注变为：

$p_i=1-\varepsilon \quad (i=y) \quad or \quad \varepsilon /(K-1) \quad (otherwise)$

$\varepsilon$ 是很小的常数。

则优化之后的概率分布为

最优的预测概率分布

$\alpha$ 是任意实数

Knowledge Distillation

teacher model有更高精度，帮助训练student model，student model通过模仿teacher model，在保证模型复杂度的前提下提高模型精度。例如用ResNet-152作为teacher model，来帮助训练ResNet-50。添加蒸馏损失来惩罚teacher model 的softmax输出与student model之间的差异。假设p是标注，z和r代表student model和teacher model最后一层全连接层的输出，因此最后的loss变为：

loss

T是超参，使得softmax的输出更加平滑，对teacher model的预测概率分布进行蒸馏。

Mixup

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 218,284评论 6赞 506
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 93,115评论 3赞 395
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 164,614评论 0赞 354
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 58,671评论 1赞 293
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 67,699评论 6赞 392
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 51,562评论 1赞 305
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 40,309评论 3赞 418
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 39,223评论 0赞 276
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 45,668评论 1赞 314
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 37,859评论 3赞 336
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 39,981评论 1赞 348
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 35,705评论 5赞 347
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 41,310评论 3赞 330
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 31,904评论 0赞 22
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 33,023评论 1赞 270
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 48,146评论 3赞 370
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 44,933评论 2赞 355