2. 神经网络之BN层

参考：BN学习笔记，用自己的的理解和语言总结一下。

背景

BN，全称Batch Normalization,是2015年提出的一种方法，在进行深度网络训练时，大都会采取这种算法。
原文链接：Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift

尽管梯度下降法训练神经网络很简单高效，但是需要人为地去选择参数，比如学习率，参数初始化，权重衰减系数，Dropout比例等，而且这些参数的选择对于训练结果至关重要，以至于我们很多时间都浪费到这些调参上。BN算法的强大之处在下面几个方面：

可以选择较大的学习率，使得训练速度增长很快，具有快速收敛性。
可以不去理会Dropout，L2正则项参数的选择，如果选择使用BN，甚至可以去掉这两项。
去掉局部响应归一化层。（AlexNet中使用的方法，BN层出来之后这个就不再用了）
可以把训练数据打乱，防止每批训练的时候，某一个样本被经常挑选到。（不是很理解啊）

首先来说归一化的问题，神经网络训练开始前，都要对数据做一个归一化处理，归一化有很多好处，原因是网络学习的过程的本质就是学习数据分布，一旦训练数据和测试数据的分布不同，那么网络的泛化能力就会大大降低，另外一方面，每一批次的数据分布如果不相同的话，那么网络就要在每次迭代的时候都去适应不同的分布，这样会大大降低网络的训练速度，这也就是为什么要对数据做一个归一化预处理的原因。另外对图片进行归一化处理还可以处理光照，对比度等影响。
另外，为什么要进行归一化还有一些原因，可以参考这里
网络一旦训练起来，参数就要发生更新，出了输入层的数据外，其它层的数据分布是一直发生变化的，因为在训练的时候，网络参数的变化就会导致后面输入数据的分布变化，比如第二层输入，是由输入数据和第一层参数得到的，而第一层的参数随着训练一直变化，势必会引起第二层输入分布的改变，把这种改变称之为：Internal Covariate Shift，BN就是为了解决这个问题的。

BN

和卷积层，激活层，全连接层一样，BN层也是属于网络中的一层。我们前面提到了，前面的层引起了数据分布的变化，这时候可能有一种思路是说：在每一层输入的时候，在加一个预处理多好。比如归一化到均值为0，方差为1，然后再送入输入进行学习。基本思路是这样的，然而实际上没有这么简单，如果我们只是使用简单的归一化方式：

对某一层的输入数据做归一化，然后送入网络的下一层，这样是会影响到本层网络所学习的特征的，比如网络中学习到的数据本来大部分分布在0的右边，经过RELU激活函数以后大部分会被激活，如果直接强制归一化，那么就会有大多数的数据无法激活了，这样学习到的特征不就被破坏掉了么？论文中对上面的方法做了一些改进：变换重构，引入了可以学习的参数，这就是算法的关键之处：这两个希腊字母就是要学习的。

每一个神经元x_k都会有这样的一对参数，当：

这样的时候可以恢复出原始的某一层学习到的特征的，因此我们引入这个可以学习的参数使得我们的网络可以恢复出原始网络所要学习的特征分布，最后BN层的前向传导公式为：

上面公式中的m指的是mini-batch size。也就是每一个batch来做一个这样的BN。代码对应也是四句话。

m = K.mean(X, axis=-1, keepdims=True)        #计算均值  
std = K.std(X, axis=-1, keepdims=True)           #计算标准差  
X_normed = (X - m) / (std + self.epsilon)         #归一化  
out = self.gamma * X_normed + self.beta           #重构变换

上面的x是一个二维矩阵，对于源码的实现就是上面几行了。

使用

一旦网络训练结束，就没有了batch这个概念了，测试阶段的时候我们一般只输入一个样本来看一下预测结果。因此测试样本前向传导的时候，上面式子里的均值和标准差从哪里来？其实网络一旦训练完毕，参数都是固定的，这个时候即便是训练数据进来一个batch，BN层计算的均值和标准差都是基本不变的（网络趋于稳定），我们可以采用这些数值作为测试样本所需要的均值和标准差，于是最后测试阶段的均值和标准差为：

上面简单理解就是：对于均值来说直接计算所有batch u值的平均值；然后对于标准偏差采用每个batch σB的无偏估计。最后测试阶段，BN的使用公式就是

BN可以用于一个神经网络的任何一个神经元上，文献中主要是把BN变换放在激活函数层的前面，所以前向传导的计算公式应该是：z=g(BN(Wu+b))，因为偏置参数经过BN层其实是不起作用的，因为也会被均值归一化（平移），所以这个参数就可以不要了，可以写成：z=g(BN(Wu))

BN在CNN上的使用。

上面所说的是BN对于每一个神经元都做处理，对于卷积神经网络来说呢？比如某一层卷积层的维度是：1001006，如果对每一个神经元都进行BN的话，那就需要600万*2的参数，这是相当恐怖的，所以其实卷积神经网络使用BN的时候，也做了权重共享的策略，把一张特征图当做一个神经元来处理。
比如某层的特征维度是[m,f,p,q],分别是batch_num：m,维度: f，特征尺寸p,q。CNN中可把每个特征图看成是一个特征处理（神经元），因此在使用BN的时候，Mini-batch size的大小就是mpq，对于每一个特征图只有一对科学系的参数。说白了，就是相当于求所有样本（batch_num：m个）所对应的的一个特征图的所有神经元的平均值和方差，然后对这一个神经元做归一化，假设特征维度只有一维的话，就相当于一个batch的所有图片像素的均值和方差来对每一张图片来做归一化，也是容易理解的。

最后编辑于：2018.05.22 16:22:02

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 217,509评论 6赞 504
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 92,806评论 3赞 394
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 163,875评论 0赞 354
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 58,441评论 1赞 293
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 67,488评论 6赞 392
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 51,365评论 1赞 302
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 40,190评论 3赞 418
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 39,062评论 0赞 276
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 45,500评论 1赞 314
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 37,706评论 3赞 335
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 39,834评论 1赞 347
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 35,559评论 5赞 345
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 41,167评论 3赞 328
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 31,779评论 0赞 22
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 32,912评论 1赞 269
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 47,958评论 2赞 370
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 44,779评论 2赞 354

2. 神经网络之BN层

背景

BN

使用

BN在CNN上的使用。

推荐阅读更多精彩内容