GoogLeNet的心路历程（三）

本文介绍关于GoogLeNet的续作，习惯称为inception v2，如下：

[v2] Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift，top5 error 4.8%

这篇文章做出的贡献不是一般的大，它提出了Batch Normalization（BN），以至于网上关于它的介绍铺天盖地，但中文优秀原创没几个，都是转载来转载去，挑几个好的比如：这个、这个、这个。我之前也写过一个谈谈Tensorflow的Batch Normalization，讲了讲BN在Tensorflow中的实现。

前人关于BN介绍的已经太详细了，我就不再重复的了。本文就是想讲一讲BN的反向传播，BN需要调节的参数有两个，γ 和 β，反向传播的计算方式就是下面这张图：

Batch Normalization反向传播

又是令人作呕的公式。

几乎所有介绍BN的文章都把这部分略过了，估计是怕讲不清楚，或者作者根本就不明白也不想深究。BN的理念很好理解，它的优良效果也很好理解，可BN的训练到底是怎么回事？怎么反向传播？Szegedy在论文原文里也只是一句话带过了：

During training we need to backpropagate the gradient of loss ℓ through this transformation, as well as compute the gradients with respect to the parameters of the BN transform. We use chain rule...

上面那一坨公式对于深度学习的老鸟们应该不会构成理解障碍，但对于接触不久的人群，简直就是天书！鉴于此，参考xiaia的cs231n_2016_winter作业，捋一捋BN的反向传播到底是怎么实现的，好有个直观理解。

下面的介绍基于cs231n_2016_winter/assignment2的全连接网络，隐藏层5个，每个100个神经元（hidden_dims = [100, 100, 100, 100, 100]），激活函数ReLU，每个隐藏层激活函数前都加了BN层，输出层是softmax-10，optimizer是adam。

Batch Normalization反向传播实现

根据上面那一坨公式，写出来的代码是这样子的：

def batchnorm_backward(dout, cache):
  """
  Backward pass for batch normalization.
  
  For this implementation, you should write out a computation graph for
  batch normalization on paper and propagate gradients backward through
  intermediate nodes.
  
  Inputs:
  - dout: Upstream derivatives, of shape (N, D)
  - cache: Variable of intermediates from batchnorm_forward.
  
  Returns a tuple of:
  - dx: Gradient with respect to inputs x, of shape (N, D)
  - dgamma: Gradient with respect to scale parameter gamma, of shape (D,)
  - dbeta: Gradient with respect to shift parameter beta, of shape (D,)
  """
  dx, dgamma, dbeta = None, None, None
  
  x, gamma, beta, var, miu, x_hat, eps = cache
  m = len(x)
  dx_hat = dout * gamma
  dvar = np.sum(dx_hat * (x-miu), axis=0) * -0.5 * (var + eps) ** (-1.5)
  dmiu = np.sum(dx_hat * (-1) / np.sqrt(var+eps), axis=0) + dvar * np.mean(-2 * (x - miu), axis=0)
  dx = dx_hat / np.sqrt(var + eps) + dvar * 2 * (x - miu) / m + dmiu / m
  dgamma = np.sum(dout * x_hat, axis=0)
  dbeta = np.sum(dout, axis=0)
  
  return dx, dgamma, dbeta

Tensorflow的源码里应该也会有相应的实现，以后我再找找看。

上面的batchnorm_backward函数就是BN反向传播的python实现版本，仅仅是把公式改写成了python语言而已，这篇博文对代码做了一些解释，可以参考，这里不再赘述。

问题就来了，dout是个什么东西？作为函数的输入，它怎么来的？我再翻一翻源码，找到了这个函数：

def softmax_loss(x, y):
  """
  Computes the loss and gradient for softmax classification.

  Inputs:
  - x: Input data, of shape (N, C) where x[i, j] is the score for the jth class
    for the ith input.
  - y: Vector of labels, of shape (N,) where y[i] is the label for x[i] and
    0 <= y[i] < C

  Returns a tuple of:
  - loss: Scalar giving the loss
  - dx: Gradient of the loss with respect to x
  """
  probs = np.exp(x - np.max(x, axis=1, keepdims=True))
  probs /= np.sum(probs, axis=1, keepdims=True)
  N = x.shape[0]
  loss = -np.sum(np.log(probs[np.arange(N), y])) / N
  dx = probs.copy()
  dx[np.arange(N), y] -= 1
  dx /= N
  return loss, dx

softmax_loss用来计算最后softmax层的loss和gradient，函数返回两个值，一个是loss，一个是dx（gradient），这个dx就是dout的源头！也是反向传播的最最最开始的地方！它是这么得来的：

dx = probs.copy()
dx[np.arange(N), y] -= 1

注：其中probs是softmax的输出结果。

上面的程序代码是如此的简洁！让人完全蒙圈！逼得我重温了一下反向传播算法，输出层的残差是这么算的：

sigmoid输出层残差计算

代码里的f'(z)去哪儿了？？？或者这种计算方式是softmax独有？深深的感觉到了自己基础知识的薄弱。我又查阅了Neural Networks and Deep Learning，终于找到了，其中的公式 (84) 是 softmax 层的残差计算方法，如下：

softmax 残差计算

可是作者让读者自己推倒公式！又蒙圈了，有兴趣的可以自己推倒试一试。

简而言之，dx就是最后一层的gradient，这个dx要一层一层的反向传播回去，不同层的反向传播计算方式也不同，比如ReLU的反向传播计算是这样的：

def relu_backward(dout, cache):
  """
  Computes the backward pass for a layer of rectified linear units (ReLUs).

  Input:
  - dout: Upstream derivatives, of any shape
  - cache: Input x, of same shape as dout

  Returns:
  - dx: Gradient with respect to x
  """
  dx, x = None, cache

  dx = dout
  dx[x <= 0] = 0
  
  return dx

当然还有 dropout_backward、affine_backward（全连层）还有上面的 batchnorm_backward 计算函数，不再一一列举。反向传播其实就是把gradient作为输入，按照前向传播相反的方向再计算一遍而已。

总的来讲，加入BN层的反向传播没有发生根本的改变，只是多了一个反向计算过程（batchnorm_backward函数）而已，上述网络的最后几层的前向和反向传播示意图如下：

正反传播

图也画了，代码也给了，公式还是没明白，不深究了。

总之，加入BN层的网络，反向传播的时候也相应的多了BN-back，其中的dgamma、dbeta会根据反向传播的gradient（或者叫残差）计算出来，再利用 optimizer 更新 γ 和 β。

最后编辑于：2017.12.03 14:54:01

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 216,372评论 6赞 498
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 92,368评论 3赞 392
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 162,415评论 0赞 353
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 58,157评论 1赞 292
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 67,171评论 6赞 388
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 51,125评论 1赞 297
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 40,028评论 3赞 417
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 38,887评论 0赞 274
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 45,310评论 1赞 310
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 37,533评论 2赞 332
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 39,690评论 1赞 348
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 35,411评论 5赞 343
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 41,004评论 3赞 325
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 31,659评论 0赞 22
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 32,812评论 1赞 268
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 47,693评论 2赞 368
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 44,577评论 2赞 353

GoogLeNet的心路历程（三）

Batch Normalization反向传播实现

推荐阅读更多精彩内容