深度学习与图像识别34 神经网络基础15  误差反向传播

前面介绍了神经网络,并通过数值微分计算了神经网络的权重参数以及偏置量(bias)。

虽然数值微分实现起来比较容易,但是在计算上花费的时间却比较多。

下面重点介绍一个高效计算权重以及偏置量的梯度方法——误差反向传播法。

要点具体如下。

·激活函数层的实现。

·Affine层的实现。

·Softmax层的实现。

·整体实现。

·正则化惩罚。

激活函数层的实现 通过计算图来理解误差反向传播法这个思想是参考了CS231n(斯坦福大学的深度学习课程),计算图被定义为有向图,其中,节点对应于数学运算,计算图是表达和评估数学表达式的一种方式。

例如, 我们可以绘制上述数学等式的计算图具有一个加法节点,这个节点有两个输入变量x和y,以及一个输出q。

下面我们再来列举一个示例,稍微复杂一些,等式的计算图,(x+y)*z的计算图ReLU反向传播实现 现在,我们利用计算图的思路来实现ReLU激活函数的反向传播,首先我们回顾一下激活函数ReLU的前向传播:

如果前向传播时的输入x大于0,则将这个x原封不动地传给下一层;如果输入的x小于0,则将0传给下一层。具体表达方程式如下:

通过上述方程式,我们可以求出y关于x的导数,其中,dout为上一层传过来的导数:

ReLU前向传播利用Python实现的代码如下:

class Relu:

   def __init__(self):

       self.x = None

   def forward(self,x):

       self.x = np.maximum(0,x)

       out = self.x

       return out

   def backward(self,dout):

       dx = dout

dx[self.x <=0] = 0

       return dx

Sigmoid反向传播实现 接下来,我们来实现Sigmoid函数的反向传播,Sigmoid函数公式如下所示:

如果使用计算图来表示的话,Sigmoid计算图 现在,从右向左依次解说如下。 对于第一个步骤y=1/1+exp(-x),可以设置为x=1+exp(-x),那么,又因为,所以最后。

对于第二个步骤1+exp(-x),进行反向传播时,会将上游的值-y2乘以本阶段的导数,对于1+exp(-x)求导得到的导数为-exp(-x),因为e-x的导数为-e-x。

所以第二步的导数为-y2*(-e-x)=y2*(e-x)。 第三个步骤的加法运算不会改变导数值,接着-x的导数为-1,所以对于这个阶段需要将y2*(e-x)*-1,最后乘法运算还需要乘以-1。

所以最终求得的导数为y2*exp(-x),进行一下整理得到的输出为y(1-y),最后乘以上一层的求导结果,就会作为本阶段Sigmoid函数的求导结果了,最后将这个结果传给下一层(一般来说应该是Affine层)。

对于Python实现来说,具体实现代码如下。  

class _sigmoid:

   def __init__(self):

       self.out = None

def forward(self,x):

       out = 1/ (1+np.exp(-x))

       self.out = out

       return out

   def backward(self,dout):

       dx = dout *self.out*(1-self.out)

       return dx

Affine层的实现 Affine的英文翻译是神经网络中的一个全连接层。

仿射(Affine)的意思是前面一层中的每一个神经元都连接到当前层中的每一个神经元。在许多方面,这是神经网络的“标准”层

仿射层通常被加在卷积神经网络或循环神经网络中作为最终预测前的输出的顶层。

仿射层的一般形式为y=f(W*x+b),其中,x是层输入,w是参数,b是一个偏置量,f是一个非线性激活函数。

对X(矩阵)的求导,可以参看如下公式(此处省略推导过程)需要注意的是,X和形状相同,W和的形状相同):    之前列举的示例是对于一个X,如果是多个X,那么其形状将从原来的(2,)变为(N,2)。

如果加上偏置量的话,偏置量会被加到各个X·W中去,比如N=3(数据为3个的时候),偏置量会被分别加到这3个数据中去,因此偏置量,f是一个非线性激活函数。

对X(矩阵)的求导,可以参看如下公式(此处省略推导过程)需要注意的是,X和形状相同,W和的形状相同):    之前列举的示例是对于一个X,如果是多个X,那么其形状将从原来的(2,)变为(N,2)。

如果加上偏置量的话,偏置量会被加到各个X·W中去,比如N=3(数据为3个的时候),偏置量会被分别加到这3个数据中去,因此偏置量的反向传播会对这三个数据的导数按照第0轴的方向上的元素进行求和。

其中每一个偏置量的求导公式都可以表示为:    对于上述所讲的内容,其Python实现代码如下:

class Affine:

   def __init__(self,W,b):

       self.W = W

       self.b = b

       self.x = None

       self.dW = None

       self.db = None

   def forward(self,x):

       self.x = x

       out = np.dot(x,self.W) + self.b

       return out

   def backward(self,dout):

       dx = np.dot(dout,self.W.T)

       self.dW = np.dot(self.x.T,dout)

       self.db = np.sum(dout,axis=0)

       return dx

Softmaxwithloss层的实现 假设网络最后一层的输出为z,经过Softmax后输出为p,真实标签为y(one-hot编码),其中,C表示共有C个类别,那么损失函数为:

因为p是z经过Softmax函数计算后的输出,即p=softmax(z)。其中,    求导过程分为i=j和i!=j两种情况,分别如下:

当i=j的时候,得到的求导解为pj(1-pj)。 当i!=j的时候,得到的求导解为-pipj。 最终整理一下可以得到,Loss对z的求导为:    其Python的实现代码具体如下:

class SoftmaxWithLoss:

   def __init__(self):

       self.loss = None #损失

       self.p = None # Softmax的输出

       self.y = None #监督数据代表真值,one-hot vector

   def forward(self,x,y):

       self.y = y

       self.p = softmax(x)

       self.loss = cross_entropy_error(self.p,self.y)

       return self.loss

   def backward(self,dout=1):

       batch_size = self.y.shape[0]

dx = (self.p - self.y) / batch_size

       return dx  

上述代码实现是利用了之前实现的Softmax和cross_entropy_error函数,值得注意的是,进行反向传播的时候,应将需要传播的值除以批的大小(batch_size),并将单个数据的误差传递给前面的层。

基于数值微分和误差反向传播的比较 到目前为止,我们介绍了两种求梯度的方法:

一种是基于数值微分的方法,另一种是基于误差反向传播的方法,对于数值微分来说,它的计算非常耗费时间,如果读者对于误差反向传播掌握得非常好的话,那么根本就没有必要使用到数值微分。现在的问题是,我们为什么要介绍数值微分呢?

原因很简单,数值微分的优点就在于其实现起来非常简单,一般情况下,数值微分实现起来不太容易出错,而误差反向传播法的实现就非常复杂,且很容易出错,所以经常会比较数值微分和误差反向传播的结果(两者的结果应该是非常接近的),以确认我们书写的反向传播逻辑是正确的。这样的操作就称为梯度确认(gradientcheck)。

数值微分和误差反向传播这两者的比较误差应该是非常小的,实现代码具体如下:


from collections import OrderedDict

class TwoLayerNet:

   def __init__(self, input_size, hidden_size, output_size, weight_init_std = 0.01):

       #初始化权重

       self.params = {}

       self.params['W1'] = weight_init_std * np.random.randn(input_size, hidden_size)

       self.params['b1'] = np.zeros(hidden_size)

       self.params['W2'] = weight_init_std * np.random.randn(hidden_size, output_size)

       self.params['b2'] = np.zeros(output_size)

       #生成层

       self.layers = OrderedDict()

       self.layers['Affine1'] = Affine(self.params['W1'], self.params['b1'])

       self.layers['Relu1'] = Relu()

       self.layers['Affine2'] = Affine(self.params['W2'], self.params['b2'])

       self.layers['Relu2'] = Relu()

       self.lastLayer = SoftmaxWithLoss()

   def predict(self, x):

       for layer in self.layers.values():

           x = layer.forward(x)

       return x

   # x:输入数据, y:监督数据

   def loss(self, x, y):

       p = self.predict(x)

       return self.lastLayer.forward(p, y)

   def accuracy(self, x, y):

       p = self.predict(x)

       p = np.argmax(y, axis=1)

       if y.ndim != 1 : y = np.argmax(y, axis=1)

       accuracy = np.sum(p == y) / float(x.shape[0])

       return accuracy

   # x:输入数据, y:监督数据

   def numerical_gradient(self, x, y):

       loss_W = lambda W: self.loss(x, y)

       grads = {}

       grads['W1'] = numerical_gradient(loss_W, self.params['W1'])

       grads['b1'] = numerical_gradient(loss_W, self.params['b1'])

       grads['W2'] = numerical_gradient(loss_W, self.params['W2'])

       grads['b2'] = numerical_gradient(loss_W, self.params['b2'])

       return grads

   def gradient(self, x, y):

       # forward

       self.loss(x, y)

       # backward

       dout = 1

       dout = self.lastLayer.backward(dout)

       layers = list(self.layers.values())

       layers.reverse()

       for layer in layers:

           dout = layer.backward(dout)

       #设定

       grads = {}

       grads['W1'], grads['b1'] = self.layers['Affine1'].dW,  self.layers['Affine1'].db

       grads['W2'], grads['b2'] = self.layers['Affine2'].dW, self.layers['Affine2'].db

       return grads

network = TwoLayerNet(input_size=784,hidden_size=50,output_size=10)

x_batch = x_train[:100]

y_batch = y_train[:100]

grad_numerical = network.numerical_gradient(x_batch,y_batch)

grad_backprop = network.gradient(x_batch,y_batch)

for key in grad_numerical.keys():

   diff = np.average( np.abs(grad_backprop[key] - grad_numerical[key]) )

   print(key + ":" + str(diff))  从以下输出结果中,我们可以观察到,它们两者的差值并不是很大。

W1:5.9329106471124405e-05

b1:1.844024470884823e-09

W2:0.0007755803070111151

b2:9.234723605880401e-08

这里需要补充一点的是,我们在代码中使用了OrderedDict这个类,OrderedDict是有序字典,“有序”是指它可以“记住”我们向这个类里添加元素的顺序,因此神经网络的前向传播只需要按照添加元素的顺序调用各层的Forward方法即可完成处理,而相对的误差反向传播则只需要按照前向传播相反的顺序调用各层的backward方法即可。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 216,039评论 6 498
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,223评论 3 392
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 161,916评论 0 351
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,009评论 1 291
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,030评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,011评论 1 295
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,934评论 3 416
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,754评论 0 271
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,202评论 1 309
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,433评论 2 331
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,590评论 1 346
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,321评论 5 342
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,917评论 3 325
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,568评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,738评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,583评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,482评论 2 352

推荐阅读更多精彩内容