前馈神经网络的正向传播和反向传播算法的推导

单个神经元

    首先对本文中使用的符号进行解释,本文中出现的向量都默认为列向量m表示样本数量,n表示单个样本包含的输入特征数量,x^{(i)}_j表示第i个样本的第j个特征值。l表示从1开始计数的神经网络层号,L表示最大层号,K表示第L层包含的神经元数量(即输出特征数量)。n_l表示第l层包含的神经元数量。z^{(l)}_ja^{(l)}_j分别表示l层第j个神经元的状态值和激活值,z^{(l)}表示第l层中所有神经元的状态值组成的向量,a^{(l)}表示第l层中所有神经元的激活值组成的向量。w^{(l)}_{j,i}(l \geq 2)表示第l-1层的第i个神经元与第l层的第j个神经元连接的权重,b^{(l)}_j表示第l层的第j个神经元的偏置。w ^{(l)}_j表示第l层的第j个神经元与第l-1层中神经元连接的权重向量,\theta^{(l)}_j = ( \begin{bmatrix} b^{(l)}_j ,(w^{(l)}_j)^T \end{bmatrix} )^T表示该神经元的线性变换向量。W^{(l)}表示第l层中所有神经元的权重向量组成的权重矩阵,每个神经元的权重向量是它的一个列向量;\Theta^{(l)}表示第l层中所有神经元的线性变换向量组成的矩阵,每个神经元的线性变换向量是它的一个列向量。


    上面图片所示的是单个神经元,其中z^{(l)}_j是神经元的状态值,a^{(l)}_j是神经元的激活值,\theta ^{(l)}_j是从上一层神经网络到该神经元的线性变换向量(\theta ^{(l)}_j为偏置b^{(l)}_j和权重向量w^{(l)}_j组成的向量)。g为激活函数,本文中采用sigmoid函数作为激活函数,即g = (1 + e^{-z})^{-1},那么a^{(l)}_j = g(z^{(l)}_j)


一、正向传播算法

        神经网络的正向传播算法,从输入层到隐藏层最后到输出层,依次计算每个神经元的状态值和激活值。在输入层中,a^{(1)} = x^{(i)},那么第l层的第j个神经元的状态值和激活值有下面的递推公式:

    z^{(l)}_j = ( \theta^{(l)}_j )^T * \begin{bmatrix} 1 \\ a^{(l-1)} \end{bmatrix}, a^{(l)}_j = g(z^{(l)}_j) , l \geq 2

    第l层中所有神经元的状态值和激活值有下面的递推公式:

    z^{(l)} = ( \Theta^{(l)} )^T * \begin{bmatrix} 1 \\ a^{(l-1)}  \end{bmatrix} , a^{(l)} = g(z^{(l)}) , l \geq 2

    这样,根据输入层的激活值,使用递推公式就可以从输入层向后依次计算出每层神经网络的状态值和激活值。这就是正向传播算法。


二、反向传播算法

    神经网络的反向传播算法,用于计算损失函数关于每个权重w^{(l)}_{j,i}和偏置b^{(l)}_j的偏导数,与具体损失函数的形式无关。另外,假设本文中涉及的函数都是可微的,那么就可以使用链式法则来计算偏导数

    设J为损失函数,那么它是一个高度复合的函数,可以看作是关于w^{(l)}_{j,i}b^{(l)}_j的函数,也可以看作是关于z^{(l)}_j的函数。设\delta^{(l)}_i = \frac{\partial J}{\partial z^{(l)}_i} , l \geq 2是第l层的第i个神经元的误差率,下面我们来计算\delta^{(l)}_i

    第l层的第i个神经元与第l+1层的所有神经元相连,损失函数可以看作是关于z^{(l+1)}_j的函数,z^{(l+1)}_j又是z^{(l)}_i的函数,即损失函数作为复合函数有n_{j+1}条路径可以从z^{(l+1)}到达z^{(l)}_i,那么:

    \delta^{(l)}_i = \frac{\partial J}{\partial z^{(l)}_i}  = \sum_{j=1}^{n_{l+1}} (\frac{\partial J}{\partial z^{(l+1)}_j}  * \frac{\partial z^{(l+1)}_j}{\partial a^{(l)}_i} * \frac{\partial a^{(l)}_i}{\partial z^{(l)}_i})= ( \sum_{j=1}^{n_{l+1}} \delta^{(l+1)}_j * w^{(l+1)}_{j,i})* g^{(1)}(z^{(l)}_i)

    \frac{\partial J}{\partial w^{(l)}_{j,i}} = \frac{\partial J}{\partial z^{(l)}_j} * a^{(l-1)}_i = \delta^{(l)}_j * a^{(l-1)}_i

    \frac{\partial J}{\partial b^{(l)}_j} = \frac{\partial J}{\partial z^{(l)}_j} * 1 = \delta^{(l)}_j

    那么,第l层中所有神经元的误差率组成的向量,和,第l层的线性变换矩阵的偏导数,有下面的递推公式:

    \delta^{(l)} = W^{(l+1)} * \delta^{(l+1)} \odot  g^{(1)}(z^{(l)}) , l \geq 2

    \frac{\partial J}{\partial W^{(l)}} = a^{(l-1)} * (\delta^{(l)})^T

    \frac{\partial J}{\partial \Theta^{(l)}} = \begin{bmatrix}  1 \\ a^{(l-1)}  \end{bmatrix}  * ( \delta^{(l)} )^T

    这样,\delta^{(L)}可以由损失函数的形式直接求出,使用递推公式就可以从输出层向前依次计算出每层神经网络的误差率和线性变换矩阵的偏导数。这就是反向传播算法。


    如果使用sigmoid激活函数和下面形式的损失函数:

    J(\Theta) = -m^{-1} * \sum_{i}^m \sum_{k}^K ( y^{(i)}_k * ln(a^{(i)}_k) + (1 - y^{(i)}_k) * ln(1 - a^{(i)}_k ) ) + \frac{\lambda}{2m} \sum_{l=2}^L \sum_{j=1}^{n_l} \sum_{i=1}^{n_{l-1}} ( \theta^{(l)}_{j,i} )^2

    那么可以计算出只有单个样本时第L层的误差率为\delta^{(L)} = a^{(L)} - y(不考虑正则项),分别计算出单个样本时参数的偏导数,然后将所有样本的偏导数相加,即可计算出损失函数关于所有样本时参数的偏导数。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 211,376评论 6 491
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,126评论 2 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 156,966评论 0 347
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,432评论 1 283
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,519评论 6 385
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,792评论 1 290
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,933评论 3 406
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,701评论 0 266
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,143评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,488评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,626评论 1 340
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,292评论 4 329
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,896评论 3 313
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,742评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,977评论 1 265
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,324评论 2 360
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,494评论 2 348