循环神经网络

1. 基本定义

1.1 什么是循环神经网络

循环神经网络英文名称为 (Recurrent Neural Network, RNN)，其通过使用带自反馈的神经元，能够处理任意长度的时序数据。

给定输入时序序列
$X=(x_1,x_2,...x_t,...x_T)$
式中， $X$ 表示一段时序数据， $T$ 为时间长度

以一段英文段落为例，其时序数据可以表示为：

I love deep learning

[1 0 0 0]', [0 1 0 0]', [0 0 1 0]', [0 0 0 1]'

若是一段视频，将其每一帧通过CNN网络处理得到相应的编码向量

循环神经网络通过以下公式更新隐藏层的活性值 $h_{t}$
$h_{t}=f(h_{t-1},x_{t})$

01循环神经网络.png

循环神经网络图示

1.2 循环神经网络的常用应用场景

机器翻译
语言生成
图像描述及理解
视频理解

2.RNN

2.1RNN的基本模型

RNN的基本模型如下图所示，为便于理解，图中将RNN的模型展开，按照时序方向对其前向传播流程进行介绍

02RNN的前向传播过程.png

RNN的基本模型

在网络的初始阶段，输入零向量 $a_{0}$ 作为初始隐藏层的激活值
基于 $a^{<0>}$ 及 $x^{<1>}$ 计算下一时序的隐藏层的激活值 $a^{<1>}$
利用 $a^{<1>}$ 计算预测值 $y^{<1>}$
在剩下的时序内循环计算隐藏层的激活值及相应的预测值

利用数学表达式整个过程可以变得更加清晰，RNN的前向传播公式如下：
$a^{<1>}=tanh(w_{aa}a^{0}+w_{ax}x^{0}+b_a)$

$y^{1}=softmax(w_{ya}a^{1}+b_y)$

$a^{<t>}=tanh(w_{aa}a^{t-1}+w_{ax}x^{t}+b_a)$

$y^{t}=softmax(w_{ya}a^{t}+b_y)$

将上述过程整合到一个RNN cell中，可以表示为如下图所示的过程：

03RNN的前向传播示意图.png

RNN的前向传播示意图

缺陷:

没有利用到模型后续的信息，可以通过双向RNN网络进行优化

2.2RNN的反向传播算法

RNN主要有两种计算梯度的方式：随时间反向传播（BPTT）和实时循环学习法（RTRL）算法

本文中主要介绍随时间反向传播的方法（BackPropagation Through Time）

RNN的损失函数与任务有关，对于同步的序列对序列任务，其loss可以用交叉熵公式表示
$L^{t}(\widehat y^{<t>},y^{t})=-y^{<t>}log(\widehat y^{<t>})-(1-y^{<t>})log(1-\widehat y^{<t>})$

$L(\widehat y,y)=\sum_{t=1}^{T_y}L^{t}(\widehat y^{<t>},y^{t})$

然后通过BPTT算法便可以进行梯度的反向传播计算

2.3RNN的梯度消失与爆炸

梯度爆炸的解决方法：梯度修剪

梯度消失的解决方法：增加长程依赖 LSTM,GRU

3.GRU

GRU的基本思路：增加相关门（Relate Gate）和更新门（Update Gate），进而使得RNN单元具有记忆能力

首先从数学角度对GRU的前向传播过程进行介绍，具体公式如下：
$\tilde C^{<t>}=tanh(W_{c}[\Gamma_{r}*C^{<t-1>},x^{<t>}]+b_c)$

$\Gamma_u=\delta(W_u[C^{<t-1>},x^{<t>}]+b_u)$

$\Gamma_r=\delta(W_r[C^{<t-1>},x^{<t>}]+b_r)$

$C^{<t>}=\Gamma_u*\tilde C^{<t>}+(1-\Gamma_u) C^{<t-1>}$

$a^{<t>}=c^{<t>}$

$y^{<t>}=softmax(a^{<t>})$

公式中各变量的含义：

$\tilde C^{<t>}$ 重写记忆细胞的候选值

$C^{<t>}$ 记忆细胞在t时间步的取值

$\Gamma_r$ 相关门

$\Gamma_u$ 更新门

将上述数学公式转化为图像，可得

04GRU的前向传播示意图.png

GRU Cell的前向传播流程

4.LSTM

4.1LSTM的基本原理

LSTM意为长短时记忆网络（Long Short-Term Memory Network，LSTM），可以有效地解决简单神经网络的梯度消失和爆炸问题

在LSTM中，与GRU主要有两点不同

LSTM中有三个门：更新门，遗忘门，输出门

其中三个门的作用分别为：

更新门 $\Gamma_u$ ：控制当前时刻的候选状态 $\tilde c^{<t>}$ 有多少信息需要保存

遗忘门 $\Gamma_f$ ：控制上一时刻的内部状态 $c^{<t-1>}$ 有多少信息需要遗忘

输出门 $\Gamma_o$ ：控制当前时刻的内部状态 $c^{<t>}$ 有多少信息需要被输出给外部状态 $a^{<t>}$
LSTM中 $a^{<t>}$ 与 $c^{<t>}$ 不再相等

同样，先从数学公式入手，对LSTM的前向传播过程进行了解
$\tilde c^{<t>}=tanh(W_{c}[a^{<t-1>},x^{<t>}]+b_c)$

$\Gamma_u=\delta (W_u[a^{<t-1>},x^{<t>}]+b_u)$

$\Gamma_f=\delta(W_f[a^{<t-1>},x^{<t>}]+b_f)$

$\Gamma_o=\delta(W_o[a^{<t-1>},x^{<t>}]+b_o)$

$c^{<t>}=\Gamma_u*\tilde C^{<t>}+\Gamma_f*c^{<t-1>}$

$a^{<t>}=\Gamma_o*tanh(c^{<t>})$

基于数学公式的过程，可将LSTM CELL的前向传播过程总结为（图片借用于nndl）：

05LSTM的前向传播示意图.png

LSTM Cell的前向传播示意图

4.2如何理解长短时记忆

从上图中可以看出，LSTM在前向传播的过程中传输了两个状态：内部状态 $c$ 以及外部状态 $h$ ，在整个传播过程中外部状态（隐状态） $h$ 每个时刻都会被重写，因此可以看作一种短时记忆，而内部状态 $c$ 可以在某个时刻捕捉一些关键信息，并将此信息保存一段时间间隔，可以看作一种长时记忆（长的短时记忆）

此外，在LSTM网络初始化训练的时候，需要手动将遗忘门的数值设置的大一些，否则在参数初始化的时候，遗忘门的数据会被初始化为一个很小的值，前一时刻的内部状态 $c^{<t-1>}$ 大部分都会丢失，这样网络很难获取到长距离的依赖信息，并且相邻时间间隔的梯度会非常小，导致梯度弥散问题，因此遗忘门的偏置变量 $b_f$ 的初始值一般很大，取1或2

4.3LSTM网络的各种变体

无遗忘门的LSTM网络

将 $\Gamma_f$ 设置为1即可，但是长度非常的大的时候会造成记忆单元的饱和，降低性能

peephole链接

三个门不仅依赖于 $x^{<t>}$ 和 $a^{<t-1>}$ ，也依赖于 $c^{t-1}$

耦合更新门和遗忘门

将两者合并为一个门，即：
$\Gamma_f=1-\Gamma_u$

5.深层循环神经网络

首先，我们要理解什么是深层的RNN，对于单个的RNN cell，若将其在时间维度上展开，其深度与时间维度的长度成正比，但若将一个RNN cell看作为单个从 $x->y$ 的映射函数，则单个cell实际上是很浅显的一层，因此深层循环神经网络要做的就是把多个RNN cell组合起来，换句话说，就是增加从输入 $x^{<t>}$ 到输出 $y^{<t>}$ 的路径，使得网络的深度更深。