百面机器学习｜第十章循环神经网络知识点(二)

前言

如果你能找到这里，真是我的幸运~这里是蓝白绛的学习笔记，本集合主要针对《百面机器学习——算法工程师带你去面试》这本书。主要记录我认为重要的知识点，希望对大家有帮助。

第十章循环神经网络

4、长短期记忆网络

长短期记忆网络(Long Short Term Memory，LSTM)是循环神经网络最知名和成功的扩展。

10-4 LSTM结构

LSTM加入了输入门 $i_t$ 、遗忘门 $f_t$ 、输出门 $o_t$ ，还有一个内部记忆单元 $c_t$ 。输入门控制当前计算的新状态以多大程度更新到记忆单元中；遗忘门控制前一步记忆单元中的信息有多大程度被遗忘掉；输出门控制当前的输出有多大程度上取决于当前的记忆单元。
经典的LSTM中，第 $t$ 步的更新公式为： $i_t=\sigma(W_ix_t+U_ih_{t-1}+b_i),$ $f_t=\sigma(W_fx_t+U_fh_{t-1}+b_f),$ $o_t=\sigma(W_ox_t+U_oh_{t-1}+b_o),$ $\tilde{c}_t={\rm Tanh}(W_cx_t+U_ch_{t-1}),$ $c_t=f_t\odot c_{t-1}+i_t\odot\tilde{c}_t,$ $h_t=o_t\odot{\rm Tanh}(c_t).$ 与传统的循环神经网络不同的是，从上一个记忆单元的状态 $c_{t-1}$ 到当前的状态 $c_t$ 的转移不一定完全取决于激活函数计算得到的状态，还由输入门和遗忘门来共同控制。
LSTM各模块激活函数的选择：遗忘门、输入门和输出门使用Sigmoid函数作为激活函数；在生成候选记忆 $\tilde{c}_t$ 时，使用Tanh作为激活函数。这两个激活函数都是饱和的，即在输入达到一定值时输出不再明显变化。如果用非饱和激活函数如ReLU，则难以实现门控效果。
Sigmoid函数输出在0~1之间，符合门控的物理定义；Tanh函数输出在-1~1之间，与大多数场景下特征分布是0中心吻合。此外，Tanh函数在输入为0附近相比Sigmoid函数有更大的梯度，通常使模型收敛更快。
在一些计算能力有限的设备，如可穿戴设备中，由于Sigmoid函数求指数需要一定的计算量，此时会使用0/1门(hard gate)让门控制输出为0或1的离散值，即当输入小于阈值时门控输出为0；大于阈值时输出为1。在性能下降不显著的情况下，减小计算量。
经典的LSTM在计算各门控时，通常用输入 $x_t$ 和隐层输出 $h_{t-1}$ 参与门控计算。最常见的变种是加入了窥孔机制，让记忆 $c_{t-1}$ 也参与到门控的计算中，此时输入门的更新方式变为 $i_t=\sigma(W_ix_t+U_ih_{t-1}+V_ic_{t-1}+b_i).$

5、Seq2Seq模型

Seq2Seq模型的核心思想是，通过深度神经网络将一个作为输入的序列映射为一个作为输出的序列，这一过程由编码输入和解码输出两个环节构成。在经典的实现中，编码器和解码器各由一个循环神经网络构成，既可以选择传统循环神经网络也可以使用LSTM、GRU等。Seq2Seq模型中，两个循环神经网络是共同训练的。

10-5 循环神经网络编解码结构图

10-5 机器翻译模型结构示意图
Seq2Seq模型最核心的部分是其解码部分。最基础的解码方法是贪心法，即选取一种度量标准后，每次都在当前状态下选择最佳的一个结果，直到结束。
贪心法的计算代价低，适合作为基准结果与其他方法相比较。贪心法获得的是一个局部最优解，由于实际问题的复杂性，该方法往往并不能取得最好的结果。
集束搜索是常见的改进算法，它时一种启发式算法。该方法会保存beam size(后面简写为 $b$ )各当前的较佳选择，然后解码时每一步根据保存的结果进行下一步扩展和排序，接着选择前 $b$ 各进行保存，循环迭代，直到结束时选择最佳的一个作为解码的结果。
当 $b$ 取1时回退化为贪心法。随着 $b$ 增大，搜索空间增大，最终效果会有所提升，但计算量也相应增大，实际应用中b取8~12为佳。
除了集束搜索，解码时使用堆叠的RNN、增加Dropout机制、与解码器之间建立残差连接等，均是常见的改进措施。
还有一个重要的改进是注意力机制，使得解码时每一步可以有针对性地关注与当前有关的编码结果，从而减小解码器输出表示的学习难度，也更容易学习到长期的依赖关系。此外，解码时还可以采用记忆网络等，从外界获取知识。

6、注意力机制

在Seq2Seq模型中，当前输出词由当前隐状态以及上一个输出词决定，即 $s_i=f(y_{i-1},s_{i-1}),$ $p(y_i|y_1,y_2,...,y_{i-1})=g(y_{i-1},s_i).$ 其中 $f$ 和 $g$ 是非线性变换，通常是多层神经网络； $y_i$ 是输出序列中的一个词， $s_i$ 是对应的隐状态。
实际使用中，随着输入序列的增长，模型的性能会显著下降。因为编码时输入序列的全部信息压缩到了一个向量表示中，随着序列增长，句子越前面的词的信息丢失就越严重。将源语言句子逆序输入，或者重复输入两遍来训练模型，可以得到一定的性能提升。使用LSTM也能够一定程度上缓解这个问题，但在实践中过长的序列仍然难以有很好的表现。同时，Seq2Seq模型的输出序列中，常常会损失部分输入序列的信息，这是因为在解码时，当前词及对应的源语言词的上下文信息和位置信息在解码过程中丢失了。
Seq2Seq中加入注意力机制也是为了解决过长序列的问题，在注意力机制中，仍然可以用普通的循环神经网络对输入序列进行解码，得到隐状态 $h_1,h_2,...,h_T$ 。但在解码时，每一个输出词都依赖于前一个隐状态以及输入序列每一个对应的隐状态。 $s_i=f(s_{i-1},y_{i-1},c_i),$ $p(y_i|y_1,y_2,...,y_{i-1})=g(y_{i-1},s_i,c_i).$ 其中 $c_i$ 为语境向量，是输入序列全部隐状态 $h_1,h_2,...,h_T$ 的加权和 $c_i=\sum_{j=1}^T\alpha_{ij}h_j.$ 其中注意力权重参数 $\alpha_{ij}$ 并不是一个固定权重，而是由另一个神经网络计算得到 $\alpha_{ij}=\frac{\exp(e_{ij})}{\sum_{k=1}^T\exp(e_{ik})},$ $e_{ij}=a(s_{i-1},h_j).$ 神经网络 $a$ 将上一个输出序列隐状态 $s_{i-1}$ 和输出序列隐状态 $h_j$ 作为输出，计算出一个 $x_j,y_j$ 对齐的值 $e_{ij}$ ，再归一化得到权重 $\alpha_{ij}$ 。
一个直观的解释是，在生成一个输出词时，会考虑每一个输入词和当前输出词的对齐关系，对齐越好的词，会有越大的权重，对生成当前输出词的影响也就越大。如下图所示，在互为翻译的词对上会有最大的权重。

10-6 注意力机制权重分布

小结

这是本章的第二部分，主要是LSTM、Seq2Seq模型和注意力机制，都非常好理解。其反向传播的计算还是挺难的，以后再整理。

结尾

如果您发现我的文章有任何错误，或对我的文章有什么好的建议，请联系我！如果您喜欢我的文章，请点喜欢~*我是蓝白绛，感谢你的阅读！

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 219,490评论 6赞 508
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 93,581评论 3赞 395
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 165,830评论 0赞 356
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 58,957评论 1赞 295
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 67,974评论 6赞 393
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 51,754评论 1赞 307
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 40,464评论 3赞 420
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 39,357评论 0赞 276
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 45,847评论 1赞 317
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 37,995评论 3赞 338
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 40,137评论 1赞 351
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 35,819评论 5赞 346
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 41,482评论 3赞 331
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 32,023评论 0赞 22
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 33,149评论 1赞 272
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 48,409评论 3赞 373
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 45,086评论 2赞 355

百面机器学习｜第十章循环神经网络知识点(二)

前言

第十章 循环神经网络

4、长短期记忆网络

5、Seq2Seq模型

6、注意力机制

小结

结尾

推荐阅读更多精彩内容

第十章循环神经网络