简介
2019年提出《Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context》论文,是在Transformer基础上的改进或变种,名字中的XL是extra long的缩写,顾名思义,旨在解决长序列问题。 这是一个一直困扰着前辈们很久的问题。
个人见解
看了好几遍论文,其实个人觉得最主要的一点,就是它采用的Masked Attention,并非Transformer中的Self-Attenttion。 二者有些区别。可以见本人的另一篇文章《深度语言模型-GPT》。
确定的Masked Attention后,接下来就好理解了。先看下Transformer-XL为什么被提出来的?
其实严肃的算下来,Transformer应该是Transformer-XL的祖父,其他的父亲是谁呢?正是Vanilla Transformer, 也是一种特征提取器,但是为父有三个问题:
无法解决长距离依赖问题
因为Transformer类的模型,如BERT一般都会给每个Segment(每句话)设置一个固定长度比如512,当segment(句子)长度小于512时,就会补充PAD。 然而当segment大于512时,就会截断后面的多余的部分。这就是问题所在,截断的部分如果很重要呢?所以长距离依赖问题,被你咔咔一下就截掉了,很不好呀。segment间语义不完整
之所以定为512很大的是由于效率问题,再有就是统一的固定长度,模型处理起来也方便。但是超过512的部分就截断,太武断了。 没有考虑到句子的自然边界。导致强硬分割出来的sengments在语义上不完整。如下面图,训练阶段,都是在自己本Segment内部产生依赖,不会依赖其他的Segment。-
计算慢
之所计算慢,是因为在测试阶段,每次预测下一个单词,都需要重新构建一遍上下文,并从头开始计算,这样的计算速度非常慢。
面对Transformer先辈们遗留下来的问题,后人Transformer-XL决定要改变一下,一穷二白,毕竟不是社会主义。
算法流程
Transformer-XL架构在vanilla Transformer的基础上引入了两点创新:
循环机制(Recurrence Mechanism)
-
- 解决长距离依赖问题
训练和预测是,每次都是滑动窗口一下,但是窗口大小不变,则没有了固定长度定长问题。 - 解决segment间语义不完整问题
如上图Transformer-XL中,可以发现,每个segment会引用到前面segment的节点,由绿线引过去。同时也会依赖自己segment的当前节点前面的节点,由灰线引过去。 - 解决计算慢的问题
无非是用空间换时间,把前面算的状态都缓存起来,然后后面依赖前面的状态,拿来即用。
接下来讲解下,上面循环机制的公式:
γ+1为当前segment, γ为前面的segment。
其中
是计算K和V的重要因子,也就是计算Attention的重要因子, 可以发现其有两部分组成:
-
hγn-1 代表前面γ segment的n-1层隐状态。 其中SG为stop
Gradient的缩写,这里的意义是只用前面的状态进行计算,但是不会反向进行梯度更新 。 -
hγ+1n-1 代表当前γ+1 segment的n-1层隐状态。
然后根据 hγ+1n-1 、上图变量1、以及初始化的参数矩阵 WqT, WkT, WvT 分别得到qγ+1n,kγ+1n, vγ+1n,
最后在经过Transformer-Layer函数得到下一层的隐状态
- 解决长距离依赖问题
相对位置编码(Relative Positional Encoding)。
上面的循环机制虽然好,但是直接引入循环机制是否有问题,有什么问题,怎么克服。
问题
最大的问题就是:位置编码问题,再用之前的问题编码就有问题了。 比如同一个词,在滑动窗口内部, 在前后两个segment里面都有,而且位置相同怎么办? 那不就相当于在滑动窗口内部出现了完全相同的两个东西了吗?表示序列中token的顺序关系就不复存在了, 打乱了序列顺序关系,学出来的模型肯定有问题,因为token的顺序对语义很重要。
解决
引入相对位置编码 Ri-j.
- 那么往哪里引入?
其实Transformer的Encoder中,不就是在Attention中需要用到么,其他的地方操作都是利用Attention的输出进行一些Normalize或者其他的的运算,所以改进下Attention就行了。 -
怎么改的呢?
看下面两个公式:
第一个图片公式是vanilla Trm计算attention的方式,其实Attention的最初的公式用绝对位置时,是下面这样的,
分解展开之后就是图片1了。
针对图片1, 其中 Ex是token的Embedding。
U是绝对位置编码的embedding。Wq, Wk分别为Q,K的初始参数矩阵。
而对于图片2,是Transform-XL计算attention的方式。做了以下变化:
- 变化一
首先将绝对位置编码U变成了Ri-j. 因为是Masked Attention方式,利用之前的序列, 所以当前处理的节点 i 肯定大于 j。而R采用正弦函数生成,不是学习得到的,优点是在预测时,可以使用比训练距离更长的位置向量。 - 变化二
公式c中: Ui * Wq 替换成了向量参数u ∈ R
公式d中: Ui * Wq 替换成了向量参数v ∈ R
之所以这么做,个人觉得就是把 绝对位置编码U干掉,不在公式任何地方出现。u和v都通过学习得到。 - 变化三
将 Wk 矩阵再细分成两组矩阵 Wk,E ,Wk,R 分别代表基于内容的key向量和基于位置的key向量。
最终公式
注意点:
- 主要区别在前三行。
- 每一层在计算attention的时候,用的是相对位置编码。
特点
*优点
Transformer-XL 在 vanilla Transformer 模型基础上改进,通过引入循环机制和注意力机制,允许模型学习长期依赖性, 有以下几点优势:
1. 解决长距离依赖问题
2. 解决segment间语义不完整问题
3. 解决计算慢的问题
按照论文的描述,TransformerXL学习的依赖关系比RNN长80%,比传统Transformer长450%,在短序列和长序列上都获得了更好的性能,并且在评估阶段比传统Transformer快1800+倍。
XLNET以其为base,又搞了个新模型。
*缺点
- 尚未广泛应用,尤其是NLP的一些常见类型任务,如QA等。
- 由于空间换时间,提升效率,所以耗内存或者显存。并且在Github源码中提到,目前的sota结果是在TPU大集群上训练得出,应用成本高。