深度语言模型-Transformer-XL

简介

2019年提出《Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context》论文,是在Transformer基础上的改进或变种,名字中的XL是extra long的缩写,顾名思义,旨在解决长序列问题。 这是一个一直困扰着前辈们很久的问题。

个人见解

看了好几遍论文,其实个人觉得最主要的一点,就是它采用的Masked Attention,并非Transformer中的Self-Attenttion。 二者有些区别。可以见本人的另一篇文章《深度语言模型-GPT》。

确定的Masked Attention后,接下来就好理解了。先看下Transformer-XL为什么被提出来的?

其实严肃的算下来,Transformer应该是Transformer-XL的祖父,其他的父亲是谁呢?正是Vanilla Transformer, 也是一种特征提取器,但是为父有三个问题:

  • 无法解决长距离依赖问题
    因为Transformer类的模型,如BERT一般都会给每个Segment(每句话)设置一个固定长度比如512,当segment(句子)长度小于512时,就会补充PAD。 然而当segment大于512时,就会截断后面的多余的部分。这就是问题所在,截断的部分如果很重要呢?所以长距离依赖问题,被你咔咔一下就截掉了,很不好呀。

  • segment间语义不完整
    之所以定为512很大的是由于效率问题,再有就是统一的固定长度,模型处理起来也方便。但是超过512的部分就截断,太武断了。 没有考虑到句子的自然边界。导致强硬分割出来的sengments在语义上不完整。如下面图,训练阶段,都是在自己本Segment内部产生依赖,不会依赖其他的Segment。

  • 计算慢
    之所计算慢,是因为在测试阶段,每次预测下一个单词,都需要重新构建一遍上下文,并从头开始计算,这样的计算速度非常慢。


    image.png

面对Transformer先辈们遗留下来的问题,后人Transformer-XL决定要改变一下,一穷二白,毕竟不是社会主义。

算法流程

Transformer-XL

Transformer-XL架构在vanilla Transformer的基础上引入了两点创新:

循环机制(Recurrence Mechanism)

    1. 解决长距离依赖问题
      训练和预测是,每次都是滑动窗口一下,但是窗口大小不变,则没有了固定长度定长问题。
    2. 解决segment间语义不完整问题
      如上图Transformer-XL中,可以发现,每个segment会引用到前面segment的节点,由绿线引过去。同时也会依赖自己segment的当前节点前面的节点,由灰线引过去。
    3. 解决计算慢的问题
      无非是用空间换时间,把前面算的状态都缓存起来,然后后面依赖前面的状态,拿来即用。
    公式1

    接下来讲解下,上面循环机制的公式:
    γ+1为当前segment, γ为前面的segment。
    其中


    变量1

    是计算K和V的重要因子,也就是计算Attention的重要因子, 可以发现其有两部分组成:

    • hγn-1 代表前面γ segment的n-1层隐状态。 其中SG为stop
      Gradient的缩写,这里的意义是只用前面的状态进行计算,但是不会反向进行梯度更新 。
    • hγ+1n-1 代表当前γ+1 segment的n-1层隐状态。
      然后根据 hγ+1n-1 、上图变量1、以及初始化的参数矩阵 WqTWkTWvT 分别得到qγ+1nkγ+1nvγ+1n
      最后在经过Transformer-Layer函数得到下一层的隐状态

相对位置编码(Relative Positional Encoding)。

上面的循环机制虽然好,但是直接引入循环机制是否有问题,有什么问题,怎么克服。

问题

最大的问题就是:位置编码问题,再用之前的问题编码就有问题了。 比如同一个词,在滑动窗口内部, 在前后两个segment里面都有,而且位置相同怎么办? 那不就相当于在滑动窗口内部出现了完全相同的两个东西了吗?表示序列中token的顺序关系就不复存在了, 打乱了序列顺序关系,学出来的模型肯定有问题,因为token的顺序对语义很重要。

解决

引入相对位置编码 Ri-j.

  • 那么往哪里引入?
    其实Transformer的Encoder中,不就是在Attention中需要用到么,其他的地方操作都是利用Attention的输出进行一些Normalize或者其他的的运算,所以改进下Attention就行了。
  • 怎么改的呢?
    看下面两个公式:


    图片1

图片2

第一个图片公式是vanilla Trm计算attention的方式,其实Attention的最初的公式用绝对位置时,是下面这样的,
图片3

分解展开之后就是图片1了。
针对图片1, 其中 Ex是token的Embedding。
U是绝对位置编码的embedding。WqWk分别为Q,K的初始参数矩阵。

而对于图片2,是Transform-XL计算attention的方式。做了以下变化:

  • 变化一
    首先将绝对位置编码U变成了Ri-j. 因为是Masked Attention方式,利用之前的序列, 所以当前处理的节点 i 肯定大于 j。而R采用正弦函数生成,不是学习得到的,优点是在预测时,可以使用比训练距离更长的位置向量。
  • 变化二
    公式c中: Ui * Wq 替换成了向量参数u ∈ R
    公式d中: Ui * Wq 替换成了向量参数v ∈ R
    之所以这么做,个人觉得就是把 绝对位置编码U干掉,不在公式任何地方出现。u和v都通过学习得到。
  • 变化三
    Wk 矩阵再细分成两组矩阵 Wk,EWk,R 分别代表基于内容的key向量和基于位置的key向量。

最终公式

image.png

注意点:

  • 主要区别在前三行。
  • 每一层在计算attention的时候,用的是相对位置编码。

特点

*优点
Transformer-XL 在 vanilla Transformer 模型基础上改进,通过引入循环机制和注意力机制,允许模型学习长期依赖性, 有以下几点优势:
1. 解决长距离依赖问题
2. 解决segment间语义不完整问题
3. 解决计算慢的问题
按照论文的描述,TransformerXL学习的依赖关系比RNN长80%,比传统Transformer长450%,在短序列和长序列上都获得了更好的性能,并且在评估阶段比传统Transformer快1800+倍。
XLNET以其为base,又搞了个新模型。

*缺点

  • 尚未广泛应用,尤其是NLP的一些常见类型任务,如QA等。
  • 由于空间换时间,提升效率,所以耗内存或者显存。并且在Github源码中提到,目前的sota结果是在TPU大集群上训练得出,应用成本高。
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 214,776评论 6 496
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,527评论 3 389
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 160,361评论 0 350
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,430评论 1 288
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,511评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,544评论 1 293
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,561评论 3 414
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,315评论 0 270
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,763评论 1 307
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,070评论 2 330
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,235评论 1 343
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,911评论 5 338
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,554评论 3 322
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,173评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,424评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,106评论 2 365
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,103评论 2 352

推荐阅读更多精彩内容