2019-06-27 Transformer-XL 笔记

  1. Transformer-XL是为了解决Transformer 对于Long-term 依赖问题而提出来了,那么Transformer对于Long-term dependency 的支持不好吗?

其实上面问题和“有了Transformer 之后还需要RNN吗?” 问题一样,要回答这个问题需要明确RNN 和Transformer的特点,Transformer天生就比RNN 快,并且Self-Attention 相当于是对有依赖的Tokens 建立短路,所有梯度更新自然要比RNN 快,但是Transformer获得高性能同时牺牲了RNN的Long-Term Dependency 功能,RNN 天生就具备将历史Token 作为当前Token的特征输入。所以Transformer 对于长文本来说是有硬伤的。故RNN 和Transformer 的取舍还要要依据具体任务而定。

  1. Al-Rfou 提出了基于Transformer 的长文本解决方案有问题问题吗?

有问题,否则就没有Transformer-XL了,具体问题如下:

  1. 将长文本分成长度相同的若干段,每个段独立训练,段和段之间没有信息交互,当前段看不到之前段的信息,造成Segment fragmentation 问题,并且段之间分开训练影响效果。
  2. 预测阶段根据段的长度,每次只移动一个Token位置,也就是说下一段和当前段的重合部分都需要重新计算,假设句子长度为L,段长为t,则计算次数为L(L-1),其中L(L-1)-(L/t)都是重复计算,效率低下。
  1. Transformer-XL提出有哪些创新点?

因为RNN 具有long-term能力,Transformer 对段内特征提取性能好,且计算速度快,所以Transformer-XL 主要是将RNN 和 Transformer 结合,并提出了Relative Position Encoding。它的Rnn Mechanism 和 Relative Position Encoding的结合不仅解决了Long-term dependency 问题而且还解决了segment fragmentation 问题。

  1. 什么是Segment-leve Recurrence?

Segment-leval 相对于vanilla Transformer 而言,输入发生了变化,Al-Rfou 提出的Segment Transformer 是将长句分成fixed-length 的segment,训练时各segment 之间没有信息交互,Transformer输入是原始Word Embedding + Position Encoder,Transformer-XL 为了解决信息交互问题,提出了Segment-Level Recurrence,每个Segment 计算完成之后,就将各层各Token的输出缓存,以备后续Segment使用。假设当前Segment,第一层输出为 (l0,l1,l2,l3),则下一个Segment 的输出除了vanilla 输入 还有前一层的输出结果,t0的输入包括(l1,l2,3),具体参看论文。

  1. Segment-leve Recurrence带来了什么好处?
  1. 训练时将pre-Segment 的信息传递到了after-Seggment,提高信息使用效率,对性能肯定有提升
  2. 提高Token的依赖长度,vanilla Trans 中Token 依赖长度就是Segment 长度,而Segment-Level Recurrence 的依赖长度随着层数提高程指数增长,大大提高long-term 感知范围
  3. 在预测阶段,可以以Segment 为单位处理输入,因为pre-Segment 的结果都在缓存中,after-Segment可以直接使用,不需要重新计算,将计算复杂度从L*(L-1)降低到L/t
  1. 什么是 Relateive Position Encoding?

RNN + Transformer 之后就需要解决一个段内Position Encoder 问题,因为如果使用Vanilla Transformer 的PE,则任意两个段相同位置的PE是相同的,这显然是不正确的因为他们在句子中的绝对位置并不一样,对最终结果的权重也不同,所以Transformer-XL提出了Relative Position Encoding,其主要是将原来的Transformer 的Position Encoding 替换成了相对位置Encoder;如果将Transformer Attention公式展开,就会发现一共4个部分,可以分别从上下文角度和位置角度看待,Trans-XL 是将展开的PE替换成了相对Encoder,将Key,拆成两部分分别对应Content Key 和Position Key,此外还有两个待训练的向量,表示在计算 Attention score时 Content,和Position的权重。

以上只是个人拙见,有错误处还请各位指出。。。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 214,776评论 6 496
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,527评论 3 389
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 160,361评论 0 350
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,430评论 1 288
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,511评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,544评论 1 293
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,561评论 3 414
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,315评论 0 270
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,763评论 1 307
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,070评论 2 330
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,235评论 1 343
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,911评论 5 338
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,554评论 3 322
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,173评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,424评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,106评论 2 365
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,103评论 2 352