! !「自然语言处理(NLP)」ACL&&FaceBook(Adaptive Attention Span)&& Tree Transformer

来源:AINLPer微信公众号
编辑: ShuYini
校稿: ShuYini
时间: 2019-8-19

引言

     本次的两篇文章主要和Attention相关。第一篇是FaceBook AI团队基于Transformer提出的一种自适应注意力跨度算法,该算法在Transform的时候能够显著的扩展上下文的跨度。第二篇提出了一种新的Tree Transformer模型,该模型只需通过注意力机制进行递归遍历,就可以捕获用于选区树的短语语法,以及用于依赖树的单词依赖性。

First Blood

TILE: Adaptive Attention Span in Transformers
Contributor : FaceBook AI研究
Paper: https://www.aclweb.org/anthology/P19-1032
Code: None

文章摘要

    提出一种新的自注意力机制,并且可以学习其最佳注意力广度。在使用Transformer的时候,能够显著扩展上下文的跨度,同时保持对其内存占用和计算时间的控制。在字符级语言建模任务上,验证了本文方法的有效性,通过使用最大8k字符上下文,我们在text8和enwiki8上实现了最先进的性能。

模型概要

    提出了一个替代自我注意层,以减少变压器的计算负担的方法。我们的构建的层学习他们最佳上下文大小,从而形成一个网络,在这个网络中,每个注意力层收集关于它们自己上下文的信息。在实践中,观察到Transformer在低级层中具有小的上下文而在最后层中具有非常大的上下文。通过这种修改,我们可以将输入序列扩展到超过8k的tokens,而不会损失性能,也不会增加计算或内存成本。在字符级语言建模的任务中对本文方法进行了验证,结果显示达到了最先进的性能。

模型介绍

顺序Transform网络

语言建模的目的是为了将概率分配给tokens序列(w_1,...,W_T)的问题。


    Transformer的核心机制是自注意层,它由多个并行工作的注意头组成。每个注意头都将Bahdanauetal.(2015)的注意机制应用于它自己的输入。给定一个序列中的token t,那么首先会计算它与过去的相似性。然后通过softmax函数得到这些相似性的注意权值。最后通过对过去注意力权重表示进行加权平均,输出一个向量。
    对于Attention不是很了解的可以看一下我之前发的关于attention的一篇文章。「自然语言处理(NLP)」良心推荐:一文了解注意力机制(Attention)

自适应注意广度

    Transform的每个注意力头共享相同的注意力广度s,这假设每个注意力头需要相同的注意广度来形成其表示形式。如下图所示,

    但是以上这种假设不适用于字符级语言建模:为此本文提出独立地学习每个头的注意广度,以减少它们的计算和内存开销。
    作为扩展,考虑一个动态计算方法,其中注意跨度根据当前输入动态变化。在时间步骤t,注意力头的跨度参数zt是以向量v、标量b为输入的函数,例如:。我们用与以前相同的方式惩罚,并与其余参数一起学习参数v,b。

实验结果

    基于text8的字符级语言建模

    ENWIK8上的结果
    12层模型中每个注意点的自适应跨度
作为输入序列函数的平均动态注意跨度

Double Kill

TILE: You Only Need Attention to Traverse Trees
Contributor : University of Western Ontario (安大略西部大学)
Paper: https://www.aclweb.org/anthology/P19-1030
Code: None

文章摘要

    针对单词序列,完全基于Attention的模型存在两个主要的问题:1、随着句子长度的增长,其对内存的消耗会呈2次方增长;2、不能有效的抓取和利用语义信息。递归神经网络可以通过遍历树结构来提取很好语义信息。为此,我们提出了一个Tree Transformer模型,该模型只需通过注意力机制进行递归遍历,就可以捕获用于选区树的短语语法,以及用于依赖树的单词依赖性。与标准转换器、基于lstm的模型以及树结构的LSTMs相比,本文模型在四个任务上的评估得到了比较好的结果。并进行了进一步的研究以确定位置信息是否在树中固有地编码以及哪种类型的注意适合于进行递归遍历。

Tree Transformer模型介绍

    本文提出了一种新的递归神经网络结构,该结构由一个可分解的注意框架构成,称之为模型树转换器。其原理主要是:给定依赖关系树或选择树结构,任务是仔细遍历其中的每一个子树,并推断出其根表示向量。该模型使用复合函数将一组子表示转换为一个单亲表示。该模型结构图如下图所示。

实验结果

    Tree Transform与一些最先进的句子编码器的性能比较.

    位置编码的影响对比
    不同注意力模块作为一个复合函数产生的结果对比

ACED

Attention

更多自然语言处理相关知识,还请关注AINLPer公众号,极品干货即刻送达。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 212,718评论 6 492
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,683评论 3 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 158,207评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,755评论 1 284
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,862评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,050评论 1 291
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,136评论 3 410
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,882评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,330评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,651评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,789评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,477评论 4 333
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,135评论 3 317
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,864评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,099评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,598评论 2 362
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,697评论 2 351

推荐阅读更多精彩内容