UL2: Unifying Language Learning Paradigms
https://arxiv.org/abs/2205.05131v3
Yi Tay, Mostafa Dehghani, Vinh Q. Tran, Xavier Garcia, Jason Wei, Xuezhi Wang, Hyung Won Chung, Siamak Shakeri, Dara Bahri, Tal Schuster, Huaixiu Steven Zheng, Denny Zhou, Neil Houlsby, Donald Metzler
[Google Brain]
现有的预训练模型通常针对特定类别的问题。到目前为止,对于正确的架构和预训练设置应该是什么,似乎还没有达成共识。本文为预训练模型提供了一个统一的框架,该框架在数据集和设置中普遍有效。我们首先将架构原型与预训练的目标——这两个概念通常被混为一谈。接下来,我们对NLP中的自监督提出了一个普遍而统一的观点,并展示了不同的预训练目标如何相互投射,以及不同目标之间的插值如何有效。然后,我们提出了混合去噪器(MoD),这是一个将不同的预训练范式结合在一起的预训练目标。我们进一步引入了模式切换的概念,其中下游微调与特定的预训练方案相关联。我们进行了广泛的消融实验来比较多个预训练目标,并发现我们的方法通过在多个不同的设置中优于T5和/或GPT样模型,推动了Pareto前沿。最后,通过将我们的模型扩展到20B参数,我们在50个成熟的监督NLP任务上实现了SOTA性能,这些任务包括语言生成(具有自动和人工评估)、语言理解、文本分类、问题回答、常识推理、长文本推理、结构化知识基础和信息检索。我们的模型在上下文学习方面也取得了强大的结果,在零样本SuperGLUE上优于175B GPT-3(已发表的论文结果),在一次摘要上的性能提高了T5-XXL的三倍。在零样本MMLU上,UL2 20B的性能优于T0和T5型号。此外,我们还表明,UL2 20B在思维链提示和推理方面效果良好,这使其成为研究中小型20B参数推理的一个有吸引力的选择。最后,我们将FLAN指令调优应用于UL2 20B模型,实现了与FLAN PaLM 62B相比具有竞争力的MMLU和Big Bench分数。我们在https://github.com/google-research/google-research/tree/master/ul2.
1简介
如今,NLP研究人员和从业者有各种各样的预训练模型选择(Devlin等人,2018;Brown等人,2020;Raffel等人,2019;Radford等人,2019年;刘等人,2019,杨等人,2019);Thoppilan等人,2022;Fedus等人,2021;Du等人,2021年;Chowdhery等人,2022)。当面对一个人应该使用什么模型的问题时,答案往往是取决于任务,然后是什么任务?
回答这个问题可能是压倒性的,包括许多细粒度的后续问题,如“仅编码器还是编码器-解码器?”span损坏或语言模型?'。进一步追问,答案似乎总是取决于目标下游任务。本文对这一思维过程进行了质疑和反思,特别回答了为什么预训练的LM的选择要取决于下游任务的问题?以及我们如何预训练在许多任务中普遍良好工作的模型?。
本文提出了一个步骤,使一个普遍适用的语言模型成为可能。我们提出了一个统一语言学习范式(简称UL2)的框架,该框架在一系列不同的任务和设置中始终有效。图1显示了一个UL2如何普遍良好地执行的示例,这与其他经常需要权衡的模型不同。
图1:在仅解码器和编码器-解码器设置中,与以前的方法相比,UL2在微调的判别任务和基于提示的1-shot开放式文本生成之间的性能平衡显著提高。注意:Dec和EncDec是计算匹配的,但EncDec模型的参数是原来的两倍。
通用模型的吸引力是显而易见的,即这不仅允许集中精力改进和扩展单个模型,而不是在N个模型之间实现资源多样化。此外,在资源受限的设置下,只有少数模型可以得到服务(例如,在设备上),最好是有一个单独的预训练模型,它可以在许多类型的任务上很好地执行。
UL2的核心是新提出的混合去噪器(MoD),这是一个预训练目标,可以在任务中实现强大的性能。MoD是几个公认的去噪目标和新目标的混合体;即考虑极端跨度长度和破坏率的X去噪(极端去噪)、严格遵循序列顺序的S去噪(顺序去噪)和作为标准跨度破坏目标的R去噪(规则去噪)(Raffel et al.,2019)。我们表明,MoD在概念上很简单,但对一系列不同的任务非常有效。
我们的方法利用了这样一个认识,即大多数(如果不是全部的话)经过充分研究的预训练目标在模型所依赖的上下文类型上有所不同。例如,跨度损坏目标类似于调用前缀语言建模(PLM)的多个区域(Liu et al.,2018;Raffel et al.,2019),其中前缀是未损坏token的连续段,并且目标可以完全访问所有PLM段的前缀。跨度接近整个序列长度的设置近似于一个以长程上下文为条件的语言建模目标。因此,我们能够设计一个预训练目标,平滑地插入这些不同的范式(跨度损坏与语言建模与前缀语言建模)。
也很容易看出,每个去噪器都有不同的困难。它们在外推(或插值)的性质上也有所不同。例如,通过双向上下文(或未来)(即跨度损坏)对模型进行绑定可以使任务变得更容易,更类似于事实完成。同时,PrefixLM/LM的目标通常更为“开放式”。通过监测这些不同去噪目标的交叉熵损失,可以很容易地观察到这些行为。
给定MoD公式,我们推测我们的模型不仅在预训练期间区分不同的去噪器,而且在学习下游任务时自适应地切换模式是有益的。我们引入了模式切换,这是一个新概念,将预训练任务与专用哨兵token相关联,并允许通过离散提示进行动态模式切换。我们的模型能够在经过预训练后按需在R、S和X去噪器之间切换模式。
然后,我们将架构从自监督方案中分离出来。正如Raffel等人先前所指出的,预训练模型的主干架构(例如,仅解码器与编码器-解码器)具有很强的特征,这可能是一种常见的误解。(2019),我们发现去噪器的选择具有更大的影响。MoD支持任何一种主干,类似于T5的跨度破坏可以用仅解码器模型来训练。因此,UL2对体系结构是不可知的。我们认为,主干架构的选择主要是在不同的效率指标之间进行权衡。
我们对一套9种不同的任务进行了系统和消融实验,旨在捕捉不同的问题公式(基于上下文few-shot学习的监督和提示)。我们用SuperGLUE套件(Wang et al.,2019)和GEM基准的三项任务(Gehrmann et al.,2021)进行了实验。此外,我们还评估了开放文本生成,以及所有任务的基于提示的一次性设置。在这种消融设置中,我们的实验结果表明,UL2在所有9种设置中都优于T5和GPT样基线。平均而言,UL2的性能优于T5基线+43.6%,语言模型的性能优于+76.1%。在考虑的所有其他竞争性基线中,UL2是唯一在所有任务上都优于T5和GPT类模型的方法。
我们将UL2扩展到大约20B(准确地说是19.5)参数的中等规模设置,并在50多项NLP任务中进行实验,这些任务包括语言生成(具有自动和人工评估)、语言理解、文本分类、问题回答、常识推理、长文本推理、结构化知识基础和信息检索。我们的结果表明,UL2在绝大多数任务和设置中都能实现SOTA。
最后,我们用UL2进行了零次/少次激发实验,并表明UL2在零次激发SuperGLUE上优于GPT-3 175B。与GLaM(Du et al.,2021)、PaLM(Chowdhery et al.,2022)和ST MoE(Zoph et al.,2020)等最新的最先进模型相比,UL2在计算匹配的设置中仍然具有竞争力,尽管只在C4语料库上进行训练,已知C4语料库的有效性不如中使用的特别策划的数据集(Du等人,2021;Chowdherry et al.,2018)。我们深入理解零样本和微调性能之间的权衡,并表明UL2在两种学习范式方面都是帕雷托效率的。在一次性总结中,UL2将LM适应的T5 XXL模型的性能提高了三倍,并且在相同的计算成本下与PaLM和LaMDA竞争(或优于)。我们发布了基于T5X的Flax-chec
2.1预训练的语言模型
学习预训练的语言表征是现代NLP研究的一个意义深远的支柱,可以追溯到(Mikolov等人,2013;Pennington等人,2014;Neumann等人,2018;戴和乐,2015;霍华德和鲁德,2018)。第一个预训练的Transformer GPT由(Radford et al.,2019)提出,并被训练为因果语言模型。随后,BERT(Devlin等人,2018)证明了双向建模对许多下游任务的重要性。BERT引入了掩码语言建模(MLM),这是一种使用双向感受野重建输入的去噪目标。XLNet Yang等人(2019)引入了置换语言建模来解释训练过程中屏蔽token之间的依赖关系。许多其他论文(例如,RoBERTA(Liu et al.,2019)、SpanBERT(Joshi et al.,2020))建议对预训练过程进行进一步改进。
与此同时,T5(Raffel et al.,2019)等两栈编码器-解码器架构因其在分类和序列到序列(“seq2seq”)任务上的性能提高而广受欢迎。然而,到目前为止,这些模型在开放文本生成和基于提示的推理(即,在上下文学习中)方面表现出有限的性能,这促使使用仅针对解码器的模型,这些模型是用不同的目标训练的(例如,GPT-3(Brown et al.,2020)、GLaM(Du et al.,2021)、LaMDa(Thoppilan et al.,2022)和PaLM(Chowdhery等人,2022))。在这项工作中,我们的目标是通过适合两种架构的通用训练范式来弥合两者之间的性能差距。
仅解码器与仅编码器
仅解码器和仅编码器架构的关键相似之处在于,如果使用CausalLM而不是使用PrefixLM,则仅解码器架构使用输入到目标范式或仅目标范式进行操作。对于这两种架构,目标始终是预测下一个token(LM),因此都是自回归模型。值得注意的是,这与位置掩码LM去噪(有时称为自动编码)不同,后者已由仅编码器的BERT风格模型推广。这类模型的生成能力非常有限。除此之外,特定任务的分类头通常也用于下游任务。由于特定任务分类头的复杂性,我们强烈不建议使用此类自动编码模型,并认为它们有些过时。注意事项确实适用。例如,回归可能是增加特定任务负责人的唯一原因(Lees et al.,2022),或者从消除完整词汇中挤出一些效率收益。无论哪种方式,都可以从编码器-解码器开始,然后砍掉解码器,因此没有充分的理由使用仅编码器模型。因此,这里唯一真正客观的考虑是在仅解码器和编码器-解码器架构之间。
仅解码器与编码器解码器
仅解码器和编码器-解码器模型之间的界限不太清楚。PrefixLM模型几乎是具有共享参数的编码器-解码器模型(但不完全是)。从归纳偏差的角度来看,存在多种差异。编码器-解码器模型使用不同的参数集独立处理输入和目标。这是一种稀疏性形式,其中不同的参数集用于不同的token。编码器-解码器模型还具有将输入token连接到目标token的交叉关注组件。同时,仅解码器模型通过连接输入和目标来处理它们。因此,当输入/目标在网络上传播时,输入和目标的表示同时逐层构建。相反,编码器-解码器模型中的解码器通常只查看完全处理的编码器输入。总的来说,仅PrefixLM解码器模型和编码器-解码器模型的电感偏差可能非常相似,模化了上述细微的差异。不同的特性是,当计算匹配时,编码器-解码器模型通常是仅解码器模型的大约2x参数。
稀疏模型
另一方面,稀疏预训练模型也出现了一种新趋势,可以实现最先进的性能。稀疏混合的专家模型,如开关Transformer(Fedus等人,2021)、GLaM(Du et al.,2021)和/或GShard(Lepikhin等人,2020)也显示出了很大的前景。虽然与预训练目标的主题正交,但与密集模型相比,稀疏模型实现了非常不同的每参数触发率——这是围绕编码器-解码器模型与仅解码器模型的争论中反复出现的核心主题。
2.2大型语言模型的预训练目标
虽然最近的研究证明了大型监督多任务预训练的潜力(Aribandi等人,2021;Sanh等人,2021年;Wang等人,2022a),但大多数预训练目标都依赖于无监督数据的大量可用性,并使用自训练技术。如上所述,不同的体系结构通常利用不同的目标。仅解码器模型通常使用因果语言模型目标进行训练,以模拟自回归生成(Radford等人,2019)。Raffel等人(2019)探讨了编码器-解码器模型的许多目标,并发现跨度破坏是有效的。(Wang et al.,2022a)结合三种不同的预训练目标(因果LM、前缀LM和跨度破坏),对不同的体系结构进行了系统研究,并分析了它们对零样本泛化的影响。与我们提出的X去噪器有关,(Wettig等人,2022)研究了BERT风格的掩码语言建模中损坏率的影响,并假设这提高了样本效率,同时有利于更大的模型。值得注意的是,正如(Raffel et al.,2019)所指出的,损坏率上升作为一种独立的去噪器的好处仍然不清楚,在我们自己的研究中也很明显。预训练(或去噪)通常应用于子词级别(Raffel等人,2019;Devlin等人,2018),但值得注意的是,它也应用于字符或字节级别(Xue等人,2021;Tay等人,2021c)。在这些设置中,损坏的跨度通常比基于子词的去噪大得多。
2.3统一的预训练建议书
UniLM(Dong et al.,2019)提出使用单个Transformer模型对多个语言建模目标进行训练。具体而言,UniLM在单向LM、双向LM和seq2seq LM上进行训练。这与将自回归LM与BERT和前缀LM模型相结合非常相似。值得注意的是,UniLM使用完形填空型公式进行训练,该公式将显式掩码标记添加到输入中。然后,通过预测token和目标token的差值以位置方式计算损失。除了预训练的统一外,最近还出现了主题统一的趋势,即将常见任务统一到一个模型中。这些例子包括用于常识推理的UNICORN(Lourie et al.,2021)、用于问答的UnifiedQA(Khashabi et al.,202022)和用于结构化知识基础的UnifiedSKG(Xie et al.,2022)。
3统一语言学习范式(UL2)
本节介绍了UL2框架和拟议的预训练目标,我们将在论文的剩余部分进行研究。
3.1预训练
本节讨论拟议的预训练目标。
3.1.1预训练任务的统一视角
许多预训练任务可以简单地公式化为“目标输入”任务,其中输入指的是模型所依赖的任何形式的记忆或上下文,目标是模型的预期输出。语言模型使用所有以前的时间步骤作为模型的输入来预测下一个token,即目标。在跨度损坏中,该模型利用过去和未来所有未损坏的token作为预测损坏跨度(目标)的输入。前缀LM是使用过去的token作为输入,但双向消耗输入的LM:这比普通LM中的输入单向编码提供了更多的建模能力。
从这个角度来看,我们可以大致将一个预训练目标减少到另一个。例如,在跨度损坏目标中,当损坏的跨度(即目标)等于整个序列时,该问题有效地变为1语言建模问题。考虑到这一点,使用跨度损坏,通过将跨度长度设置为较大,我们可以在局部区域中有效地模拟LM目标。
我们定义了一个符号,涵盖了我们在本文中使用的所有不同的去噪任务。去噪任务的输入和目标由SpanCorrupt函数生成,该函数由三个值(µ,r,n)参数化,其中µ是平均跨度长度,r是损坏率,n是损坏跨度的数量。请注意,n可能是输入长度L和跨度长度µ的函数,例如L/µ,但在某些情况下,我们使用固定值n。给定输入文本,SpanCorpt会对从平均值为µ的(正态或均匀)分布中提取的长度跨度进行破坏。在损坏之后,输入文本然后被馈送到去噪任务,并且损坏的跨度被用作要恢复的目标。
例如,要使用该公式构建类似于因果语言建模的目标,只需设置(µ=L,r=1.0,n=1),即跨度长度等于序列长度的单个跨度。为了表达类似于前缀LM目标的目标,可以设置(µ=L−P,r=1.0−P/L,n=1),其中P是前缀的长度,附加的约束条件是单个损坏的跨度总是到达序列的末尾。
我们注意到,这种目标输入公式可以应用于编码器-解码器模型和单堆栈变换器模型(例如,解码器模型)。我们选择预测下一个目标token的模型,而不是那些原地预测的模型(例如,预测BERT中的当前掩码token),因为下一个对象公式更通用,可以包含更多任务,而不是使用特殊的“CLS”token和任务特定的投影头。
3.1.2去噪器混合物
我们推测,在预训练过程中,一个强大的通用模型必须暴露于解决各种各样的问题。鉴于预训练是使用自监督进行的,我们认为应该将这种多样性注入模型的目标中,否则模型可能会缺乏一定的能力,比如长时间连贯的文本生成。
受此启发,以及当前类别的目标函数,我们定义了预培训期间使用的三个主要范式:
•R-去噪器-常规去噪是Raffel等人(2019)中引入的标准跨度破坏,使用2到5个token作为跨度长度,这屏蔽了约15%的输入token。这些跨度很短,可能有助于获得知识,而不是学习生成流畅的文本。
•S-去噪器-去噪的一种特殊情况,在这种情况下,我们在构建目标任务的输入时,观察到严格的顺序,即前缀语言建模。为此,我们只需将输入序列划分为两个子token序列,作为上下文和目标,这样目标就不依赖于未来的信息。这与标准跨度损坏不同,标准跨度损坏可能存在位置早于上下文标记的目标标记。请注意,与前缀LM设置类似,上下文(前缀)保留双向感受野。我们注意到,记忆非常短或没有记忆的S-去噪与标准因果语言建模具有相似的精神。
•X-Denoiser-一种极端的去噪版本,在这种情况下,模型必须恢复输入的大部分,给定输入的小到中等部分。这模拟了模型需要从信息相对有限的存储器中生成长目标的情况。为此,我们选择包括具有积极去噪的示例,其中大约50%的输入序列被屏蔽。这是通过增加跨度长度和/或损坏率实现的。如果预训练任务的跨度很长(例如,≥12个token)或损坏率很大(例如,≤30%),我们认为它是极端的。X去噪的动机是在规则跨度损坏和类似语言模型的目标之间进行插值。
这组去噪器与以前使用的目标函数有很强的联系:R-去噪是T5跨度损坏目标,S-去噪与类似GPT的因果语言模型相连,X-去噪可以将模型暴露于T5和因果LM的目标组合。值得注意的是,X去噪器也被连接以提高样本效率,因为以类似于LMs的精神,在每个样本中学习到更多的token被预测。我们建议以统一的方式混合所有这些任务,并具有混合自监督目标。最终目标是7个去噪器的混合物,其配置如下:
对于X和R去噪器,跨度长度是从平均值为µ的正态分布中采样的。对于S Denoisers,我们使用均匀分布,将损坏跨度的数量固定为1,并有一个额外的约束,即损坏跨度应在原始输入文本的末尾结束,即损坏部分之后不应出现未裁剪的标记。这大致相当于seq2seq去噪或Prefix LM预训练目标。
由于LM是前缀LM的特殊情况,我们发现没有必要将临时LM任务包含在混合物中。所有任务在混合中的参与程度大致相等。我们还探索了一种替代方案,将S-去噪器的数量增加到混合物中去噪器数量的50%,所有其他去噪器占据剩余部分。我们将在后面的章节中介绍各种设计选择的详细消融研究。最后,混合在混合的诋毁是什么使它普遍强大。单独来看,某些去噪器类型的性能并不好。例如,最初的T5论文探索了一个损坏率为50%的选项(X去噪),发现效果不佳。
使用类似seqio2的库,UL2的混合去噪器的实现简单且易于实现(Roberts等人,2022)。有关实施的更多详细信息,请参阅附录。
3.1.3模式切换
我们引入了通过模式转换实现范式转换的概念。在预训练期间,我们向模型提供一个额外的范式标记,即{[R]、[S]、[X]},帮助模型切换并在更适合给定任务的模式下操作。对于微调和下游少量学习,为了触发模型学习更好的解决方案,我们还添加了关于下游任务的设置和要求的范式标记。事实上,模式转换将下游行为与我们在上游训练中使用的模式之一绑定在一起。
3.2模型架构
UL2采用了一种与体系结构无关的哲学。我们认为,在两种架构(仅编码器-解码器与解码器)之间的选择更像是一种效率权衡,架构选择不应与预训练目标混为一谈。因此,我们有一个UL2解码器和UL2编码器解码器,其精神与每个模型有多个大小相似。我们在实验部分详细讨论了这种效率权衡。UL2采用了一种非常标准的香草T5Transformer,经过改进,经受住了时间的考验,即GLU层(Shazeer,2020)和T5风格的相对关注。为了不进一步将架构修改与预训练贡献混为一谈,模型的主干与T5类模型保持相似。这也是根据(Narang等人,2021)等结果得出的。
4消融实验
本节描述了我们的消融实验设置(例如,基线、数据集、实施细节)和结果。我们的总体发现表明,UL2在9项任务中有9项优于T5类和GPT类模型。
4.1基线
对于预训练目标,我们将其与以下预训练基线进行比较:
•因果语言模型(CLM)-这是标准的从左到右自回归语言模型预训练,用于许多标准的预训练模型,如GPT(Radford等人,2019;Brown等人,2020)。在我们的实验中,我们将这个模型称为类似GPT的模型。
•前缀LM(PLM)-这是因果LM的一个轻微变化,其中M具有双向感受野,在中引入(Liu等人,2018;Raffel等人,2019)。我们对M的长度进行均匀采样,并且只计算自回归目标处的损失。
•跨度损坏(SC)-这是T5中提出的标准去噪目标(Raffel等人,2019)。其想法是清空某些文本部分,并用sentinel标记替换它们。用sentinel标记替换的文本随后被复制到目标,并由模型自动回归生成。在默认T5设置之后,我们使用3的平均跨度和15%的去噪率。
•Span Corruption+LM(SCLM)-我们以相等的混合比例对CLM和Span Corrumption进行混合训练。对于该目标的SC分量,我们对SC使用相同的超参数。
•UniLM(ULM)-这是Dong等人(2019)提出的目标。与最初的UniLM类似,我们混合了因果语言建模、前缀LM(序列到序列LM)和双向i.i.d去噪。我们选择生成掩码标记,而不是用完形填空或BERT风格训练UniLM。这允许该目标仅适用于解码器和编码器-解码器架构,并且消除了对用于微调的任务专用线性头的需要。
对于所有目标,我们探索单堆栈和编码器-解码器架构。所有架构都是在编码器-解码器或仅解码器模型结构中实现的目标的输入,因为我们认为BERT风格的掩码语言建模预训练已经被这种风格的预训练有效地包含在内,正如(Raffel等人,2019)中的经验所表明的那样。也不建议使用特定任务的分类头,因为它们显然违背了通用模型的原则(而且非常繁琐)。
4.2实验设置
我们在一组不同的监督和基于提示的few-shot学习任务上进行实验。
4.2.1数据集和任务
我们使用的数据集是SuperGLUE(Wang et al.,2019),由8个子任务组成。我们还在GEM基准(Gehrmann et al.,2021)的3个数据集上进行了实验,重点研究语言生成问题。我们从GEM基准中任意选择XSUM(摘要)、ToTTo(表到文本生成)(Parikh等人,2020)和模式引导对话框(SGD)(Rastogi等人,2019)。对于所有这些任务,我们评估了监督微调和基于提示的一次性学习。最后,我们还使用C4验证集上的困惑分数比较了我们的模型在文本生成方面的一般能力。我们相信,我们的一套任务可以很好地涵盖文献中的许多设置,包括监督和有条件的few-shot学习。
4.2.2指标和整体评价
对于SuperGLUE,我们会在适当的时候报告完善的指标,如准确性、F1或精确匹配。对于GEM基准,我们使用Rouge-L度量。对于语言建模,我们报告了负对数困惑。模型的普遍性,即它们在所有任务范围内的集体表现,是这里的主要评估标准。为了能够从这个角度对模型进行比较,我们需要一个综合性能分数。然而,我们所包含的不同任务的指标在本质上有很大的不同——例如F1和困惑。为了解决这一问题,我们选择报告并使用相对于基线的归一化相对增益作为总体指标。为此,我们使用标准语言模型(仅解码器)(类似GPT)和标准跨度去噪编码器-解码器(T5)作为主要基线,并报告所有方法相对于这些公认候选者的相对性能。我们认为这是比较这些模型的最合适方法,因为很容易推断出一个新模型通常比流行设置(例如GPT或T5类)好多少。我们还强调了一个事实,即总体收益是标准化的,因此这变得更难利用或容易受到基准彩票效应的影响(Dehghani等人,2021b)。
4.2.3实施细节
我们的实验都是在JAX/Flex(Bradbury等人,2018)中使用开源T5X3框架(Roberts等人,2022)和Flaxformer4进行的。我们使用C4语料库为500K个步骤预训练所有模型,批量大小为128,序列长度为512个输入和512个目标。在预训练期间看到的近似token总数约为320亿个token。每次预训练跑步通常使用64到128个TPU4芯片进行训练(Jouppi等人,2020)。我们使用Adafactor(Shazeer&Stern,2018)优化器以平方根学习率的倒数来优化我们的模型。为了理解不同骨干架构的权衡,我们使用仅解码器架构和编码器-解码器架构运行所有基线预训练目标。我们报告了使用解码器模型的大约167M个参数和编码器-解码器模型的335M个参数的基本架构的关键实验结果。所有型号都使用标准Transformer,该Transformer使用SwiGLU层,如(Shazeer,2020)所述。我们对所有型号都使用默认的T5英语32K句子。在仅解码器模型的背景下,除了在因果LM上训练的解码器模型的情况外,我们的实验总是仅在其输入段使用双向感受野,并在目标段使用自回归解码。这本质上是PrefixLM类型的架构5(Raffel等人,2019),我们发现它始终比完全因果解码器模型更好。
表4:与标准解码器因果语言模型(类似GPT)相比的相对性能。本表中的结果以相对于基线的相对百分比改善表示。模型与?表示主要比较基线。总体得分列被标准化,以便在任务之间平均加权。
4.3消融实验结果概述
表2报告了所有基准任务和数据集的原始结果。为了便于在设置之间进行更容易的比较,我们还报告了与T5和GPT模型等公认基线的相对比较。这分别在表3和表4中报告。
4.3.1解码器与编码器解码器
在我们深入研究这一部分的结果之前,我们想提醒读者,将纯解码器模型与编码器-解码器模型进行比较是不容易的。简言之,我们可以用计算匹配的设置或参数匹配的方式对它们进行比较。因此,这些结果集合中的编码器-解码器模型具有大约解码器模型的两倍数量的参数,但具有相似的速度。
我们注意到,这可能稍微有利于编码器-解码器,因为这可以被解释为模型稀疏性的形式。回到结果,当使用T5作为参考基线时,我们注意到,除了UL2解码器之外,没有一个预训练的解码器模型优于T5。此外,整体相对性能会降低10%至30%。这里最好的解码器基线模型是前缀LM解码器模型,其比T5基线差大约10%。从这些结果中可以清楚地看出,当且仅当不关心存储时,编码器-解码器模型应优于仅解码器模型,即,参数计数通常不如实际吞吐量重要(详细讨论见(Dehghani等人,2021a))。
当存在参数约束时,前缀LM解码器做出合适的替代方案。最后,一个有趣的数据点是,我们如何推动UL2解码器比T5编码器-解码器设置好+14.6%。也就是说,这个UL2解码器并不比我们的UL2编码器-解码器好。然而,这强化了我们的观点,即自监督目标本质上可能比骨干架构更重要,而协商架构选择主要是关于可以独立研究的效率权衡。
4.3.2 GPT和/或T5是最佳设置吗?
基于与类GPT(因果LM+解码器)和类T5(跨度损坏+编码器-解码器)设置的相对比较,我们能够容易地确定已建立的设置是否确实是最优的或已经接近最优。首先,因果LM(类似GPT)设置似乎是更糟糕的配置,因为它的性能被我们所有的基线超过了。因此,我们直接建议尽可能至少使用前缀LM或UniLM进行训练。最好的仅解码器模型(UL2除外)是前缀LM预训练,它为语言模型保留了一个内存前缀。关于前缀LM预培训,有趣的是,前缀LM实际上比T5跨度损坏设置好+16.7%。前缀LM编码器-解码器模型确实不如SuperGLUE上的默认T5模型有效,但总体而言,更强,尤其是当涉及到一次性或开放文本生成时。总的来说,在前缀LM和跨度损坏编码器-解码器模型(T5)之间,不清楚哪一个是普遍优越的模型,因为在不同的子任务之间存在给予和接受,尽管值得注意的是,前缀LM EncDec模型只牺牲了某些任务中的微小退化,而牺牲了其他任务中的巨大数倍增长。
4.3.3关于UniLM和SCLM的性能
在编码器-解码器设置上,UniLM和SCLM目标在聚合和归一化总增益方面都比标准跨度损坏目标表现更好。这表明,总的来说,混合预训练的目标是有帮助的。在解码器设置上,与基线因果LM相比,UniLM和SCLM的总增益分别为+9.4%和+16.1%。就单个任务而言,UniLM和SCLM在9项任务中的6项都优于T5。同样值得注意的是,SCLM在第一代(SGD和TOTTO)上的表现是所有型号中最好的。
4.3.4关于拟议UL2的性能
最后,我们注意到,与类似GPT的模型和类似T5的模型相比,UL2表现最好。总体而言,与类似GPT的CLM解码器模型相比,UL2的性能分别提高了T5+43.4%和+76.2%。与所有其他备选方案相比,这是最高的相对(总体)增益。我们还注意到,在所有单独的任务中,UL2在9个考虑的任务中的9个任务中都优于T5。因此,与跨度损坏T5模型相比,UL2是一个普遍更好的选择。虽然UL2在所有单个任务上并不总是优于所有基线,但UL2是非常一致的。即使在一项任务中输给了另一种方法,损失也相对较小(例如,一次TOTTO的损失为6.5比7.3)。相反,当UL2优于T5这样的基线时,增益可以大到+363%。UL2仍然是最强的方法。持续的改进还表明,它可以作为T5和GPT类模型的更一致的替代品。
4.4模式切换消融
为了确定我们的模式切换能力具有有效的性能,我们进行了消融实验。我们在一次性XSum和一次性SuperGLUE上进行了实验。表5报告了将范例提示更改为模型的结果。首先,我们观察到提示对模型性能有相当大的影响——即,使用正确或错误的提示可能会导致48%的性能差距(在XSum、Rouge-1上)。另一方面,SuperGLUE对提示不那么敏感。在SuperGLUE上,在一次性评估中使用提示几乎总是比不使用提示好。然而,对于XSum来说,正确的提示似乎对良好的性能至关重要。
4.5去噪器混合物
我们进行了广泛的实验来验证MoD目标中各个目标的有效性。表6报告了这些消融的结果。我们报告了改变平均跨度和损坏率的结果,以及使用的S-去噪百分比(用%SD表示)。请注意,混合物中去噪器的总数为kSpank×kCorrupt_Ratek+1。我们将这些配置标记为从Var-A到Var-J,以方便参考。
X去噪是互补有效的,但作为一个独立的去噪是不够的
我们观察到混合极端去噪是有效的。大多数全面的最佳结果来自于具有长跨度的混合物(例如,32或64)。与没有长跨度的变体(Var-D与Var-C)相比,我们发现Var-D绝对更好。我们还提请读者注意Var-H,它是一种只使用长跨度的变体。一般来说,Var-H表现不佳,这表明极端去噪补充了常规去噪,但单独去噪还不够。这也证实了Raffel等人的结果。(2019)表明,50%的损坏率表现不佳。这与(Wettig et al.,2022)的发现略有冲突,尽管我们的体系结构使用输入到目标形式的预训练,而不是BERT风格的掩码语言建模。
优选少量S-去噪器
我们探索了一种设置,在该设置中,我们将S-去噪器缩放到整个MoD混合物的50%。我们发现这通常会影响性能。因此,我们得出结论,S-去噪器是必要的,但只有少量的S-去噪剂(≈20%)是优选的。Var-K和Var-L还探讨了根本不存在S-去噪的情况。虽然一项任务的性能显著提高(SuperGLUE),但另一项任务性能显著下降(一次性XSUM)。同时,对于与Var-F相同(但没有S-去噪)的Var-L,总体上表现得更差。因此,我们证明了S-去噪是至关重要的。
4.6适度缩放模型大小和预训练数据
我们通过扩大1)模型大小和2)预训练数据集大小来进行额外的实验。具体来说,我们将UL2编码器-解码器模型扩展到大约1B个参数,并将预训练token的数量增加到0.5万亿个token。我们的动机是对所提出的公式在不同的模型规模下也有效进行健全性检查,并观察在更大的规模下运行是否存在差异和影响。此外,推导比例定律也已成为语言模型研究的主要内容(Kaplan等人,2020;Tay等人,2021b)。表7报告了这种缩放设置的结果。在大规模应用中,我们发现所提出的UL2编解码器模型仍然具有竞争力。现在的一个关键区别是UL2在与T5(1B)的比赛中放弃了SuperGLUE套件。然而,这不仅通过在8项任务中的7项任务中表现不佳来弥补,而且还通过一次性评估将性能提高2-4倍来弥补。监督微调的收益较小,但在XSUM、SGD和TOT上仍然明显。表7:根据模型计算(例如,EncDec为1B,解码器为0.5B)和数据集大小(0.5Ttoken),适度放大模型的实验。
5缩放到20B参数
我们也有兴趣在扩大规模的环境中评估UL2。根据我们从消融实验中获得的见解,我们在这次运行中使用了编码器-解码器架构。虽然UL2与体系结构无关,但由于固有的稀疏性,我们在这里的软建议可能是默认使用编码器-解码器体系结构。
我们以大约20B总参数的规模来训练UL2。与真正的大型语言模型相比(Du et al.,2021;Chowdhery et al.,2022),20B代表了一个中等规模的模型,我们将其训练为概念验证,类似于UL2在比我们的消融实验相对更大的规模上可以做什么的暗示。诚然,我们对这个模型的确切参数计数没有太多考虑,也就是说,我们已经训练了一段时间的20B模型,并决定让它收敛。此外,我们注意到,在扩展模型时,由于潜在的一系列原因(数据损坏、抢占等间歇性硬件问题),峰值和不稳定性很常见。在这次运行中,我们没有具体控制或实施任何缓解策略,例如偶尔重新启动,因为我们没有认真监控工作。因此,我们在这个20B模型的训练中偶尔会发现损失峰值。然而,由于许多使用这些检查点的微调实验仍然经常会导致sota性能,我们现在就顺其自然,并为未来的工作留下适当的监控运行。尽管在50多个NLP基准上获得了sota性能,但我们预计目前呈现的结果仍然低估了模型的真正潜力。我们将适当扩展UL2到真正的大规模,以供未来工作使用。
5.1预训练和模型配置
我们遵循早期实验中的相同训练协议,在C4语料库上进行预训练,但也通过缩放模型在预训练期间看到的token数量。我们使用批量大小为1024和512的TPU4芯片对该模型进行预训练。该模型在C4上总共训练了1万亿个token(200万步)。对于输入和目标,序列长度设置为512/512。在预训练期间,Dropout设置为0。大约1万亿个token的预培训花费了大约一个多月的时间。我们使用与前面部分相同的去噪器混合物。该模型有32个编码器层和32个解码器层,dmodel为4096,dff为16384。对于总共16个头部,每个头部的尺寸为256。我们的模型使用了8的模型并行度。我们保留了与T5相同的32k人声大小的句子片段标记器。因此,UL20B可以被解释为一个与T5非常相似的模型,但使用不同的目标和略有不同的缩放旋钮进行训练。与早期的实验类似,UL20B使用Jax和T5X基础设施进行训练。我们发布并开源了这个20B模型的基于T5X的模型检查点。
5.2 20B规模的实验
本节介绍了UL20B实验的实验设置。
5.2.1设置和实施细节
我们对微调和上下文学习进行了实验。对于监督微调,我们的模型在N个预训练步骤后不断微调,其中N通常从50k到100k。换句话说,在预训练的每个Nk步骤之后,我们对每个下游任务进行微调并记录其结果。这通常是以手动方式完成的。虽然由于模型仍在预训练,一些任务在早期预训练的检查点上进行了微调,但许多任务在我们发布的更接近收敛的检查点进行了微调。当我们不断地微调时,一旦任务到达sota,我们就停止对其进行微调以节省计算。微调通常是在每个任务的基础上进行的,而不是联合训练。执行联合培训的任务详情见附录。我们将大规模多任务训练(Aribandi et al.,2021)和UL2的组合留给未来的工作。
对于监督微调,我们通常使用Adafactor优化器采用在{5×10−5,1×10−51×10−4}范围内的学习率。一般的方法是,我们重置Adafactor优化器状态和/或采用基于真实目标token数量的损失归一化。这让人想起了PaLM微调设置(Chowdhery等人,2022)。批量大小通常在32到128之间,尽管我们没有发现批量大小对微调性能的影响太大。许多评估的任务都没有进行太多调整,在执行排行榜提交之前,我们只运行了一两次。
5.2.2监督微调的数据集
为了证明该方法的普遍性,我们总共考虑了近50多项NLP任务。我们在下面列出了我们的任务分类。请注意,任务的分类通常本质上是软的,一些任务可能会跨越不同的分类边界。
•语言生成-我们考虑摘要和数据到文本的生成任务。我们使用CNN/Dailymail(Hermann et al.,2015)、XSUM(Narayan et al.,2018)、MultiNews(Fabbri et al.,2019)、SAMSum(Gliwa et al.,2017)、WebNLG(Castro Ferreira et al.,2020)(英语)、E2E(Dušek et al.,2016)和CommonGen(Lin et al.。,2020)来评估我们的模型。对于WebNLG、E2E和CommonGen,我们使用GEM基准测试的版本(Gehrmann等人,2021)。
•使用人工评估的语言生成-我们通过GENIE排行榜使用人工评估对各种文本生成任务进行评估(Khashabi等人,2021)。这些任务包括aNLG(Bhagavatula等人,2019)、ARC-DA(Clark等人,2018)、WMT19(基金会)和XSUM(Narayan等人,2018年)。
•语言理解、分类和问答-我们使用阅读理解、问答、文本分类和自然语言推理数据集。具体而言,我们使用RACE(阅读理解)(Lai et al.,2017)、QASC(Khot et al.,2020)、OpenBookQA(Mihaylov et al.,2018)、TweetQA(Xiong et al.,2019)、QuAIL(Rogers et al.,20 20 20)、IMDB(Maas et al.,2011)、Agnews(Zhang et al.,2015)、DocNLI(Yin et al.,2021)、对抗性NLI(Nie et al.,19)、VitaminC(Schuster et al.,21),Civil Comments和维基百科毒性检测数据集(Borkan等人,2019)。我们还使用了标准的SuperGLUE(Wang等人,2019)和GLUE(王等人,2018)数据集。
•常识推理-我们使用HellaSwag(Zellers等人,2019)、SocialIQA/SIQA(Sap等人,2019。
•长期推理-我们使用Scrolls基准(Shaham等人,2022),该基准由七个组成任务组成,包括GovReport(Huang等人,2021)、SumScr(Chen等人,2021。
•结构化知识基础-我们使用了UnifiedSKG(Xie et al.,2022)的几个组件任务,即WikiTQ(Pasupat&Liang,2015)、CompWQ(Talmor&Berant,2018)、FetaQA(Nan et al.,2021)、HybridQA(Chen et al.,2020)、WikiSQL(Zhong et al.,2017)、TabFat(Chen et al.,2019)、Feverous(Aly et al.,2019),SQA(Iyyer et al.,2018),MTOP(Li et al.,2016)和DART(Nan等人,2020)。我们选择相对方便进行评估的数据集,并使用主流指标,如准确性或精确匹配,而不是模糊的数据集或需要重要的特定领域后处理的数据集。
•信息检索-IR是在给定查询的情况下检索相关文档的任务。我们使用最新的下一代IR范式的设置,即可微搜索索引(Tay et al.,2022)进行实验。我们在DSI论文中使用了相同的NQ(Kwiatkowski et al.,2019)拆分。
对于每个数据集,我们报告以前最好的sota结果。对于生成任务,我们通常按照(Gehrmann等人,2022)的建议报告ROUGE-2。对于其余数据集,我们报告了先前工作中报告的主要指标。对于BLEU分数,我们使用sacrebleu。对于常识性推理任务,我们不与使用外部知识库的方法进行比较,因为它们是正交的,超出了本文的范围。在大多数情况下,GLUE通常被认为是饱和的,在GLUE排行榜上有许多未发表的结果。因此,我们做出了一个非常合理的决定,认为(Raffel等人,2019)是最先进的,因为我们认为自T5模型(Raffer等人,2019年)以来,GLUE基准没有任何真正的进步。GLUE的结果,考虑到它已经饱和的程度,作为参考,应该谨慎对待。
一般来说,我们会尽最大努力向任何排行榜(未公布的测试集)提交分数,但在提交此类分数的人力成本过高的情况下,尤其是当现有的最先进方法已经提供了他们的开发分数时,或者当报告此特定数据集只是为了完整性时(例如,GLUE),我们会避免这样做。我们建议读者不要过度思考dev/test的差异,因为(1)在大多数学术排行榜中,dev/test不仅与我们自己的经验一致,而且可以通过经验观察到,因为(2)真正的测试无论如何都是生产。每当在排行榜上报道时,我们都会将表现最好的已发表作品视为SOTA,并在结果中使用#符号表示可能有一些匿名提交的作品得分更高。为此,我们认为具有上述合理质量的arxiv预印本可以算作已发表的作品。截至2022年4月15日,这些结果和比较是准确的,当时我们停止了实验,专注于抛光这篇论文。我们后来意识到,在准备将这篇论文发表在arxiv上时,使用16k序列长度的模型(Guo et al.,2021)在Scrolls基准上有了新的结果,而我们的模型(2k)在获得sota后将其保持在2k。预计将长度增加到UL2将大大提高我们的分数,可能会超过目前的索塔,但出于后勤和时间表的考虑,我们将这一点留给未来的工作。
5.2.3监督微调结果汇总
本节介绍了我们实验的总体结果。
表8:UL20B结果与现有技术的对比汇总。(l) 表示提交排行榜。(])表示我们能在排行榜上找到的最好的出版物。(e) 表示SOTA采用了整体方法。因为我们评估了SuperGLUE的微调和上下文权衡,所以SuperGLUE分数在下面有自己的专用部分。
5.2.4监督微调结果
我们的实验结果表明,UL2在大约50多个NLP任务和设置上实现了最先进的性能。对许多人来说,利润率相当大,而对于那些UL2没有实现SOTA的人来说,UL2的性能通常相当有竞争力。值得注意的是,在每个基准上获得sota的困难程度有很大不同。对一些人来说,sota模型是一个32B密度的等价物(Zoph等人,2022)。对其他一些人来说,这是一个基础模型。还值得注意的是,许多基准都有一个强大的相对较大的模型,例如3B或11B T5、UnifiedQA(Khashabi et al.,2020)或Unicorn(Lourie et al.,2021),因为现有的SOTA模型的性能优于这些模型也不是最容易做的事。总的来说,我们敦促读者自己判断这些SOTA结果的价值。最后,我们注意到UL2 20B在GENIE任务的人工评估方面做得很好,在几个指标上优于sota。这确定了UL2的生成质量是相当可靠的。
5.2.5微调和基于提示的零样本学习(SuperGLUE)之间的权衡
在本节中,我们将探讨SuperGLUE基准测试的微调和上下文学习权衡。我们用UL20B对SuperGLUE进行了实验。虽然UL20B在该基准上没有实现SOTA,但我们注意到,UL20B至少保持竞争力,并优于T5-11B。本节保证UL2确实在SuperGLUE上扩展和匹配/略优于T5-11B(而在许多其他上下文任务上则大大优于T5-XXL)。由于两个主要原因,UL20B仍然落后于SOTA型号ST-MoE-32B。首先,ST-MoE-32B具有200B+个参数,成本相当于32B密集模型。其次,ST-MoE-32B使用编码器-解码器架构仅针对跨度损坏进行训练,已知该架构在NLU微调方面非常有利。
表9:SuperGLUE开发集的结果。我们与T5-11B(Raffel et al.,2019)、ST-MoE-32B(Zoph et al.,2022)和PaLM-8B、PaLM-62B和PaLM-540B(Chowdhery et al.,2021)进行了比较。报告的分数是每个任务的峰值验证分数。
5.2.6生成few-shot:XSUM摘要
最后,我们使用XSum数据集进行了额外的few-shot上下文1-shot学习。我们将我们的模型与基线T5-XXL、T5-XXL与LM自适应(Lester et al.,2021)、LaMDA 137B(Thoppilan et al.,2022)和PaLM(8B,62B,540B)(Chowdhery et al.,2020)进行了比较。我们在相同的实验设置中运行T5-XXL,但报告了其他模型的结果(Chowdhery等人,2022)。
表10:SuperGLUE数据集上零样本学习的结果。我们与GPT-3、GLaM和PaLM进行了比较(Chowdhery等人,2022)。我们还包括与UL20B相对计算匹配的模型,如具有LM自适应的T5-XXL(Lester et al.,2021)、GPT-3 13B和GLaM-8B密集型。值得注意的是,UL20B在平均得分上优于GPT-3175B和类似计算类中的所有其他模型。
表11报告了单次汇总的结果。我们的结果表明,UL2 20B的性能大约是LM适应的T5 XXL型号性能的3倍。此外,UL2 20B的性能优于LaMDA 137B,并且与与UL2近似计算匹配的PaLM 8B相比具有更好的性能。然而,最好的结果仍然是更大的540B和62B PaLM型号。
5.2.7思想链提示的UL2
最近的研究表明,大规模的语言模型可以通过思维链提示执行多步骤推理任务,如数学单词问题或常识推理,这会促使模型在给出最终答案之前生成一条循序渐进的推理路径(Wei et al.,2022b)。值得注意的是,思想链(CoT)提示不需要对模型进行任何额外的微调。
CoT提示的一个关键考虑因素是,它是一种突发的规模能力(Wei et al.,2022a)——它需要一个足够大的语言模型来提高性能,而实际上会损害小型语言模型的性能。因此,思维链提示的成功用例使用了LaMDA 137B(Thoppilan et al.,2022)、PaLM 540B(Chowdhery et al.,2021)或OpenAI模型(Brown et al.,2020;欧阳等人,2022)。然而,这些模型是计算密集型的,不能用作公共检查点。
在这里,我们证明了UL2 20B是第一个公开可用的预训练模型(没有任何微调),可以成功地利用CoT提示来解决多步骤算术和常识任务。我们使用与Wei等人相同的基准任务和提示。(2022b)。在下面的表12中,我们看到,在五个算术推理数据集上,对于UL2 20B,CoT提示优于标准提示(无需思考链即可直接输出答案)。与Wei等人类似。(2022b),我们还表明,可以通过使用外部计算器(“calc.”)仅执行算术计算(+,−,×,/)来增强CoT提示,以进一步大幅提高性能。此外,我们在CoT提示的基础上增加了自一致性(Wang et al.,2022b)(表示为“SC”),并在所有基准中观察到持续的显著提高,与标准提示相比平均提高了22.5%。表12:五个算术推理基准点的思维链提示和自洽性(SC)结果。GSM8K:(Cobbe等人,2021)。SVAMP:(Patel等人,2021)。ASDiv:(Miao等人,2020)。AQuA:(Ling et al.,2017)。MAWPS:(Koncel Kedziorski等人,2016)。
除了算术推理之外,表13还显示了在五个常识性推理基准上,使用UL2 20B的CoT提示与标准提示相比的性能。CoT提示加自一致性在五个基准中的四个方面优于标准提示,平均改善14.4%。
表13:五个常识性推理基准的思维链提示和自洽性(SC)结果。CSQA:(Talmor等人,2019)。StrategyQA:(Geva等人,2021)。日期理解和运动理解:(Srivastava等人,2022)。ARC轻松/挑战:(Clark等人,2018)。
总体而言,我们已经表明,尽管先前的CoT工作需要大型预训练模型,如PaLM 540B,但UL2 20B是一个相对较小的模型,也可以执行多步骤推理。我们假设去噪因子的混合物可能有助于UL2在20B参数下利用CoT提示的能力,尽管我们将如何解锁突发思维链推理的进一步研究留给未来的工作。
5.2.8大规模多任务语言理解
大规模多任务语言理解(MMLU)(Hendrycks et al.,2021)是一个由57个任务组成的集合,涵盖了广泛的主题(人文、社会科学、硬科学等)。在MMLU上取得优异成绩需要广泛的世界知识和解决问题的技能。
对于MMLU,我们与T5模型变体进行了比较,包括语言模型自适应变体Lester等人(2021)和T0(Sanh等人,2019)。对于后者,我们使用“T0草莓”和“T0香草”,因为这些是推荐用于研究目的的模型。我们报告了0次注射的性能。T0模型专门针对0次注射进行了微调,因此我们认为这是测试UL2疗效的保守设置。表14显示,LM适配的T5-XXL模型几乎没有给出以上的随机性能(25%)。UL2的性能优于T0和T5型号。
5.3带FLAN的指令调谐UL2 20B
受Chung等人的启发7。(2022),我们在UL2 20B检查点上应用了Flan指令调优。我们几乎使用了与Flan2论文相同的设置和Flan混合物(Chung et al.,2022)。由于flan混合物没有模式切换提示,我们选择在没有模式token的情况下再训练UL2 100K步。这次我们将长度增加到1024/1024,以适应更大的上下文长度。侧方训练的长度为2048/512。我们发现原始UL2检查点的“模式切换净化”是有用的,尽管更优化的方法是向FLAN任务添加模式token。由于我们懒得这么做,我们只是选择再次继续训练UL2,以获得更多的步骤。我们在与原始UL2检查点相同的url上发布了此Flan-UL2 20B检查点。
5.3.1 UL2侧身训练后的少杆MMLU和大板凳成绩
表15报告了MMLU和BBH的结果(Suzgun等人,2022)。一般来说,FLAN UL2 20B的性能非常有竞争力,在测试集上优于FLAN-T5 XXL+1.8%,在MMLU开发上优于4.7%。Big Bench的硬得分仍然具有竞争力,最佳检查点略微优于FLAN-T7 XXL。值得注意的是,FLAN-UL2的最佳开发分数几乎达到了FLAN PaLM 62B在MMLU和BBH上的性能,这表明结果相当可靠。
5.3.2使用思维链与直接提示的比较
我们比较了Flan模型在直接和思想链设置上的差异。我们使用与T5-XXL完全相同的协议对Flan-UL2进行微调,并根据所有四种设置(具有直接和CoT的MMLU/BBH)中最强的平均值8选择最佳分数。我们发现Flan-UL2在所有四项任务上都优于Flan-T5-XXL。值得注意的是,CoT任务有更大的增益,例如,特别是MMLU CoT,其中增益相对为+7.4%。通常,这些任务的CoT变体仍然比直接任务表现更差,这也可以在PaLM 62B模型中观察到。这似乎也适用于Flan PaLM 62B。总体而言,在所有设置中,侧面-UL2的平均值接近Flan PaLM 62B(49.1对49.9)。然而,它仍然被Flan PaLM 540B的强劲表现所超越。
我们还尝试了一些自一致性(Wang et al.,2022b)实验与CoT相结合。从简短的实验中,CoT得分从53.9提高到57.1(当相应的直接得分为55.4时)。这表明,在20B量表中,CoT+自一致性可以优于直接提示。我们没有进行进一步的实验,因为这会增加搜索空间,使其比我们想要的(或喜欢的)更耗时。我们把未来的任何实验留给读者练习。
6结论
我们提出了一种训练普遍有效模型的新范式。UL2有两个关键思想。首先,我们提出了一种新的混合去噪器(MoD)预训练,该预训练将多个预训练任务框定为跨度损坏,将其多样化,然后混合。其次,我们引入了模式切换,这是一种将下游任务行为与上游预训练相关联的方法。广泛的烧蚀实验表明,UL2在各种监督和少量射击任务中始终优于GPT和T5模型,在9项任务中的9项任务上优于T5,归一化总增益为+76.1%。最后,我们将UL2参数扩展到20B,并在50到60个NLP任务和设置的不同套件上进行实验。UL2在其中50台上实现了sota性能。UL2和侧面-UL2 20B的预训练检查站于https://github.com/google-research/google-research/tree/master/ul2.
9附录
9.1型号发布
作为这项工作的一部分,我们发布了20B检查点的权重。模型的权重可以在这个GCP bucket中找到(gs://scenture-backet/ul2)。这些检查站使用T5X(Roberts等人,2022)进行训练https://github.com/google-research/t5x并在JAX/Flex中实现。由于我们的持续微调设置,微调结果通常不是来自单个检查点,因此我们发布了三个不同的检查点(1.87M、2.05M、2.65M),我们发现它们一直都很好。
一个轻微的免责声明是,我们在内部系统的TPU4芯片上对该模型进行了微调和训练。即便如此,微调有时也会导致nan,这可能需要一些护理和手动调整才能解决。因此,如果将检查点移植到另一个系统,我们不能保证这些检查点也能正常工作。我们总体上是乐观的,但我们不能通过外部硬件和GPU等加速器来保证其稳定性。
对于这个特定的检查点,请注意,我们使用的模式标签是[NLG](X-去噪器)、[NLU](R-去噪器,R-denoiser)和[S2S](S-去噪器。所以在你的例子输入的开头加上这个。
9.2实施细节和UL2代码
本节旨在深入了解UL2预训练是如何实现的。我们的实现实际上非常简单。这只是seqio9中实现的不同预训练目标的混合。我们的大多数实验都是通过简单地将不同的seqio任务与seqio的混合注册表混合来进行的。然而,也可以使用以下函数来实现广义UL2目标,该函数可能更干净
9.3监督微调SOTA运行的详细信息
我们大多数受监督的微调运行都是作为单个任务进行微调的。唯一的例外是:
•我们通过比例采样将GLUE微调为单一混合物。这已经成为标准和事实上的设置(Raffel等人,2019;He等人,2022;Tay等人,2020221b)。
•我们将SuperGLUE微调为单一混合物,这也是目前的标准设置(Fedus等人,2021;Raffel等人,2019;Chowdhery等人,2022)。
•在彩虹基准下,SIQA、PIQA、AbdectiveLI、Winogrande XL和CosmosQA在类似于(Lourie等人,2021)的比例混合物中共同训练。
•对于CSQA,CSQA2。OBQA和ARC-DA,我们与彩虹混合物共同训练,以在这三个数据集上获得结果。
•所有其他任务都是经过微调的单个任务。
9.4少发和零样本提示的详细信息
我们报道了零样本SuperGLUE实验的最佳提示。
苏老师关于这篇论文的讨论
为什么现在的LLM都是Decoder-only的架构?https://spaces.ac.cn/archives/9529
《为什么现在的LLM都是Decoder-only的架构?》FAQ https://spaces.ac.cn/archives/9547