Emergent Abilities of Large Language Models
https://arxiv.org/abs/2206.07682
Jason Wei, Yi Tay, Rishi Bommasani, Colin Raffel, Barret Zoph, Sebastian Borgeaud, Dani Yogatama, Maarten Bosma, Denny Zhou, Donald Metzler, Ed H. Chi, Tatsunori Hashimoto, Oriol Vinyals, Percy Liang, Jeff Dean, William Fedus
[Google Research, Stanford University, UNC Chapel Hill, DeepMind]
扩展语言模型已被证明可以在广泛的下游任务中可预测地提高性能和样本效率。相反,本文讨论了一种不可预测的现象,我们称之为大型语言模型的涌现能力。如果一种能力不存在于较小的模型中,但存在于较大的模型中时,我们认为它是涌现的。因此,不能简单地通过外推较小模型的性能来预测涌现能力。这种出现意味着额外的扩展可以进一步扩大语言模型的能力范围。
近年来,语言模型已经彻底改变了自然语言处理(NLP)。众所周知,增加语言模型的规模(例如,训练计算、模型参数等)可以在一系列下游NLP任务上带来更好的性能和样本效率(Devlin等人,2019;Brown等人,2020等)。在许多情况下,缩放对性能的影响通常可以通过缩放定律进行方法预测——例如,交叉熵损失的缩放曲线已被证明在经验上跨越了七个数量级以上(Kaplan等人,2020;Hoffmann等人,2022)。另一方面,某些下游任务的性能似乎并没有随着规模的变化而持续改善,而且这些任务无法提前预测(Ganguli等人,2022)。
在本文中,我们将讨论大型语言模型涌现能力的不可预测现象。作为一种概念的出现在物理学、生物学和计算机科学等领域已经讨论了很长时间(Anderson,1972;Hwang等人,2012年;Forrest,1990年;Corradini和O’Connor,2010年;Harper和Lewis,2012年,内部)。我们将考虑以下对涌现的一般定义,该定义改编自斯坦哈特(Steinhardt,2022),源于诺贝尔奖获得者物理学家菲利普·安德森(Philip Anderson,1972)1972年的一篇题为《更多是不同的》的文章:
涌现是指系统中的数量变化导致行为发生质的变化。
在这里,我们将探讨模型规模的出现,通过训练计算和模型参数的数量来衡量。具体来说,我们将大型语言模型的涌现能力定义为不存在于较小规模模型中但存在于大型模型中的能力;因此,不能通过简单地外推小规模模型的性能改进来预测它们(§2)。1我们调查了在一系列先前工作中观察到的涌现能力,并将其分类为few-shot提示(§3)和增强提示策略(§4)。涌现激发了未来对为什么获得这种能力以及更多的扩展是否会导致进一步涌现能力的研究,我们强调这是该领域的重要问题(§5)
2涌现能力定义
作为一个宽泛的概念,涌现经常被非正式地使用,可以用许多不同的方式进行合理的解释。在本文中,我们将考虑大型语言模型的涌现能力的一个重点定义:
如果一种能力不存在于较小的模型中,但存在于较大的模型中时,它就会出现。
通过从小规模模型中外推比例定律(即一致的性能改进),无法直接预测涌现能力。当通过缩放曲线(x轴:模型缩放,y轴:性能)进行可视化时,涌现能力显示出一种清晰的模式——性能几乎是随机的,直到达到某个缩放的临界阈值,之后性能显著提高到随机以上。这种质的变化也被称为相变——整体行为的急剧变化,这是通过检查较小规模的系统所无法预见的(Huberman&Hogg,1987)。
今天的语言模型主要根据三个因素进行缩放:计算量、模型参数数量和训练数据集大小(Kaplan等人,2020;Hoffmann等人,2022)。在本文中,我们将通过绘制不同模型的性能来分析缩放曲线,其中每个模型的训练计算是以x轴上的FLOP测量的(Hoffmann等人,2022)。因为用更多计算训练的语言模型往往也有更多的参数,我们在附录D中额外显示了以模型参数数量为x轴的图(见图11和图12,以及图4和图10)。使用训练FLOP或模型参数作为x轴产生具有相似形状的曲线,这是因为大多数密集的Transformer语言模型族具有与模型参数大致成比例的缩放训练计算(Kaplan等人,2020)。
训练数据集大小也是一个重要因素,但我们没有针对它绘制能力图,因为许多语言模型族对所有模型大小使用固定数量的训练示例(Brown等人,2020;Rae等人,2021;Chowdhery等人,2022)。尽管我们在这里关注的是训练计算和模型大小,但并没有一个代理能够充分捕捉规模的所有方面。例如,Chinchilla(Hoffmann等人,2022)的参数是Gopher(Rae等人,2021)的四分之一,但使用类似的训练计算;专家模型的稀疏混合在每次训练/推理计算中比密集模型具有更多的参数(Fedus等人,2021;Du等人,2021)。总的来说,将涌现视为许多相关变量的函数可能是明智的。例如,在图4的后面,我们还将绘制作为WikiText103困惑函数的出现图(Merity et al.,2016),这恰好与Gopher/Chinchilla的训练计算密切相关(尽管这种相关性可能不会长期保持)。
请注意,首先观察到能力出现的程度取决于许多因素,而不是能力的不变性质。例如,对于在更高质量数据上训练的模型,可能出现较少的训练计算或较少的模型参数。相反,涌现能力也主要取决于其他因素,例如不受数据量、数据质量或模型中参数数量的限制。今天的语言模型可能没有得到最佳训练(Hoffmann et al.,2022),我们对如何最好地训练模型的理解将随着时间的推移而发展。我们在这篇论文中的目标不是描述或声称需要一个特定的量表来观察涌现能力,而是我们旨在讨论先前工作中涌现行为的例子。
3few-shot提示任务
我们首先讨论了GPT-3推广的提示范式中的涌现能力(Brown et al.,2020)。2在提示中,预先训练的语言模型被给予任务的提示(例如自然语言指令),并在没有任何进一步训练或参数梯度更新的情况下完成响应。Brown等人(2020)提出了few-shot提示,在要求模型执行一个看不见的推理时间示例的任务之前,在模型的上下文(输入)中包括一些输入输出示例作为前导。一个示例提示如图1所示。当模型在一定范围内具有随机性能时,通过少量镜头提示执行任务的能力就会出现,之后性能会提高到远高于随机性。图2显示了来自不同工作的跨越五个语言模型族的八种这样的涌现能力。
BIG-Bench。
图2A–D描述了BIG Bench的四个涌现的few-shot提示任务,BIG Bencht是一个由200多个语言模型评估基准组成的众包套件(BIG Benk,2022)。图2A显示了一个测试3位数加法和减法以及2位数乘法的算术基准。GPT-3和LaMDA(Thoppilan et al.,2022)在几个数量级的训练计算中具有接近零的性能,之后性能急剧上升到随机之上,GPT-3的训练FLOP为21022个(13B参数),LaMDA的训练FLOp为1023个(68B参数)。对于其他任务,类似的涌现行为也发生在大致相同的模型缩放上,例如从国际音标中音译(图2B)、从其加扰字母中恢复单词(图2C)和波斯语问答(图2D)。附录E中给出了BIG Bench的更多涌现能力。
TruthfulQA。
图2E显示了在TruthfulQA基准上,few-shot提示的表现,该基准衡量真实回答问题的能力(Lin et al.,2021)。该基准是针对GPT-3模型进行对抗性策划的,即使缩放到最大的模型大小,GPT-3的性能也不会超过随机性。小型Gopher模型也不会执行高于随机的性能,直到放大到最大的模型51023个训练FLOP(280B参数),其性能跳到高于随机的20%以上(Rae等人,2021)。
Grounded conceptual mappings。
图2F显示了基础概念映射的任务,其中语言模型必须学会映射概念域,例如在文本网格世界中表示的基本方向(Patel&Pavlick,2022)。同样,使用最大的GPT-3模型,性能只会跳到随机以上。
多任务语言理解。
图2G显示了大规模多任务语言理解(MMLU)基准,该基准汇集了57项测试,涵盖了一系列主题,包括数学、历史、法律等(Hendrycks et al.,2021a)。对于GPT-3、Gopher和Chinchilla,~1022个训练FLOP(~10B参数)或更小的模型在所有主题上的平均表现都不如猜测,扩展到3–51023个训练FLOPs(70B–280B参数)可以使性能大大超过随机。这一结果令人震惊,因为它可能意味着,解决跨越大量主题集合的基于知识的问题的能力可能需要扩展到超过这一阈值(对于没有检索或访问外部内存的密集语言模型)。
图2:在few-shot提示设置中出现的八个示例。每个点都是一个单独的模型。当语言模型在一定范围内达到随机性能时,通过少量镜头提示执行任务的能力就会出现,之后性能显著提高到远高于随机。请注意,使用更多训练计算的模型通常也有更多的参数——因此,我们在图11中显示了一个具有多个模型参数的类似图,而不是将FLOP训练为x轴。A-D:BIG Bench(2022),2张照片。E: Lin等人(2021)和Rae等人(2021年)。F: Patel&Pavlick(2022)。G: Hendrycks等人(2021a)、Rae等人(2021)和Hoffmann等人(2022)。H: Brown等人(2020)、Hoffmann等人(2022)和Chowdhery等人(2022年)关于WiC基准(Pilehvar和Camacho-Collados,2019)。
上下文中的单词。
最后,图2H显示了上下文中的单词(WiC)基准(Pilehvar&CamachoCollados,2019),这是一个语义理解基准。值得注意的是,GPT-3和Chinchilla无法实现比随机更好的一次性性能,即使将其扩展到其最大的模型大小~5.1023 FLOP。尽管到目前为止的这些结果可能表明,单独的缩放可能无法使模型解决WiC,但当PaLM缩放到2.51024 FLOP(540B参数)时,最终出现了上述随机性能,这比GPT-3和Chinchilla大得多。
4增强提示策略
尽管few-shot提示可能是目前与大型语言模型交互最常见的方式,但最近的工作提出了其他几种提示和微调策略,以进一步增强语言模型的能力。如果与在应用于足够大的模型之前不使用该技术的基线相比,该技术没有显示出任何改进或有害,我们也认为该技术是一种新兴能力。
图3:专门的提示或微调方法可能会出现,因为它们在一定的模型规模之前不会产生积极影响。A: Wei等人(2022b)。B: Wei等人(2022a)。C: Nye等人(2021)。D: Kadavath等人(2022)。图12中给出了一个类似的图,其中x轴上有多个参数,而不是训练FLOP。A-C中所示的模型是LaMDA(Thoppilan等人,2022),D中所示模型来自Anthropic。
多步骤推理。
推理任务,尤其是涉及多个步骤的推理任务,对更广泛的语言模型和NLP模型来说是具有挑战性的(Rae等人,2021;Bommasani等人,2021年;Nye等人,2020)。最近一种被称为思维链提示的提示策略使语言模型能够通过引导它们在给出最终答案之前产生一系列中间步骤来解决这些问题(Cobbe等人,2021;Wei等人,2022b;Suzgun等人,2022)。如图3A所示,当缩放到1023个训练FLOP(~100B参数)时,思想链提示仅超过标准提示,而没有中间步骤。当用最终答案后的解释来增加很少的射门提示时,也观察到了类似的表现提升(Lampinen等人,2022)。
说明如下。
另一项不断增长的工作旨在更好地使语言模型能够通过阅读描述任务的指令来执行新任务(而不需要few-shot示例)。通过对被表述为指令的混合任务进行微调,语言模型已被证明对描述看不见的任务的指令做出了适当的响应(Ouyang et al.,2022;Wei等人,2022a;Sanh等人,2022;Chung等人,2022)。如图3B所示,Wei等人(2022a)发现,这种指令微调技术会影响71021训练FLOP(8B参数)或更小的模型的性能,并且仅当扩展到1023个训练FLOP(~100B参数)时才提高性能(尽管Sanh等人(2022)不久后发现,这种指令跟随行为也可能由微调较小的编码器-解码器T5模型引起)。
程序执行。
考虑涉及多个步骤的计算任务,例如添加大量数字或执行计算机程序。Nye等人(2021)表明,微调语言模型以预测中间输出(“草稿”)使其能够成功执行此类多步骤计算。如图3C所示,在8位数加法中,使用草稿栏只对~9·1019训练FLOP(40M参数)或更大的型号有帮助。
模型校准。
最后,语言模型研究的一个重要方向是校准,它衡量模型是否能够预测他们能够正确回答哪些问题。Kadavath等人(2022)比较了两种测量校准的方法:真/假技术,模型首先提出答案,然后评估其答案正确的概率“P(真)”,以及更标准的校准方法,与其他答案选项相比,使用正确答案的概率。如图3D所示,只有当缩放到训练FLOP(52B参数)的最大模型规模时,真/假技术的优势才会显现出来。
表1:大型语言模型的涌现能力列表和涌现能力的规模(包括训练FLOP和模型参数的数量)。
5讨论
我们已经看到,到目前为止,只有在足够大的语言模型上进行评估时,才能观察到一系列能力——在few-shot提示设置或其他方面。因此,不能通过简单地外推较小规模模型的性能来预测它们的出现。涌现的few-shot提示任务也是不可预测的,因为这些任务没有明确包括在预训练中,而且我们可能不知道语言模型可以执行的few-shot提示任务的全部范围。这就提出了一个问题,即进一步的扩展是否有可能赋予更大的语言模型新的涌现能力。语言模型目前无法完成的任务是未来出现的主要候选任务;例如,BIG Bench中有几十项任务,即使是最大的GPT-3和PaLM模型也无法实现上述随机性能(见附录E.4)。
规模不可预测地启用新技术的能力不仅仅是理论上的。以图2H所示的上下文中的单词(WiC)基准为例(Pilehvar&Camacho-Collados,2019)。在这里,将GPT-3扩展到31023左右的训练FLOP(175B参数)未能解锁上述随机一次性提示性能。3关于这一负面结果,Brown等人(2020)引用了GPT-3的模型架构或使用自回归语言建模目标(而不是使用去噪训练目标)作为潜在原因,并建议训练具有双向架构的可比较大小的模型作为补救措施。然而,后来的工作发现,进一步扩展仅限解码器的语言模型实际上足以实现该任务的上述随机性能。如图2H所示,将PaLM(Chowdhery等人,2022)从31023个训练FLOP(62B参数)扩展到31024个训练FLOPs(540B参数)导致性能显著提升,而没有Brown等人提出的重大架构变化。(2020)。
5.1出现的潜在解释
尽管涌现能力的例子有几十个,但目前很少有令人信服的解释来解释为什么这些能力会以这种方式出现。对于某些任务,可能有自然的直觉来解释为什么涌现需要一个大于特定阈值缩放的模型。例如,如果一个多步骤推理任务需要l个步骤的顺序计算,这可能需要一个深度至少为O(l)层的模型。同样合理的假设是,更多的参数和更多的训练可以更好地记忆,这可能有助于完成需要世界知识的任务。4例如,封闭式问答的良好性能可能需要一个具有足够参数的模型来捕获压缩的知识库本身(尽管基于语言的压缩器可以比传统压缩器具有更高的压缩比(Bellard,2021))。
考虑用于衡量涌现能力的评估指标也很重要(BIG Bench,2022)。例如,使用精确的字符串匹配作为长序列目标的评估度量可能会将复合增量改进伪装为出现。类似的逻辑可能适用于多步骤或算术推理问题,其中模型只根据多步骤问题的最终答案是否正确来评分,而不考虑部分正确的解决方案。然而,最终答案准确性的跃升并不能解释为什么中间步骤的质量突然变得高于随机性,并且使用不给予部分信任的评估指标充其量是一个不完整的解释,因为在许多分类任务(例如,图2D–H中的任务)中仍然观察到涌现能力。
作为一种替代评估,我们测量了六个涌现BIG Bench任务的交叉熵损失,该损失用于预训练的比例律,如附录A所示。该分析遵循了BIG Bench2022的相同实验设置,并确认了他们对我们考虑的六个涌现任务的结论。也就是说,即使对于下游度量(精确匹配、BLEU和精度)接近随机且没有改善的小模型缩放,交叉熵损失也会改善,这表明目标序列的对数似然性的改善可以被这种下游度量掩盖。然而,这一分析并没有解释为什么下游指标会出现,也没有使我们能够预测出现的规模。总的来说,还需要做更多的工作来梳理是什么使规模能够解锁涌现能力。
5.2超越规模
尽管我们可能会观察到一种涌现能力在一定规模上发生,但这种能力后来可能会在较小规模上实现——换句话说,模型规模并不是释放涌现能力的唯一因素。随着训练大型语言模型的科学进步,对于具有新架构、更高质量数据或改进的训练程序的较小模型,某些能力可能会被解锁。例如,存在LaMDA 137B和GPT-3 175B模型几乎随机执行的14个BIG Bench任务5,但事实上,尽管具有较少的模型参数和训练FLOP,但PaLM 62B实现了以上随机性能。虽然没有实证研究消除PaLM 62B和先前模型之间的所有差异(计算成本太高),但PaLM性能更好的潜在原因可能包括高质量的训练数据(例如,比LaMDA更多的多语言和代码数据)和架构差异(例如,分位数编码;见Chowdhery等人(2022)第2节)。解锁涌现的另一种潜在方法是通过不同的预训练目标——Tay等人(2022c)表明,在混合去噪器目标上的计算高效的持续预训练阶段(Tay等人,2022a)能够在几个BIG Bench任务上实现涌现性能。
此外,一旦发现了一种能力,进一步的研究可能会使这种能力适用于较小规模的模型。考虑使语言模型能够遵循描述任务的自然语言指令的新生方向(Wei et al.,2022a;Sanh et al.,2022;欧阳等人,2022等)。尽管Wei等人(2022a)最初发现基于指令的微调仅适用于68B参数或更大的仅解码器模型,但Sanh等人(2022)在具有编码器-解码器架构的11B模型中诱导了类似的行为,该架构在微调后通常比仅解码器架构具有更高的性能(Wang等人,2022a)。另一个例子是,欧阳等人(2022)为InstructGPT模型提出了一种从人类反馈中进行微调和强化学习的方法,这使得1.3B模型在广泛的用例集上的人类评分评估中优于更大的模型。
也有人致力于提高语言模型的一般few-shot提示能力(Gao et al.,2021;Schick&Schütze,2021等)。关于语言建模目标为什么促进某些下游行为的理论和可解释性研究(Wei et al.,2021a;Saunshi et al.,2021)反过来可能会对如何实现超越简单规模的涌现产生影响。例如,预训练数据的某些特征(例如,长程一致性,具有许多罕见类别)也已被证明与涌现的few-shot提示相关,并可能在较小的模型中实现(Xie等人,2022;Chan等人,2022),在某些场景中,few-shot学习可能需要特定的模型架构(Chan et al.,2022)。计算语言学的工作进一步表明,当模型参数和训练FLOP保持不变时,训练数据的阈值频率如何激活涌现的句法规则学习(Wei et al.,2021b),这甚至被证明具有类似于心理语言学文献中的惊人“啊哈”时刻(Abend et al.,2017;张等人,2021)。随着我们继续训练语言模型,降低涌现能力的量表阈值对于更广泛地向社区提供对这些能力的研究将变得更加重要(Bommasani等人,2021;Ganguli等人,2022;梁等人,2022)。
自然,仅由不断增加的规模(训练计算、模型参数和数据集大小)组成的程序存在局限性。例如,缩放最终可能会受到硬件限制,一些能力可能在这一点上还没有出现。其他能力可能永远不会出现——例如,即使是一个非常大的训练数据集,也可能永远无法实现任何显著的性能。最后,一种能力可能出现,然后趋于平稳;换句话说,不能保证缩放能够达到所需的水平。
5.3出现的另一种观点
尽管到目前为止,规模(例如,训练FLOP或模型参数)在许多下游指标上与语言模型性能高度相关,但规模不一定是观察涌现能力的唯一视角。例如,任务特定能力的出现可以作为语言模型在一般文本语料库(如WikiText103)上的困惑的函数进行分析(Merity et al.,2016)。图4显示了这样一个图,其中x轴上是语言模型的WikiText103困惑,y轴上是MMLU基准测试的性能,x轴上则是训练FLOP和模型参数的图。
因为WikiText103的困惑和训练FLOP恰好与这里考虑的模型(Gopher和Chinchilla)高度相关,所以两者的涌现能力图看起来相似。然而,随着香草密集Transformer模型之外的新技术的发展,WikiText103困惑和规模之间的这种相关性在未来可能不会成立(例如,检索增强模型可能具有较强的WikiText103困扰,训练计算较少,模型参数较少(Borgeud et al.,2021))。还要注意的是,由于训练数据组成的差异等因素,使用WikiText103困惑在模型族之间进行比较可能会很复杂。总的来说,涌现能力可能应该被视为许多相关变量的函数。
5.4涌现风险
重要的是,类似于在没有明确纳入预训练的情况下,在few-shot提示环境中观察到的涌现能力,风险也可能出现(Bommasani等人,2021;Steinhardt,2021;Ganguli等人,2022)。例如,大型语言模型的社会风险,如真实性、偏见和毒性,是一个日益增长的研究领域(Weidinger等人,2021)。这些风险是重要的考虑因素,无论它们是否可以根据§2中的定义准确地描述为“涌现”,并且在某些情况下,确实会随着模型规模的增加而增加(见逆比例奖6)。由于对涌现能力的研究激励了语言模型的扩展,因此重要的是要意识到随着模型扩展而增加的风险,即使这些风险不是涌现的。
在此,我们总结了先前关于特定社会风险与模型规模之间关系的几项研究结果。关于WinoGender(Rudinger et al.,2017),它测量了“护士”或“电工”等职业中的性别偏见,到目前为止,缩放已经提高了性能(Du et al.,2021;Chowdhery et al.,2022),尽管BIG Bench(2022)在BBQ偏见基准(Parrish et al.,2020)中发现,在模棱两可的情况下,偏见会随着缩放而增加。至于毒性,Askell等人(2021)发现,虽然更大的语言模型可以从RealToxicityPrompts数据集中产生更有毒的反应(Gehman等人,2020),但通过给模型提示“有用、无害和诚实”的例子,可以减轻这种行为,发现较大的模型更有可能记忆训练数据(Carlini等人,2021;2022),尽管已经提出了重复数据消除方法,并且可以在提高性能的同时减少记忆(Kandpal等人,2022;Lee等人,2022a)。TruthfulQA基准(Lin et al.,2021)表明,随着GPT-3模型变得越来越大,它们更有可能模仿人类的谎言,尽管Rae et al.(2021)后来在多项选择版本中表明,将Gopher扩展到280B可以使涌现性能大大好于随机。
除此之外,涌现风险还包括可能只存在于未来语言模型中或尚未在当前语言模型中表征的现象。Hendrycks等人(2021b)详细讨论了一些此类行为,这些行为可能是后门漏洞、无意欺骗或有害内容合成。已经提出了涉及数据过滤、预测、治理和自动发现有害行为的方法,以发现和减轻涌现风险(Bender等人,2021;Weidinger等人,2021年;Steinhardt,2021;Ganguli等人,2022;Perez等人,2022等)。有关大型语言模型的风险(包括涌现风险)的更详细讨论,请参见Bender等人(2021);Steinhardt(2021);Bommasani等人(2021);Ganguli等人(2022)。
图4:顶行:Chinchilla和Gopher在WikiText103(Merity et al.,2016)上训练FLOP、模型参数和困惑(ppl)之间的关系。最底层:大规模多任务语言理解基准测试(MMLU;Hendrycks等人,2021a)的总体性能,作为训练FLOP、模型参数和WikiText103困惑的函数。
5.5社会学变化
最后,这里讨论的涌现能力集中在模型行为上,只是NLP中几种涌现类型之一(Manning等人,2020;Teehan等人,2022)。另一种值得注意的质的变化是社会学,在社会学中,规模的增加改变了社区对语言模型的看法和使用方式。例如,NLP历来专注于特定任务的模型(Jurafsky和Martin,2009)。最近,缩放导致了对“通用”模型的研究和开发的激增,因为它们是单个模型,旨在执行训练数据中未明确编码的一系列任务(例如,GPT-3、Chinchilla和PaLM)(Manning,2022)。
在社会学向通用模型的突然转变中,一组关键的结果是,当缩放使few-shot提示的通用模型优于微调的特定任务模型所拥有的现有技术时。作为几个例子,GPT-3 175B在TriviaQA和PiQA问答基准上实现了新的技术状态(Brown等人,2020);PaLM 540B在三个算术推理基准上实现了新的技术水平(Chowdhery等人,2022);多模态火烈鸟80B模型在六个视觉问答基准上实现了新的技术水平(Alayrac等人,2022)。在所有这些情况下,最先进的性能都是通过few-shot来实现的,提示了一个前所未有规模的语言模型(这些示例的缩放曲线如附录图13所示)。这些能力并不一定是突然出现的,因为它们具有平滑、可预测的比例曲线——然而,它们确实强调了NLP社区中向通用模型的社会学转变。
仅举几个例子,通用模型能够执行看不见的任务,这也导致了语言模型在NLP研究界之外的许多新应用。例如,语言模型已经通过提示被用于将自然语言指令翻译成机器人可执行的动作(Ahn等人,2022;Huang等人,2022),与用户交互(Coenen等人,2021;吴等人,2021年;2022a;Lee等人,2022b),并促进多模态推理(Zeng等人,2022年;Alayrac等人,2022。大型语言模型也在现实世界中部署在产品中,如GitHub CoPilot,7,并直接作为服务本身部署,如OpenAI的GPT-3 API。8
5.6未来工作方向
未来关于涌现能力的工作可能包括训练能力更强的语言模型,以及更好地使语言模型能够执行任务的方法。一些潜在的方向包括但不限于以下内容。
进一步的模型缩放。
到目前为止,进一步扩展模型似乎增加了语言模型的功能,这是未来工作的一个直接方向。然而,简单地扩大语言模型在计算上是昂贵的,并且需要解决大量的硬件挑战,因此其他方法可能会在未来大型语言模型的涌现能力中发挥关键作用。
改进了模型架构和培训。
改进模型体系结构和训练程序可以促进具有涌现能力的高质量模型,同时降低计算成本。一个方向是使用稀疏混合专家架构(Lepikhin等人,2021;Fedus等人,2021年;Artetxe等人,2021,Zoph等人,2022),该架构在保持输入的恒定计算成本的同时,扩大模型中的参数数量。提高计算效率的其他方向可能涉及不同输入的可变计算量(Graves,2016;Dehghani等人,2018),使用比神经网络中所有权重的反向传播更本地化的学习策略(Jaderberg等人,2017),以及用外部记忆扩充模型(Guu等人,2020;Borgeud等人,2021;Wu等人,2022b等)。这些新生的方向已经在许多场合显示出了希望,但尚未得到广泛采用,这可能需要进一步的工作。
数据缩放。
在足够大的数据集上进行足够长时间的训练已被证明是语言模型获取句法、语义和其他世界知识能力的关键(Zhang et al.,2021;Wei等人,2021b;Razeghi等人,2022)。最近,Hoffmann等人(2022)认为,先前的工作(Kaplan等人,2020)低估了训练计算优化模型所需的训练数据量,强调了训练数据的重要性。在固定的模型大小约束下,收集大型数据集以便对模型进行更长时间的训练可以允许更大范围的涌现能力。
更好的提示技巧和理解。
尽管few-shot提示(Brown et al.,2020)简单有效,但对提示的一般改进可能会进一步扩展语言模型的能力。例如,校准输出概率(赵等人,2021;Holtzman等人,2021)或使用有噪声信道(Min等人,2022a)等简单修改提高了一系列任务的性能。用中间步骤扩充few-shot样本(Reynolds&McDonnell,2021;Nye等人,2021;Wei等人,2022b)也使模型能够执行Brown等人的标准提示公式中不可能执行的多步骤推理任务。(2020)。此外,更好地探索是什么使提示成功(Wei et al.,2021a;Xie et al.,2022;Min等人,2022b;Olsson等人,2022)可以深入了解如何在较小的模型规模下引发涌现能力。对模型工作原理的充分理解通常滞后于few-shot提示等技术的开发和普及,而且随着时间的推移,随着更强大的模型的开发,提示的最佳实践也可能发生变化。
前沿任务。
尽管语言模型可以执行广泛的任务,但仍有许多任务,即使是迄今为止最大的语言模型也无法以上述随机精度执行。附录E.4列举了BIG Bench的数十项此类任务;这些任务通常涉及抽象推理(例如下棋、挑战数学等)。未来的研究可能会调查为什么这些能力还没有出现,以及如何使模型能够执行这些任务。展望未来,另一个增长方向可能是多语言的出现;多语言BIG Bench任务的结果表明,模型规模和训练数据都在出现中发挥了作用(例如,图2D显示,使用PaLM的训练数据集和扩展到62B参数都是波斯语问答所必需的)。其他前沿任务可能包括以多种方式进行提示(Alayrac等人,2022;Ramesh等人,2022)。
理解涌现。
除了解锁进一步涌现的研究之外,未来研究的一个悬而未决的问题是,涌现能力如何以及为什么会出现在大型语言模型中。本文对BIG Bench上交叉熵损失的缩放(附录A.1)、生成任务的不同度量(附录A.2)以及出现的任务类型(附录A.3和附录B)进行了初步分析。这些分析并没有提供出现的原因或如何预测的完整答案。未来的研究可能会以新的方式分析涌现(例如,分析涌现任务和训练中类似数据之间的关系;创建一个需要多个组成子任务的合成任务,并评估每个子任务如何随着规模的增长而改进,并在组合时解锁涌现)。总的来说,理解涌现是一个重要的方向,因为它可能让我们预测未来的模型可能具有什么能力,并为如何训练更有能力的语言模型提供新的见解。
6结论
我们已经讨论了语言模型的涌现能力,到目前为止,只有在一定的计算规模上才能观察到有意义的性能。涌现能力可以跨越各种语言模型、任务类型和实验场景。这种能力是最近发现的扩展语言模型的结果,它们是如何出现的,以及更多的扩展是否会使进一步的涌现能力成为NLP领域未来重要的研究方向。
更广泛的影响声明
在本文中,我们调查了现有文献中的结果,没有提出新的方法或模型。正如(§5)中所讨论的,涌现能力在几个方面是不可预测的,包括涌现风险(§5.4)。我们认为这些现象值得仔细研究,并为该领域提出了重要问题。
BIG Bench分析
A.1交叉熵损失分析
在这里,我们研究了缩放曲线如何根据用于衡量性能的评估指标而出现不同。我们将重点讨论六个few-shot提示的BIG Bench任务,我们认为这些任务对于LaMDA模型来说是涌现的。其中三项任务是生成性的,并使用精确匹配(EM)或BLEU(Papineni等人,2002)作为评估指标。其他三项任务是分类和使用准确性(acc)作为评估指标。
在这些任务的缩放曲线中,对于小型模型(≤1022 FLOP/≤27B参数),EM/BLEU/acc的性能接近随机。我们将这些缩放曲线与通过交叉熵损失测量的具有不同y轴的替代图进行比较。交叉熵损失与EM/BLEU/acc的不同之处在于,即使EM/BLEU/acc是随机的,它也能捕捉到性能的改进(预测的分布越来越接近真实情况)。例如,如果通过EM/BLEU/acc测量的两个示例都是错误的,则一个示例在概率方面可能更接近基本事实,并且该信息通过交叉熵损失来捕获。
这些地块看起来像以下其中一个:
•结果1:对于EM/BLEU/acc是随机的模型缩放,交叉熵损失也不会随着缩放的增加而改善。这一结果意味着,对于这些规模,模型在任务方面确实没有任何改进。
•结果2:对于EM/BLEU/acc是随机的模型缩放,交叉熵损失确实有所改善。这一结果意味着模型确实在任务方面做得更好,但这些改进并没有反映在下游感兴趣的指标中。更广泛的含义是,缩放小模型以一种在EM/BLEU/Acc中没有反映的方式改进了模型,并且存在一些关键的模型规模,这些改进使下游度量能够增加到高于随机性的涌现能力。
我们发现,所有六项BIG Bench任务都属于结果2,并在下面详细介绍了这一分析。总体而言,该分析得出的结论是,小型模型确实在某些方面有所改进,而EM/BLEU/Acc没有捕捉到这些下游指标。然而,这些任务仍然被认为是涌现的,并且该分析没有提供任何关于如何预测这种涌现行为的直接指标。
A.1.1生成性任务
图5显示了三个生成BIG Bench任务(修改算法、IPA音译和单词解读)的交叉熵损失,以及图2中使用的下游评估指标。对于所有三项任务,请注意,虽然小模型(≤1022 FLOP/≤27B params)的错误率接近100%,但对于这些模型大小,交叉熵损失确实有所改善。在以错误率衡量的出现点上,我们还看到了交叉熵损失性能改进的“拐点”。
A.1.2分类任务
图6(中间一行)显示了三个分类BIG Bench任务的交叉熵损失。与生成任务类似,当错误率接近随机时,对于使用更多计算训练的模型,交叉熵损失仍然持续改善。这再次表明,通过精度计算的性能可以掩盖目标序列的可能性的一致改进。
我们还对图6(底行)中的多选涌现任务进行了额外的分析,其中显示了正确响应和错误响应的对数概率。我们发现,在三个涌现多选任务中,正确和不正确的回答都会降低交叉熵损失。与直觉相反,即使对所有可用的多选回答的概率进行归一化,两种对数概率也会同时降低。原因是较大的模型产生较少的极端概率(即接近0或1的值),因此平均对数概率具有较少的极小值。然而,我们注意到,对于这三项任务中的每一项,正确和不正确响应的平均对数概率最终会在一定范围内发生偏差,在此期间,任务的性能会大幅提高。
图6:BIG Bench上三个分类任务的错误率、交叉熵损失和正确和错误响应的对数概率的相邻图,我们认为这三个任务展示了涌现能力。逻辑自变量只有32个样本,这可能会导致噪声。错误率为(1-准确度)。
A.2生成任务的不同度量
在§5.1中,我们询问生成任务上明显的涌现能力是否是由于使用了特定的度量,如精确字符串匹配,该度量不会授予部分正确的序列。在这里,我们展示了三个使用BIG Bench提供的所有评估指标的新兴生成BIG Benc任务,其中包括BLEU、ROUGE和BLEURT等指标,这些指标对与目标不完全匹配的答案给予部分奖励。对于所有三个任务,涌现行为似乎与使用的评估度量无关。因此,我们得出结论,使用精确的字符串匹配而不是另一个授予部分学分的评估指标,并不能完全解释生成任务的出现。两个新兴的生成BIG Bench任务,单词解读和重复复制逻辑,在这里被排除在外,因为精确匹配是这些任务唯一最明智的评估指标,这些任务衡量在输入中操纵单词的能力(因此,像BLEU和ROUGE这样给予单词级部分信用的指标是无效的)。
A.3 BIG工作台任务分析
BIG Bench包含200多个任务,每个任务都有由提交任务的作者识别的相关关键字(例如,“常识”、“多语言”)。鉴于此,我们提出了一个问题,哪些类型的BIG Bench任务更有可能是涌现的(与平稳扩展相比)?为了进行此分析,我们手动将所有210个BIG Bench任务分类为迄今为止的涌现任务或非涌现任务。我们使用了§3中给出的涌现的定义,即任务在达到一定规模之前具有接近随机的性能,之后性能显著增加到高于随机的水平(而不是平稳增加)。因为这个定义基于“近随机”的定义可能是主观的(我们决定的任何启发式方法都会对这些主观偏见进行编码),所以该论文的两位合著者合作,对所有被标记为涌现的任务都充满信心。为了完全透明,附录E中列出了这组注释。
在图8中,我们显示了BIG Bench中每个关键字出现的任务数量。此外,我们根据首次使用LaMDA 137B或GPT-3 175B出现的任务,以及直到使用PaLM模型才出现的任务对它们进行了分层。该图中的非涌现任务包括“平稳增加”任务(性能可预测地随着模型大小而增加)或“平坦”任务(所有模型都实现了近似随机的性能)。此图表中未包含的其余40个BIG Bench任务不属于上述任何类别(例如,由于评估示例很少而过于嘈杂,性能与模型规模不相关等)。
由于每个关键词的任务数量在不同关键词之间有很大差异,并且大多数关键词的任务不到20个,因此“最涌现”的关键词取决于我们是比较涌现任务的数量还是比较每个关键词的涌现任务百分比。跟踪每个关键字的涌现任务的绝对数量是有问题的,因为它实际上只捕获了BigBench中使用的最常见的关键字。因此,我们跟踪了哪些关键词的涌现任务百分比最高,这些任务是类比推理、词义消歧、真实性、社会推理和情感理解。虽然人们可能会先验地认为与推理相关的任务更有可能是涌现任务,但前五项任务中只有两项是推理,而逻辑推理和因果推理等其他关键词标签在涌现任务中所占比例并不特别高。此外,算术和数学的涌现任务比例相对较低,这是出乎意料的,因为一些最早的涌现任务出现在算术上(Brown等人,2020)。总的来说,没有明确的趋势表明哪些类型的任务最为涌现。
最后,用平坦的比例曲线检查哪些关键词的任务最多,也可以与先前的直觉保持一致。例如,视觉推理在具有平坦比例曲线的任务中所占比例最大(8/13),因为语言模型不是为视觉推理而设计的。其他包含大量平面缩放曲线任务的类别包括非语言、重复交互、上下文长度、计算机代码和多步骤——所有这些都针对大型语言模型的弱点。这些平面类别可能是未来在大型语言模型中出现的工作方向。
图8:BIG Bench中关键字的涌现任务比例(每个任务可以关联多个关键字)。我们只包含了至少五个任务的关键字。平稳增长:随着模型规模的增加,性能可以预见地提高。与LaMDA/GPT一起出现:在与LaMDA 137B或GPT-3 175B一起使用之前,性能几乎是随机的。出现PaLM:在使用PaLM模型(8B、62B或540B)之前,所有先前模型的性能几乎是随机的。平坦:没有哪个模型比随机模型性能更好。
B MMLU的进一步分析
在§5.3中,我们看到了Gopher和Chinchilla在MMLU上的涌现性能如何被视为训练FLOP、模型参数和WikiText103困惑的函数。因为MMLU实际上是一套57个主题,涵盖四个类别,我们要问的问题是,某些类别是否比其他类别更有利于出现。这与上一节(附录A.3)中所做的BIG Bench分析的性质相似。这里的一个区别是MMLU类别是互斥的——每个主题只有一个类别,而单个BIG Benchtask通常有多个关键字标签。然而,MMLU只有四个类别和57个任务(相比之下,BIG Bench有200多个任务和数十个关键字)。
在图10中,我们在基准中给出的四个类别(人文、STEM、社会科学和其他)中对MMLU的性能进行了分层,并用多个x轴绘制它们:训练FLOP、模型参数和WikiText103困惑。很明显,社会科学和人文学科在从第二大模型到最大模型的表现上跳得最大,STEM的表现跳得最小。对于给定的x轴(训练FLOP、模型参数、WikiText103 ppl),所有四个类别都具有相似的绘图形状。这一结果也总结在图9中。
图9:最大的Chinchilla和Gopher模型(分别为70B和280B)与第二大模型(Chiinchlla和Gopher的7B参数)相比的性能。7B Chinchilla和Gopher模型在所有四个类别中的表现都是随机的(25%)。因此,从7B到70B/280B进步最大的类别是人文和社会科学,而STEM(科学、技术、工程和数学)进步最小。
图10:MMLU上Chinchilla和Gopher的出现。在四行中,性能被分为四个子类别。对于Chinchilla和Gopher来说,社会科学的出现程度最高,而STEM的出现程度最低。
C所有型号详细信息
下面的表2总结了我们工作中强调的模型的参数计数、训练令牌的数量和训练FLOP。这些模型从最小的具有2.1M参数的LaMDA模型到最大的具有540B参数和2.5E+24训练FLOP的PaLM模型,大约是GPT-3计算预算的8倍。
D带参数计数的缩放
图11、12和13显示了具有多个模型参数的x轴的涌现能力。
图11:在few-shot提示设置中出现的八个示例。每个点都是一个单独的模型。当语言模型在一定范围内达到随机性能时,通过少量镜头提示执行任务的能力就会出现,之后性能显著提高到远高于随机。请注意,具有更多参数的模型通常也使用更多的训练计算——因此,我们在图2中显示了一个具有训练FLOP的类似图,而不是将模型参数的数量作为x轴。A-D:BIG Bench(2022),2张照片。E: Lin等人(2021)和Rae等人(2021年)。F: Patel&Pavlick(2022)。G: Hendrycks等人(2021a)、Rae等人(2021)和Hoffmann等人(2022)。H: Brown等人(2020)、Hoffmann等人(2022)和Chowdhery等人(2022年)关于WiC基准(Pilehvar和Camacho-Collados,2019)。
图12:专门的提示或微调方法可能会出现,因为它们在一定的模型规模之前不会产生积极影响。A: Wei等人(2022b)。B: Wei等人(2022a)。C: Nye等人(2021)。D: Kadavath等人(2022)。A-C中所示的模型是LaMDA(Thoppilan等人,2022),D中所示模型来自Anthropic。
图13:在一些基准测试中,任务通用模型(没有明确训练来执行任务)超过了特定任务模型之前的最先进性能。A&B:Brown等人(2020)。C: Chowdhery等人(2022)。D: Alayrac等人(2022)
E BIG工作台任务分类
本附录包含用于附录A.3中图8的任务分类注释。每个任务只显示在一个类别中。也就是说,如果一个任务最初是用GPT-3或LaMDA出现的,我们将其从PaLM出现类别中排除。
值得注意的是,附录E.4列出了没有一个模型比随机(即平坦的缩放曲线)表现更好的任务。这些任务是未来出现的潜在候选者,因为未来的模型可能会在它们上实现以上随机性能。
E.1平稳增长
抽象叙事理解、自动分类、bbq-lite-json、因果、国际象棋状态跟踪、康朗翻译、上下文定义对齐、上下文参数知识冲突、coqa会话问答、冷冻生物学西班牙语、日期理解、表情符号情绪预测、经验判断、隐含极性、评估信息重要性,预测子问题、gem、一般知识、印地语问答、人体器官感官、含义、隐含关系、意图识别、语言映射、列表函数、矩阵形状、多数据争论、多表情、自然指令、无意义单词语法、对象计数、运算符、表中的企鹅、物理学、波兰序列标记、qa wikidata,关于有色物体的推理、改写、谜语感、句子歧义、相似性抽象、简化概念、简单算术、简单算术json、简单算术json多选、简单算术Jason子任务、简单算术多目标json、简易伦理问题、班别转换、主动一致、瑞典语到德语谚语、撤消排列,单位转换,上下文学习中的非自然现象,衔接回指解析barqa,displqa,新概念,周期元素
E.2出现GPT-3或LaMDA
分析蕴涵、代号、常见词素、事实核查器、修辞检测、性别包容性句子德语、印度教知识、国际音标音译、反讽识别、逻辑隐语、逻辑推导、误解、修正算术、短语相关性、身体直觉、问答创建、重复复制逻辑、自我评估辅导,社交iqa,体育理解,奇怪的故事,战略qa,斯瓦希里英语谚语,单词排序,单词解读
E.3涌现情况
年代错误、类比相似性、ascii单词识别、自动调试、因果判断、代码行描述、概念组合、crass ai、cryptonite、cs算法、消歧qa、初等数学qa、表情符号电影、英语谚语、英俄谚语、几何形状、目标步骤wikihow、gre阅读理解、hinglish毒性、overbaton、识别奇数隐喻、,国际音标nli,语言识别,语言学谜题,逻辑网格谜题,逻辑谬误检测,逻辑序列,隐喻布尔,隐喻理解,电影对话相同或不同,奇数出局,parsinlu qa,parsinlo阅读理解,物理问题,问题选择,标记,充足信息,时间序列,时间刻度,理解寓言、单元解读、vitamic事实验证
E.4平面(没有比随机模型更好的模型)
抽象和推理语料库,作者验证,一对一检验,汉语余数定理,cifar10分类,颜色,com2sense,循环字母,话语标记预测,形式谬误三段论否定,hhh对齐,汉字ascii,卡纳达,键值映射,语言游戏,数学归纳,微小谜团qa,误解俄语,mnist ascii,多步骤算术,导航,段落分割,玩相同或不同的对话框,与nli一样的预设,程序合成,python编程挑战,真实或虚假文本,根优化和游戏,显著翻译错误检测,自我意识,上下文中的语义解析sparc,语义解析蜘蛛,简单文本编辑,数独,符号解释,talkdown,时态,文本导航游戏,主题聊天,跟踪混乱的对象,二十个问题,谎言之网,维基编辑,winowhy,集合和图形上的单词问题
E.5其他
优于随机且与量表无关:布尔表达式、崩溃开花、动态计数、隐含极性印地语、认知推理、总结的真实性、幻想推理、性别敏感汉语、性别敏感英语、高低游戏、识别数学定理、交叉几何、穆斯林暴力偏见、波斯习语、蛋白质互动网站、科学新闻稿,自我评估法庭,社会支持,拼字比赛,禁忌,测试集训练,真实的qa,是非黑白,黑色幽默检测,dyck语言,道德允许性,废墟名称模型随着规模的增加而变得更糟:bbq lite,来自概率的偏见,多样的社会偏见,电影推荐,unqover没有足够的例子:已知的未知因素,自杀风险,道是什么不完整的评估:令人信服,长上下文整合,医学问题俄语其他:算术(在1B出现,不属于上述类别),很少注射nlg(不确定为什么BLEURT在这里是负的)
F PaLM 62B是涌现的,但GPT-3和LaMDA不是
我们在§5.2中指出,规模并不是出现的唯一因素,因为尽管PaLM 62B具有较少的模型参数和较少的训练FLOP,但在GPT-3 175B和LaMDA 137B没有出现的许多BIG Bench任务中,PaLM 62B显示出出现。这是任务列表:年代错误,ascii单词识别,概念组合,密码,消除歧义qa,表情符号电影,目标步骤wikihow,gre阅读理解,语言学谜题,逻辑网格谜题,隐喻布尔,隐喻理解,奇数,parsinlu qa。