Prismer：一个专家集合的视觉语言模型

Prismer: A Vision-Language Model with An Ensemble of Experts

Mar 2023

Shikun Liu, Linxi Fan, Edward Johns, Zhiding Yu, Chaowei Xiao, Anima Anandkumar

[Imperial College London, NVIDIA, ASU, Caltech]

https://arxiv.org/abs/2303.02506

https://shikun.io/projects/prismer

https://github.com/NVlabs/prismer

摘要：最近的视觉语言模型显示了令人印象深刻的多模态生成能力。然而，它们通常需要在海量数据集上训练庞大的模型。作为一种更具可扩展性的替代方案，我们引入了Prismer，这是一种数据和参数高效的视觉语言模型，它利用了领域专家的集合。Prismer只需要对少量组件进行训练，其中大部分网络权重继承自现成的、经过预先训练的领域专家，并在训练期间保持冻结。通过利用来自广泛领域的专家，我们发现Prismer可以有效地汇集这些专家知识，并将其应用于各种视觉语言推理任务。在我们的实验中，我们发现Prismer实现了微调和few-shot学习性能，与当前最先进的模型相比具有竞争力，同时需要的训练数据少了两个数量级。

1 引言

大型预先训练的模型在广泛的任务中表现出了卓越的通用能力。然而，就训练和推理所需的计算资源以及对大量训练数据的需求而言，这些能力的成本很高。在语言领域，具有数千亿可学习参数的模型通常需要yottaFLOP规模的计算预算[18，8，7，65]。

视觉语言学习中的问题可以说更具挑战性。这个领域是一套严格的语言处理，同时也需要视觉和多模态推理所特有的额外技能。例如，许多图像字幕和视觉问答问题要求模型能够进行细粒度的对象识别、检测、计数和3D感知[4，14]。一个典型的解决方案是使用大量的图像文本数据来训练一个巨大的整体模型，该模型学习在相同的通用架构内从头开始、同时开发这些特定于模态的技能

相反，我们研究了一种替代方法，通过不同的、独立的子网络（称为“专家”）学习这些技能和领域知识。因此，每个专家都可以针对特定任务进行独立优化，从而允许使用在单个大型网络中不可行的特定领域数据和架构。这将提高训练效率，因为该模型可以专注于整合专业技能和领域知识，而不是试图一次学习所有内容，从而成为减少多模式学习的有效方式。

为了实现这一点，我们提出了Prismer1，这是一种视觉条件自回归文本生成模型，经过训练，可以更好地使用不同的预训练领域专家来执行开放式视觉语言推理任务。Prismer的关键设计元素包括i）强大的纯视觉和纯语言模型，用于构建我们的核心网络主干，以及ii）特定于模式的视觉专家，编码多种类型的视觉信息，包括深度等低级视觉信号，以及实例和语义标签等高级视觉信号，作为辅助知识的一种形式，直接从其相应的网络输出。所有专家模型都经过单独预训练和冻结，并通过一些轻量级可训练组件进行连接，这些组件约占总网络参数的20%。

尽管Prismer仅在13M个公开可用的图像/替代文本数据示例上进行了训练，但它在图像字幕、图像分类和视觉问题解答等任务中显示出强大的多模态推理性能，与许多最先进的视觉语言模型[3，80，82]相比具有竞争力，这些模型使用了一个或两个数量级的数据进行训练。最后，我们对Prismer的学习行为进行了深入分析，并观察到一些令人鼓舞的益处。例如，i）Prismer对包含噪声专家表现出强大的鲁棒性，ii）学习性能也随着专家数量或质量的增加而增加。

2 相关工作

视觉语言模型（VLM）

受Transformer在语言领域的突破[78，23]的启发，早期的工作旨在在单流设计中使用基于Transformer的共享网络来建模视觉语言关系[1，15，45，74]。这些工作通常利用预先训练的对象检测器，将图像编码为视觉单词序列，由对象或区域级特征参数化。Prismer采用了一种稍微不同的方法，使用预先训练的模型来提供其输出预测作为辅助信号，同时仍然依赖原始图像来编码视觉特征。

另一系列作品在双流设计中将视觉和语言特征编码在单独的网络中，其中仅视觉和仅语言特征通过对比学习对齐[64，89，34，43]。这些工作通常侧重于封闭式多模式对齐任务，如图像文本分类和检索。相比之下，Prismer的视觉编码器还通过对比学习的预训练将其视觉特征与语言嵌入对齐，但更强调多模态生成任务。

过去几年中，单流和双流VLM通常都经过了多个目标的预训练，如掩码语言建模、掩码区域建模、单词区域对齐、视觉基础等[1，17，42，43，54]。这些多重目标可能会使训练过程更加复杂，需要仔细平衡不同的损失。Prismer采用了一种不同的方法，与关注语言生成的VLM的最新发展保持一致，只需要一个自回归训练目标[80，82，32]。尽管降低了复杂性，但训练这些大型VLM是数据密集型的，并且需要计算，通常需要数十亿的训练数据。为了克服这些挑战，Prismer利用强大的预训练领域专家模型进行数据高效训练。与另一组工作不同，Prismer使用较小但不同的预训练模型，专注于微调性能，强调参数效率。

多任务和辅助学习

多任务学习和辅助学习旨在训练模型以从单个输入预测多个模态（如语义分割、对象检测和深度估计），从而提高一个或多个任务的性能。这通常通过设计有效的多任务网络来实现，该网络平衡任务共享和任务特定特征[50，56，75，85]，或通过任务关系的显式建模[48，49，57，87，27]。Prismer也采用多种模式，类似于这些方法，但仅将其用作输入，用作辅助知识。《Prismer》与[5，29]等作品更为相关，这些作品利用经过预训练的专家为多任务自训练创建伪标签。然而，尽管这些方法侧重于通过多任务监督来学习任务不可知的特征，Prismer只专注于具有单个任务目标的多模态推理。

统一预训练专家

在先前的研究中，已经调查了使用不同的预训练领域专家进行多模态推理。苏格拉底模型[88]使用语言作为单向通信接口，以连接不同的预训练专家。然而，这种设计仅限于预先训练的专家所训练的领域内的多模态推理，并且先前专家预测的错误可以被转发给未来的专家。另一方面，PIC[44]通过使用一组预先训练的专家来评估每个专家的预测，并通过迭代闭环沟通达成共识，从而解决了这个问题。虽然这两种方法都在无需任何训练的情况下以零炮方式执行多模态推理，但Prismer利用统一的架构设计来增强预训练专家之间的信息集成和共享。

最后，我们想指出《Prismer》中定义的“混合专家（MoE）”[68，59，55]和“专家集合”之间的区别。在MoE中，“专家”是单个网络中的子模块，通过其相应的门控网络相互连接，根据共享的训练目标对隐性知识进行编码。相反，在Prismer中，“专家”是独立预训练的模型，根据其预训练的任务或领域来编码显性知识。

5 附加分析

我们进行了仔细探索Prismer的实验，并在第5.1节中发现了一些有趣的能力。我们还在第5.2节中阐述了各种架构组件和训练策略。为了加快训练速度，所有实验都使用BASE模型在概念字幕和SBU的组合数据集上进行，该数据集由总共3M个数据组成。所有实验都在VQAv2测试设备上以较小的[224×224]分辨率进行评估。

5.1Prismer有趣的益处

更多专家，更好的性能

我们观察到Prismer的性能随着更多模态专家的加入而提高，如图所示。5a。这是因为更多的专家为模型提供了更多的领域知识。然而，我们也注意到，该模型的性能最终趋于稳定，这表明超过一定数量的额外模态专家不会提供任何额外的收益。

更好的专家，更好的性能

为了评估专家质量对Prismer性能的影响，我们通过用从均匀分布中采样的随机噪声替换一定数量的预测深度标签来构建受损深度专家。如图5b所示，Prismer的性能随着深度专家质量的提高而提高。这是直观的，因为更好的专家提供了更准确的领域知识，使模型能够更准确地感知。

噪音专家的鲁棒性

我们的结果还表明，即使包括预测噪声的专家，Prismer仍能保持性能，如图所示。5c。有趣的是，与单独对RGB图像进行训练相比，添加噪声甚至可以带来非常显著的改善，这可以被视为一种隐式正则化形式。该属性允许模型安全地包含许多专家，而不会降低性能，即使专家不一定提供信息。因此，Prismer提出了一种比标准多任务或辅助学习方法更有效的学习策略，该方法需要探索任务关系[49，27，87]或设计更高级的优化程序[48，57]。

5.2架构设计和训练详情

适配器设计和尺寸

在我们对适配器设计的消融研究中，如表5第（i）行和第（ii）行所示，我们发现由标准残余连接和编码器-解码器结构组成的最直接的适配器设计性能最佳。我们已经尝试了更复杂的设计，例如在每个Transformer层的末端添加一个额外的适配器，或者结合类似于[47]中所示的可学习门控机制，但两者都导致了较差的性能。此外，我们观察到单个适配器的更大的瓶颈隐藏尺寸导致了性能的提高。

重采样器设计与多模态采样策略

如表5第（iii）-（v）行所示，在我们对专家重采样器设计和编码多模态信号的各种策略的消融研究中，我们发现对重采样器层和潜在变量使用轻量级设计对于稳定训练至关重要。我们的实验还表明，与使用可学习的重采样器相比，使用不可学习的随机采样方法的性能稍低。我们还尝试通过接收所有输入信号（包括RGB信息）来优化重采样器，但这种方法也导致了性能的显著下降。最后，在视觉编码器的末端加入额外的重采样器是没有好处的，尽管它可能有助于减少和保持与图像分辨率无关的恒定内存使用，但最终会导致性能下降。

冻结主干的影响

在我们的预训练和微调实验中，同时冻结模型的不同部分，如表5的行（vi）和（vii）所示，我们发现冻结预训练的参数对于实现强大的性能和避免过度拟合和灾难性遗忘所学知识至关重要。3冻结这些参数还可以节省大量GPU内存。即使在对不同的下游任务进行微调时，我们也发现冻结视觉编码器是有益的（同时允许重新采样器和适配器可训练）。这一观察结果与[89]中的发现一致，该发现表明，仅使用冻结视觉模型微调语言模型可以产生更强的zero-shot视觉语言检索性能。

6 结论、限制和讨论

在本文中，我们介绍了Prismer，一种为推理任务设计的视觉语言模型。Prismer具有参数效率，并利用少量可训练的组件来连接不同的、经过预先训练的专家。通过利用这些专家，Prismer在图像字幕、VQA和图像分类基准方面取得了具有竞争力的性能，与在最多两个数量级的数据上训练的模型相比。

为了完全透明，我们现在讨论Prismer在实施过程中的一些限制，并探讨这项工作的潜在未来方向。

多模式语境学习

上下文泛化中的zero-shot是一种新兴属性，仅存在于非常大的语言模型中[8，83]。在这项工作中，我们在小规模语言模型的基础上构建Prismer，主要关注参数高效学习。因此，它不具备在设计提示的上下文中执行few-shot的能力。

对新专家的零距离适应

我们在一个预先训练的Prismer上用一个在不同数据集上预先训练的不同分割专家进行推理实验。尽管我们使用相同的语言模型来编码语义标签，Prismer对具有不同语义信息集的不同专家的适应性有限，这导致了显著的性能下降。

部分专家的自由形式推理

类似地，我们发现Prismer将其多模态特征与我们在预训练期间包括的所有专家相结合。因此，在推理过程中只有部分专家会导致显著的性能下降。我们试图使用不同的训练目标，如掩码自动编码[5]，来设计Prismer，以对任意数量的专家进行推理，但最终会导致微调性能下降。

专家知识的表示

在我们当前的Prismer设计中，为了简化，我们通过特定于模态的后处理将所有专家标签转换为类似图像的三维张量。还有其他有效的方法来表示专家知识，例如将对象检测标签转换为文本标记序列[11，12]。这可能会在未来的工作中带来更强的推理性能和更稳定的训练环境。

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 216,744评论 6赞 502
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 92,505评论 3赞 392
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 163,105评论 0赞 353
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 58,242评论 1赞 292
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 67,269评论 6赞 389
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 51,215评论 1赞 299
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 40,096评论 3赞 418
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 38,939评论 0赞 274
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 45,354评论 1赞 311
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 37,573评论 2赞 333
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 39,745评论 1赞 348
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 35,448评论 5赞 344
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 41,048评论 3赞 327
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 31,683评论 0赞 22
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 32,838评论 1赞 269
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 47,776评论 2赞 369
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 44,652评论 2赞 354

Prismer：一个专家集合的视觉语言模型

推荐阅读更多精彩内容