论文信息
论文题目:Improved Baselines with Visual Instruction Tuning
论文原文:arxiv.org/abs/2310.03744
摘要
大型多模态模型(LMM)最近在视觉指令调优方面取得了令人鼓舞的进展。在本文中,我们展示了LLaVA中的fully-connected vision-language cross modal connector具有惊人的强大学习能力。通过对LLaVA进行简单的修改,即使用带有MLP投影的CLIP-ViT-L-336px,并添加基于prompt的academic-task-oriented VQA数据,我们进一步优化了LLaVA,在11个benchmark中实现了最先进的水平。
介绍
- 最近对lVLM的研究正集中在视觉指令调优上。且最近的工作证明了通过扩大预训练数据、扩大指令跟随数据、优化视觉编码器或使用更加优秀的语言模型能进一步提升性能。
- 本论文在LLaVA的基础上构建出了一个更加高性能的多模态大模型。主要是以下两个改进:1) 一个 MLP cross-modal connector。2)一个学术任务相关数据添加到模型训练之中。由于改动很小,所以我们的模型只需要在600K图像-文本对上训练一个简单的全连接投影层,就能获得不错的效果。
方法
- LLaVA在视觉推理能力方面展示了值得很好的效果,但在一些科学问题QA上的效果会差一些,这是因为LLaVA并没有在相关数据上进行大规模的预训练。
- 当前一些方法无法让大模型很好平衡输出长回答和短回答之间的关系。原因如下,1)ambiguous prompts on the response format 如图中的例子,这样的提示并不能明确地表明理想的输出格式,即使是LLM在自然视觉对话的行为上也可能过度适合简短的答案。2)不微调LLM。比如DuultBLIP中 Qfroster的视觉输出令牌来控制LLM输出的长度为长形式或短形式,如前缀调优,但是Qfroster与LLaMA这样的LLM相比容量有限,可能缺乏正确执行LLM的能力。为了解决这个问题,我们建议使用一个单一的响应格式提示,清楚地指示输出格式,并在促进简短答案时附加在VQA问题的末尾。
- MLP vision-language connector.受从线性投影到MLP提高自监督学习性能的启发,我们发现与原始线性投影设计相比,使用双层MLP提高视觉语言连接器的表示能力可以提高LLaVA的多模态能力。
-
Academic task oriented data.我们进一步添加了额外的面向学术任务的VQA数据集,用于VQA、OCR和区域级感知,以各种方式增强模型的能力。
- Additional scaling.我们进一步扩大了输入图像的分辨率,使LLM能够清晰地“看到”图像的细节,并添加了GQA数据集作为额外的视觉知识源。