LVLM系列论文阅读(3)

论文信息

论文题目:Improved Baselines with Visual Instruction Tuning
论文原文:arxiv.org/abs/2310.03744

摘要

大型多模态模型(LMM)最近在视觉指令调优方面取得了令人鼓舞的进展。在本文中,我们展示了LLaVA中的fully-connected vision-language cross modal connector具有惊人的强大学习能力。通过对LLaVA进行简单的修改,即使用带有MLP投影的CLIP-ViT-L-336px,并添加基于prompt的academic-task-oriented VQA数据,我们进一步优化了LLaVA,在11个benchmark中实现了最先进的水平。

介绍

  • 最近对lVLM的研究正集中在视觉指令调优上。且最近的工作证明了通过扩大预训练数据、扩大指令跟随数据、优化视觉编码器或使用更加优秀的语言模型能进一步提升性能。
  • 本论文在LLaVA的基础上构建出了一个更加高性能的多模态大模型。主要是以下两个改进:1) 一个 MLP cross-modal connector。2)一个学术任务相关数据添加到模型训练之中。由于改动很小,所以我们的模型只需要在600K图像-文本对上训练一个简单的全连接投影层,就能获得不错的效果。
LLaVA-1.5在广泛的11个任务(上)上实现SoTA,具有较高的训练样本效率(左)和对LLaVA(右)的简单修改:一个MLP连接器。

方法

  • LLaVA在视觉推理能力方面展示了值得很好的效果,但在一些科学问题QA上的效果会差一些,这是因为LLaVA并没有在相关数据上进行大规模的预训练。
在数据、分辨率、模型上的缩放实验结果
  • 当前一些方法无法让大模型很好平衡输出长回答和短回答之间的关系。原因如下,1)ambiguous prompts on the response format 如图中的例子,这样的提示并不能明确地表明理想的输出格式,即使是LLM在自然视觉对话的行为上也可能过度适合简短的答案。2)不微调LLM。比如DuultBLIP中 Qfroster的视觉输出令牌来控制LLM输出的长度为长形式或短形式,如前缀调优,但是Qfroster与LLaMA这样的LLM相比容量有限,可能缺乏正确执行LLM的能力。为了解决这个问题,我们建议使用一个单一的响应格式提示,清楚地指示输出格式,并在促进简短答案时附加在VQA问题的末尾。
比较不同的提示符如何规则化输出格式。
  • MLP vision-language connector.受从线性投影到MLP提高自监督学习性能的启发,我们发现与原始线性投影设计相比,使用双层MLP提高视觉语言连接器的表示能力可以提高LLaVA的多模态能力。
  • Academic task oriented data.我们进一步添加了额外的面向学术任务的VQA数据集,用于VQA、OCR和区域级感知,以各种方式增强模型的能力。
    数据集详情
  • Additional scaling.我们进一步扩大了输入图像的分辨率,使LLM能够清晰地“看到”图像的细节,并添加了GQA数据集作为额外的视觉知识源。

实验结果

LLaVA-1.5可以在提示验证问题时检测并回答困难的问题。
在12个基准测试上与SoTA方法的比较
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 212,884评论 6 492
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,755评论 3 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 158,369评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,799评论 1 285
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,910评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,096评论 1 291
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,159评论 3 411
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,917评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,360评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,673评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,814评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,509评论 4 334
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,156评论 3 317
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,882评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,123评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,641评论 2 362
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,728评论 2 351

推荐阅读更多精彩内容