LVLM系列论文阅读(1)

论文信息

论文题目:Qwen-VL: A Versatile Vision-Language Model for Understanding, Localization, Text Reading, and Beyond
论文链接[2308.12966] Qwen-VL: A Versatile Vision-Language Model for Understanding, Localization, Text Reading, and Beyond (arxiv.org)
机构信息:阿里巴巴

摘要

Qwen-VL系列是一组大规模的视觉语言模型(LVLMs),旨在感知和理解文本和图像。Qwen-VL从Qwen-LM出发,通过精细设计的:1) visual receptor 2)input-output interface 3)3-stage training pipeline 4) multilingual multimodal cleaned corpus。除了传统的图像描述和问答之外,我们通过对齐图像标题框元组来实现qwen-vl的基础和文本阅读能力。论文中的LVLM开源了Qwen-VL和Qwen-VL-Chat版本。这两个LVLM模型在各种实验设定下的各类多模态图像任务上都获得了SOTA的效果。

介绍

与其他通用模型相比,Qwen-VL在广泛的任务上取得了最先进的性能。
  • LLM 因其在文本生成和理解方面的强大能力而引起了广泛的关注。这些模型可以通过微调指令进一步与用户的意图相一致,显示了强大的交互能力和作为智能助手从而提高生产力。然而,原始的LLM语言模型当前只适用于纯文本世界中,缺乏处理其他模态(如图像、语音和视频)的能力,导致其应用范围受到了很大的限制
  • 当前也存在一些LVLM,但目前开源LVLM的训练和优化不足,远远落后于针对特定领域特定任务的SOTA小模型,这阻碍了LVLM在开源社区中的进一步探索和应用。更重要的是,在现实世界中,由于视觉场景相当复杂,细粒度的视觉理解对于LVLM有效和精确地帮助人们起着至关重要的作用。大多数开源LVLM仍然以粗粒度的方法感知图像,缺乏执行细粒度感知的能力,如对象接地或文本阅读。
  • 本文提出的Qwen-VL模型是一个基于Qwen-7B的模型,我们引入了全新的visual receptor,包含了a language-aligned visual encodera position-aware adapter。Qwen-VL 模型是一个三阶段的训练形成的模型,模型训练在大量的图像-文本语料库集合上优化整个模型。
由Qwen-VL-Chat生成的一些例子。Qwen-VL-Chat支持多种图像输入、多轮对话、多语言对话、文本阅读、本地化、细粒度识别和理解能力。
  • 本文提出的Qwen-VL 有以下特点:性能优越、多语言、多图片、能够对图片进行细粒度理解

方法

模型架构

Qwen-VL模型参数的详细信息

Qwen-VL的整体网络架构由三个组成部分组成,模型参数细节如上表所示:

  • LLM:Qwen-VL采用了一个大型语言模型作为其基础组件。该模型采用Qwen-7B中预训练的权重进行初始化。
  • Visual Encoder:使用 Vision Transformer(ViT),该网络借助Openclip’s ViT-bigG预训练参数进行初始化。
  • Position-aware Vision-Language Adapter:为了缓解长图像特征序列带来的效率问题,Qwen-VL引入了一种压缩图像特征的视觉语言适配器。该适配器由一个随机初始化的单层Cross-Atten模块组成。该模块使用一组可训练的向量(嵌入)作为query向量,以及来自视觉编码器的图像特征作为key向量。此外,考虑到位置信息对细粒度图像理解的重要性,将二维绝对位置编码合并到交叉注意机制的query-key中,以减少压缩过程中位置细节的潜在损失。

输入输出

  • 图片输入:将图片信息用特殊的<img></img>包裹
  • Bounding Box 输入:为了增强模型的细粒度视觉理解和基础的能力,Qwen-VL的输入包括区域描述、问题和检测形式的数据。与涉及图像-文本描述或问题的传统任务不同,这项任务需要模型准确地理解并以指定的格式生成区域描述。对于任何给定的边界框,将应用标准化过程(在范围内[0,1000)),并将其转换为指定的字符串格式:“(Xtopleft,Ytopleft),(Xbottomleft,Ybottomleft)”。该字符串被标记化为文本,并且不需要额外的位置词汇表。为了区分检测字符串和常规文本字符串,在边界框字符串的开始和结尾添加了两个特殊标记(<box>和</box>。此外,为了适当地将边界框与其相应的描述性单词或句子关联起来,还引入了另一组特殊标记(<ref>和</ref>),标记边界框所引用的内容。

训练

Qwen-VL模型的训练过程包括三个阶段:两阶段Pre-training和 最后阶段instruction fine-tuning training。

Qwen-VL系列模型的训练过程
  • 第一阶段预训练:我们主要利用一个大规模的、弱监督、从互联网爬取的图像-文本对集。我们的数据集由几个公开可访问的源和一些内部数据组成。如表2所示,原始数据集共包含50亿对图像-文本对,经过清理后,仍保留了14亿对数据,其中英文(文本)数据为77.3%,中文(文本)数据为22.7%。我们在这个阶段冻结了大型语言模型,并且只优化了视觉编码器和VL适配器。
第一阶段预训练数据集情况
  • 第二阶段预训练:在多任务预训练的第二阶段,我们引入了高质量、细粒度的VL注释数据,以及具有更大的输入分辨率和交错的图像-文本数据。如表3所示,我们同时在7个任务上训练Qwen-VL。对于文本生成,我们使用内部收集的语料库来保持LLM的能力。我们为VQA任务使用公开数据,为了改进面向文本的任务,我们从Common Crawl1中收集pdf和HTML格式数据,生成具有自然风景背景的汉合成OCR数据。我们将视觉编码器的输入分辨率从224×224提高到448×448,减少了图像降采样造成的信息损失。在这一个阶段,我们也微调LLM参数。
  • SFT:在此阶段,我们通过指令微调来细化Qwen-VL预训练模型,以增强其指令跟踪和对话能力,从而形成交互式的Qwen-VL-Chat模型。多模态指令调优数据主要来自于标题数据或通过LLM自指令生成的对话数据,通常只处理单个图像的对话和推理,仅限于对图像内容的理解。我们通过手动注释、模型生成和策略连接构建了一组额外的对话数据,以将定位和多图像理解能力整合到Qwen-VL模型中。我们确认,该模型有效地将这些功能转移到更广泛的语言和问题类型中。此外,我们在训练过程中混合了多模态和纯文本对话数据,以确保模型在对话能力中的普遍性。指令调优数据总计可达350k。在这一阶段,我们冻结了视觉编码器,并优化语言模型和适配器模块。

实验结果

Image Captioning和通用VQA的结果
Text-oriented VQA的结果
Referring Expression Comprehension task的结果
Qwen-VL在少样本设定下的结果
Qwen-VL指令微调的结果

结论

我们发布了Qwen-VL系列,这是一组大规模的多语言视觉-语言模型,旨在促进多模态研究。Qwen-VL在各种基准测试中都优于类似的模型,支持多语言对话、多图像交错对话、中文基础和细粒度识别。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 212,884评论 6 492
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,755评论 3 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 158,369评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,799评论 1 285
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,910评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,096评论 1 291
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,159评论 3 411
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,917评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,360评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,673评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,814评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,509评论 4 334
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,156评论 3 317
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,882评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,123评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,641评论 2 362
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,728评论 2 351

推荐阅读更多精彩内容