论文信息
论文题目:Qwen-VL: A Versatile Vision-Language Model for Understanding, Localization, Text Reading, and Beyond
论文链接:[2308.12966] Qwen-VL: A Versatile Vision-Language Model for Understanding, Localization, Text Reading, and Beyond (arxiv.org)
机构信息:阿里巴巴
摘要
Qwen-VL系列是一组大规模的视觉语言模型(LVLMs),旨在感知和理解文本和图像。Qwen-VL从Qwen-LM出发,通过精细设计的:1) visual receptor 2)input-output interface 3)3-stage training pipeline 4) multilingual multimodal cleaned corpus。除了传统的图像描述和问答之外,我们通过对齐图像标题框元组来实现qwen-vl的基础和文本阅读能力。论文中的LVLM开源了Qwen-VL和Qwen-VL-Chat版本。这两个LVLM模型在各种实验设定下的各类多模态图像任务上都获得了SOTA的效果。
介绍
- LLM 因其在文本生成和理解方面的强大能力而引起了广泛的关注。这些模型可以通过微调指令进一步与用户的意图相一致,显示了强大的交互能力和作为智能助手从而提高生产力。然而,原始的LLM语言模型当前只适用于纯文本世界中,缺乏处理其他模态(如图像、语音和视频)的能力,导致其应用范围受到了很大的限制。
- 当前也存在一些LVLM,但目前开源LVLM的训练和优化不足,远远落后于针对特定领域特定任务的SOTA小模型,这阻碍了LVLM在开源社区中的进一步探索和应用。更重要的是,在现实世界中,由于视觉场景相当复杂,细粒度的视觉理解对于LVLM有效和精确地帮助人们起着至关重要的作用。大多数开源LVLM仍然以粗粒度的方法感知图像,缺乏执行细粒度感知的能力,如对象接地或文本阅读。
- 本文提出的Qwen-VL模型是一个基于Qwen-7B的模型,我们引入了全新的visual receptor,包含了a language-aligned visual encoder 和 a position-aware adapter。Qwen-VL 模型是一个三阶段的训练形成的模型,模型训练在大量的图像-文本语料库集合上优化整个模型。
- 本文提出的Qwen-VL 有以下特点:性能优越、多语言、多图片、能够对图片进行细粒度理解
方法
模型架构
Qwen-VL的整体网络架构由三个组成部分组成,模型参数细节如上表所示:
- LLM:Qwen-VL采用了一个大型语言模型作为其基础组件。该模型采用Qwen-7B中预训练的权重进行初始化。
- Visual Encoder:使用 Vision Transformer(ViT),该网络借助Openclip’s ViT-bigG预训练参数进行初始化。
- Position-aware Vision-Language Adapter:为了缓解长图像特征序列带来的效率问题,Qwen-VL引入了一种压缩图像特征的视觉语言适配器。该适配器由一个随机初始化的单层Cross-Atten模块组成。该模块使用一组可训练的向量(嵌入)作为query向量,以及来自视觉编码器的图像特征作为key向量。此外,考虑到位置信息对细粒度图像理解的重要性,将二维绝对位置编码合并到交叉注意机制的query-key中,以减少压缩过程中位置细节的潜在损失。
输入输出
- 图片输入:将图片信息用特殊的<img></img>包裹
- Bounding Box 输入:为了增强模型的细粒度视觉理解和基础的能力,Qwen-VL的输入包括区域描述、问题和检测形式的数据。与涉及图像-文本描述或问题的传统任务不同,这项任务需要模型准确地理解并以指定的格式生成区域描述。对于任何给定的边界框,将应用标准化过程(在范围内[0,1000)),并将其转换为指定的字符串格式:“(Xtopleft,Ytopleft),(Xbottomleft,Ybottomleft)”。该字符串被标记化为文本,并且不需要额外的位置词汇表。为了区分检测字符串和常规文本字符串,在边界框字符串的开始和结尾添加了两个特殊标记(<box>和</box>。此外,为了适当地将边界框与其相应的描述性单词或句子关联起来,还引入了另一组特殊标记(<ref>和</ref>),标记边界框所引用的内容。
训练
Qwen-VL模型的训练过程包括三个阶段:两阶段Pre-training和 最后阶段instruction fine-tuning training。
- 第一阶段预训练:我们主要利用一个大规模的、弱监督、从互联网爬取的图像-文本对集。我们的数据集由几个公开可访问的源和一些内部数据组成。如表2所示,原始数据集共包含50亿对图像-文本对,经过清理后,仍保留了14亿对数据,其中英文(文本)数据为77.3%,中文(文本)数据为22.7%。我们在这个阶段冻结了大型语言模型,并且只优化了视觉编码器和VL适配器。
- 第二阶段预训练:在多任务预训练的第二阶段,我们引入了高质量、细粒度的VL注释数据,以及具有更大的输入分辨率和交错的图像-文本数据。如表3所示,我们同时在7个任务上训练Qwen-VL。对于文本生成,我们使用内部收集的语料库来保持LLM的能力。我们为VQA任务使用公开数据,为了改进面向文本的任务,我们从Common Crawl1中收集pdf和HTML格式数据,生成具有自然风景背景的汉合成OCR数据。我们将视觉编码器的输入分辨率从224×224提高到448×448,减少了图像降采样造成的信息损失。在这一个阶段,我们也微调LLM参数。
- SFT:在此阶段,我们通过指令微调来细化Qwen-VL预训练模型,以增强其指令跟踪和对话能力,从而形成交互式的Qwen-VL-Chat模型。多模态指令调优数据主要来自于标题数据或通过LLM自指令生成的对话数据,通常只处理单个图像的对话和推理,仅限于对图像内容的理解。我们通过手动注释、模型生成和策略连接构建了一组额外的对话数据,以将定位和多图像理解能力整合到Qwen-VL模型中。我们确认,该模型有效地将这些功能转移到更广泛的语言和问题类型中。此外,我们在训练过程中混合了多模态和纯文本对话数据,以确保模型在对话能力中的普遍性。指令调优数据总计可达350k。在这一阶段,我们冻结了视觉编码器,并优化语言模型和适配器模块。
实验结果
结论
我们发布了Qwen-VL系列,这是一组大规模的多语言视觉-语言模型,旨在促进多模态研究。Qwen-VL在各种基准测试中都优于类似的模型,支持多语言对话、多图像交错对话、中文基础和细粒度识别。