论文信息

论文题目：Qwen-VL: A Versatile Vision-Language Model for Understanding, Localization, Text Reading, and Beyond
论文链接：[2308.12966] Qwen-VL: A Versatile Vision-Language Model for Understanding, Localization, Text Reading, and Beyond (arxiv.org)
机构信息：阿里巴巴

摘要

Qwen-VL系列是一组大规模的视觉语言模型（LVLMs），旨在感知和理解文本和图像。Qwen-VL从Qwen-LM出发，通过精细设计的：1） visual receptor 2）input-output interface 3）3-stage training pipeline 4） multilingual multimodal cleaned corpus。除了传统的图像描述和问答之外，我们通过对齐图像标题框元组来实现qwen-vl的基础和文本阅读能力。论文中的LVLM开源了Qwen-VL和Qwen-VL-Chat版本。这两个LVLM模型在各种实验设定下的各类多模态图像任务上都获得了SOTA的效果。

介绍

与其他通用模型相比，Qwen-VL在广泛的任务上取得了最先进的性能。

LLM 因其在文本生成和理解方面的强大能力而引起了广泛的关注。这些模型可以通过微调指令进一步与用户的意图相一致，显示了强大的交互能力和作为智能助手从而提高生产力。然而，原始的LLM语言模型当前只适用于纯文本世界中，缺乏处理其他模态（如图像、语音和视频）的能力，导致其应用范围受到了很大的限制。
当前也存在一些LVLM，但目前开源LVLM的训练和优化不足，远远落后于针对特定领域特定任务的SOTA小模型，这阻碍了LVLM在开源社区中的进一步探索和应用。更重要的是，在现实世界中，由于视觉场景相当复杂，细粒度的视觉理解对于LVLM有效和精确地帮助人们起着至关重要的作用。大多数开源LVLM仍然以粗粒度的方法感知图像，缺乏执行细粒度感知的能力，如对象接地或文本阅读。
本文提出的Qwen-VL模型是一个基于Qwen-7B的模型，我们引入了全新的visual receptor，包含了a language-aligned visual encoder 和 a position-aware adapter。Qwen-VL 模型是一个三阶段的训练形成的模型，模型训练在大量的图像-文本语料库集合上优化整个模型。

由Qwen-VL-Chat生成的一些例子。Qwen-VL-Chat支持多种图像输入、多轮对话、多语言对话、文本阅读、本地化、细粒度识别和理解能力。

本文提出的Qwen-VL 有以下特点：性能优越、多语言、多图片、能够对图片进行细粒度理解

方法

模型架构

Qwen-VL模型参数的详细信息

Qwen-VL的整体网络架构由三个组成部分组成，模型参数细节如上表所示：

LLM：Qwen-VL采用了一个大型语言模型作为其基础组件。该模型采用Qwen-7B中预训练的权重进行初始化。
Visual Encoder：使用 Vision Transformer（ViT），该网络借助Openclip’s ViT-bigG预训练参数进行初始化。
Position-aware Vision-Language Adapter：为了缓解长图像特征序列带来的效率问题，Qwen-VL引入了一种压缩图像特征的视觉语言适配器。该适配器由一个随机初始化的单层Cross-Atten模块组成。该模块使用一组可训练的向量（嵌入）作为query向量，以及来自视觉编码器的图像特征作为key向量。此外，考虑到位置信息对细粒度图像理解的重要性，将二维绝对位置编码合并到交叉注意机制的query-key中，以减少压缩过程中位置细节的潜在损失。

输入输出

图片输入：将图片信息用特殊的<img></img>包裹
Bounding Box 输入：为了增强模型的细粒度视觉理解和基础的能力，Qwen-VL的输入包括区域描述、问题和检测形式的数据。与涉及图像-文本描述或问题的传统任务不同，这项任务需要模型准确地理解并以指定的格式生成区域描述。对于任何给定的边界框，将应用标准化过程（在范围内[0,1000))，并将其转换为指定的字符串格式：“（X_topleft，Y_topleft），(X_bottomleft，Y_bottomleft）”。该字符串被标记化为文本，并且不需要额外的位置词汇表。为了区分检测字符串和常规文本字符串，在边界框字符串的开始和结尾添加了两个特殊标记(<box>和</box>。此外，为了适当地将边界框与其相应的描述性单词或句子关联起来，还引入了另一组特殊标记（<ref>和</ref>），标记边界框所引用的内容。

训练

Qwen-VL模型的训练过程包括三个阶段：两阶段Pre-training和最后阶段instruction fine-tuning training。

Qwen-VL系列模型的训练过程

第一阶段预训练：我们主要利用一个大规模的、弱监督、从互联网爬取的图像-文本对集。我们的数据集由几个公开可访问的源和一些内部数据组成。如表2所示，原始数据集共包含50亿对图像-文本对，经过清理后，仍保留了14亿对数据，其中英文（文本）数据为77.3%，中文（文本）数据为22.7%。我们在这个阶段冻结了大型语言模型，并且只优化了视觉编码器和VL适配器。

第一阶段预训练数据集情况

第二阶段预训练：在多任务预训练的第二阶段，我们引入了高质量、细粒度的VL注释数据，以及具有更大的输入分辨率和交错的图像-文本数据。如表3所示，我们同时在7个任务上训练Qwen-VL。对于文本生成，我们使用内部收集的语料库来保持LLM的能力。我们为VQA任务使用公开数据，为了改进面向文本的任务，我们从Common Crawl1中收集pdf和HTML格式数据，生成具有自然风景背景的汉合成OCR数据。我们将视觉编码器的输入分辨率从224×224提高到448×448，减少了图像降采样造成的信息损失。在这一个阶段，我们也微调LLM参数。
SFT：在此阶段，我们通过指令微调来细化Qwen-VL预训练模型，以增强其指令跟踪和对话能力，从而形成交互式的Qwen-VL-Chat模型。多模态指令调优数据主要来自于标题数据或通过LLM自指令生成的对话数据，通常只处理单个图像的对话和推理，仅限于对图像内容的理解。我们通过手动注释、模型生成和策略连接构建了一组额外的对话数据，以将定位和多图像理解能力整合到Qwen-VL模型中。我们确认，该模型有效地将这些功能转移到更广泛的语言和问题类型中。此外，我们在训练过程中混合了多模态和纯文本对话数据，以确保模型在对话能力中的普遍性。指令调优数据总计可达350k。在这一阶段，我们冻结了视觉编码器，并优化语言模型和适配器模块。