Video Graph Transformer for Video Question Answering 论文笔记

论文地址: http://arxiv.org/pdf/2207.05342
代码地址: https://github.com/sail-sg/VGT

摘要

本文提出了一种Video Graph Transformer用于视频问答:1)设计了一个动态图转换器模块,该模块通过显式捕获视觉对象、它们的关系和动态来对视频进行编码,以进行复杂的时空推理; 2)利用解耦的视频和文本 Transformer 进行视频和文本之间的相关性比较来执行 QA,而不是使用纠缠的跨模态 Transformer 进行答案分类。视觉-文本通信由额外的跨模式交互模块完成。VGT在VideoQA任务上性能优异,甚至超过了那些用数百万外部数据进行预训练的模型,无需百万数据预训练。

介绍

Transformer及大规模图像文本数据推动了多模态预训练的成功[8,21,31,34,38,44,52,53,54,63] ,也推动了VideoQA的发展[14,16,20,23,28, 60,71]。
基于Transformer取得的进步主要在于对视频内容进行整体识别或描述的问题[30,48,62,63,64,68,72]。回答挑战现实世界视觉关系推理的问题的问题,特别是具有视频动态[20,59]的因果关系和时间关系,在很大程度上没有得到充分探索。跨模式预训练似乎很有希望 [29,67,70]。然而,它需要处理令人望而却步的大规模视频文本数据 [15,70],否则性能仍然不如最先进的 (SoTA) 传统技术 [29,47,67]。
原因总结如下:1)视频编码器过于简单。2D CNN[18,45] 或Transformers[13]或3D CNN [5,37,61]难以建模细粒度的对象之间的时空交互。2) VideoQA 问题的表述是次优的。通常,在多选 QA 中,视频、问题和每个候选答案都被附加(或融合)到一个整体Token序列中,并馈送到跨模态 Transformer 以获得答案分类的全局表示 [72,29],这种具有歧义的全局表示导致模型错误选择与问题相似的错误答案,而忽略了正确的简短答案。在开放式QA(通常被表述为多类分类问题 [62])中,答案被视为类索引,它们的词语义(对 QA 很有帮助)被忽略。信息建模不足加剧了数据饥渴问题,并导致次优性能。

贡献总结:

  • 我们提出了 Video Graph Transformer (VGT),它将 VideoQA 从浅层描述推进到深度推理。
  • 我们设计了一个动态图转换器模块,它显示了视觉推理的强度。 该模块与任务无关,可以轻松应用于其他视频语言任务。
  • 我们在 NExT-QA [59] 和 TGIF-QA [20] 上实现了 SoTA 结果,任务是对动态视觉内容进行视觉推理。 此外,我们的结构化视频表示为数据高效的视频语言预训练提供了承诺。

相关工作

  • 传统VideoQA技术:跨模态注意力[20,33,22]、运动外观记忆 [16,14,36] 和图神经网络 [23, 35,41]大多利用帧或片段级的表示作为输入。最近在对象级表示上构建的图 [19,36,47,60] 表现出卓越的性能,尤其是在强调视觉关系推理的基准上 [20,49,50,59]。然而,这些图方法要么构建不区分 1) 空间和时间、2) 局部和全局范围 [19,57] 中的关系的整体图,要么在帧级别构建静态图而不明确捕获时间动态[36,42,60]。对于多个对象在时空中交互的长视频来说,整体图很麻烦。此外,静态图可能导致不正确的关系(例如,拥抱与打架)或无法捕捉动态关系(例如,带走)。在这项工作中,我们将视频建模为局部到全局的动态视觉图,并设计图形转换器模块来显式建模对象、它们的关系和动态,以利用相邻帧中的对象和关系来校准在静态帧级。重要的是,我们还集成了强大的语言模型并探索了跨模态预训练技术,以自我监督的方式学习结构化视频表示。
  • Transformer for VideoQA:Pioneer 的工作 [32,48,63,64,72] 通过应用各种辅助任务 [72] 或策划更量身定制的监督(例如,过去预测未来 [48] 和 QA pairs [64]) 用于 VideoQA。 然而,他们专注于回答需要整体识别 [62] 或浅层描述 [68] 的问题,而他们在视觉关系推理 [20,59] 方面的表现仍然未知。 此外,最近的工作 [3,70] 表明,由于噪声大 [1,39] 和 HowTo100M 的数据范围有限,这些模型可能会在开放域问题上遭受性能损失。近年来一个趋势是利用大规模数据做端到端学习,如ClipBERT[29]用于图像文本描述[7,27],[15,70]收集了百万级的视觉-文本对用于预训练但成本高,[6,12]在目标小数据集上表现潜力,但它们要么旨在通过使用图像-文本预训练特征(例如来自 CLIP [44])来揭示基准数据集的单帧偏差,要么仅证明模型在合成数据上的有效性 [65]。总体而言,现有转换器式视频语言模型中的动态推理能力差和数据量大的问题在很大程度上推动了这项工作。为了缓解这些问题,我们明确地对动态视觉推理的对象和关系进行建模,并将结构先验(或关系归纳偏差 [4])合并到转换器架构中,以减少对数据的需求。
  • Graph Transformer[56,66,69]:通过将图专业知识(例如,节点度数)合并到 Transformer [66] 的自注意力块中,或设计 Transformer 式卷积块来融合来自异构的信息,在对自然图数据(例如社交连接)建模方面取得了重大进展 图[69]。最近的一项工作 [17] 结合了图形和 Transformer 用于视频对话。 然而,它只是将全局变换器应用于从静态帧构建的池化图表示,并且没有明确编码对象和关系动态。 我们的工作与它的不同之处在于设计和学习视频对象上的动态视觉图,并使用转换器在本地和全局范围内捕获时间动态。

方法(To Be Done)

概述

Video Graph Representation

Dynamic Graph Transformer

Cross-modal Interaction

Global Transformer

Answer Prediction

Pretraining with Weakly-Paired Data

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 216,651评论 6 501
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,468评论 3 392
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 162,931评论 0 353
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,218评论 1 292
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,234评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,198评论 1 299
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,084评论 3 418
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,926评论 0 274
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,341评论 1 311
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,563评论 2 333
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,731评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,430评论 5 343
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,036评论 3 326
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,676评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,829评论 1 269
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,743评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,629评论 2 354

推荐阅读更多精彩内容