Video Question Answering: Datasets, Algorithms and Challenges 论文阅读

一篇VQA的综述

摘要

视频问题回答（VideoQA）旨在根据给定的视频回答自然语言问题。随着联合视觉和语言理解的最新研究趋势，它引起了人们的关注。然而，与imageQA相比，VideoQA在很大程度上没有被逐渐解散，并且进展缓慢。尽管已经不断提出了不同的算法，并在不同的VideoQA数据集上显示了成功，但我们发现缺乏有意义的调查来对它们进行分类，这严重阻碍了其进步。因此，本文为VideoQA提供了明确的分类学和全面的分析，重点是数据集，算法和独特的挑战。然后，我们指出了研究质量质量质量值的研究趋势，以推理质量质量质量吸引力的认知视频内容，最后，我们总结了一些有希望的未来探索方向。

Introduction

VQA的难点：需要对视频全面理解才能正确回答问题，包括但不限于识别对象，行动和活动以及其空间，时间和因果关系的推理。

目前数据集、定义任务和算法混乱，因此，本文为VideoQA提供了更全面和有意义的调查，目的是从过去学习并塑造未来。我们的主要贡献总结为以下内容。（1）我们回顾了Factoid VideoQA和Inference VideoQA的最新方法。此外，我们提出了当前数据集的合理拆分，以进行清晰的算法比较：VideoQA，多模态VideoQA和知识VIDEOQA。（2）我们提出了一种分类法，将现有的视频QA技术分类为：Memory, Transformer, Graphs, Modular Networks and NeuralSymbolic methods。此外，包括一些有意义的见解：Memory, Transformer, Graphs, Modular Networks and NeuralSymbolic methods （3）我们从各种VideoQA任务中遇到的挑战的角度分析了现有方法，并为未来的研究提供了有意义的见解。

VideoQA Task and Datasets

两种VQA问题，multi-choice QA和open-ended QA。multi-choice QA，会提供几个候选答案任模型选择。open-ended QA，问题可以是分类（most popular）或回归（counting）或生成（word by word），multi-choice QA倾向于因果推理，Open-ended QA倾向分类。

按模态分类：多模态（Multi-modal）VQA以及Knowledge-based VQA。

不同模态的VQA

MM VQA通常包括QA外的其他资源如电影字幕、文字图、音频，挑战多模态信息融合和理解。
KB VQA要求外部知识从明确的知识库或常识推理中蒸馏。
按Question类型分类：factoid VQA和Inference VQA。Factoid VQA询问视觉事实如位置对象/属性（WHO/what（颜色）是），并与答案几乎没有关系。 Factoid QA强调了对问题的整体理解，并挑战了视觉元素的识别。相反，推理VideoQA的目的是探索动态场景中的逻辑推理能力，并具有视觉事实之间的各种关系。尽管有丰富的关系类型，但VideoQA强调了时间（之前/之后）和因果关系（为什么/如何）
数据集分析：

数据集的提出时间

数据集相关信息

注意：VQA和MMVQA方法类似，Inference VQA带来了新技术挑战。

算法

主要框架

image.png

最近工作显示了object-level visual and semantic feature的重要性，这些特征通常使用预训练的2D和3D网络提取。

image.png

然后可以通过时序模型如RNN，CNN，Transformer进一步处理视觉和语言顺序，并引入跨模态特征融合，Multi-choice QA可以选择一个答案，open-ended QA则成为一个分类问题。video和language encoders 可以pre-trained or mo recently E2E finetuned，损失使用hinge loss或者交叉熵等。

Unique Challenges and Meaningful Insights

由于时间动态变化，现有的ImageQA很难扩展到VideoQA，与其他视频任务相比，Questionanswering是一种在不同方面和粒度上了解视频的综合方法，例如在时间和空间领域中从细粒度到粗粒，从FACTOID问题到推理问题。为了应对挑战，已经为跨模式互动做出了许多努力，该互动旨在在问题的指导下了解视频。我们总结了文献中常见的一些有意义的见解。

Attention：空间、时间维度Attention。自我注意力具有良好的模型远程依赖性的能力，并且可以用于模式内建模，例如视频中的时间信息和问题的全球依赖性。跨模态注意可以参与相关和关键的多模式信息，例如问题指导的视频表示和视频指导的问题表示。
跨模态预训练：跨模式预训练。随着可以同时处理视觉和语言数据的高性能处理器和高级网络体系结构的开发，跨模式的预训练可以完全利用来自嘈杂的语义信息，但收集的大规模，ImageText或视频text数据集在网上。可以通过在小规模的手动注释数据集上进行填充，可以将学习的模型转移到下游视觉语言任务中，这可以显着提高Factoid VideoQA任务上的性能。
Multi-granularity Ensemble。问题是多种多样的，不受约束的，并且可能需要查询视频的不同粒度，尤其是在时间维度上。为了获得各种问题的丰富信息，多晶格合奏可以结合不同时间尺度的多个表示，这些表示以显式和隐性方式广泛使用。也有一些作品结合了细化和粗粒的视觉表示和问题特征，分别探索空间维度的多晶格和语言维度。与强调重要信息的特定于问题的注意力相反，多跨性集合提供了更多多种答案的表示。
Hierarchical Learning：考虑到视频和问题内容在语义空间中是分层的，层次学习旨在组织从低级到高级以及从本地到全球的多模式表示。具体而言，语言概念从单词到句子进行分析，而视频元素是从对象到关系和活动的。类似于多粒性合奏，分层学习还模拟了多粒度视频元素和语言概念，但以一种渐进的方式进行了建模。等级学习可以更好地了解VideoQA的结构和关系，因此为更深入的分析提供了坚实的基础。
除上述内容外，VideoQA Works还体现了多步（或进步）推理和多通道融合。而且，所有这些想法都不是相互排斥的。它们通常是协调的，以实现特定模型的良好性能。

方法

early works：基于RNN方法，略
memory networks：将信息存储并逐步完善，性能一般
Transformer：Transformer [Vaswani等，2017]具有良好的建模长期关系的能力，并且在模拟多模式视觉语言任务（例如VideoQA）的情况下表现出了有希望的性能，并在大型数据集上进行了预测。由变压器的成功激励，Li等人。 [Li等人，2019年]首先将变压器的体系结构介绍给没有预培训的视频QA（PSAC），该培训由两个位置自我发明块组成以取代LSTM，以及一个视频问题共同的共同块，同时参加视觉和文字信息。 [Yang等，2020]和[Urooj等，2020]纳入了预先训练的基于语言的变压器（BERT）[Devlin等，2019]电影和故事理解，这需要更多关于语言的模型字幕和对话。这两项工作都处理了每个输入模式，例如视频和字幕，分别具有问题和候选答案，并且最近融合了几个流以获取最终答案。
最近，[Lei等人，2021年]将图像文本预验证的变压器应用于跨模式的预训练，并为下游视频文本任务（例如VideoQA）进行芬特式训练。 [Yang等人，2021年]使用多模式视频问题变压器和答案变压器之间的对比度学习，培训基于大型数据集的VideoQA模型，具有69m的视频问题 - 招标三重态。可以在其他下游VideoQA任务上进一步列出此视频文本预估计的变压器，该任务显示了针对目标VideoQA任务的任务特定预训练的好处。此外，[Zellers等，2021]基于带有图像框架和单词的180m视频片段，以无标签的自我监督方式训练跨模式变压器（Merlot）。与Merlot相似，Violet [Fu等，2021]是另一种视频文本预训练的变压器。
多亏了跨模式学习能力和大规模数据集，变形金刚在几个Factoid VideoQA数据集上实现了SOTA性能。但是，对于数据驱动模型，除了缺乏解释外，推论问题仍然未知。
Graph NN：图神经网络。图形结构的推理方法可以更好地建模关系信息，而关系信息对于VideoQA的推理能力很重要。当推断VideoQA在社区中引起人们的注意[Xiao等，2021]，最近的作品探索了图神经网络。为了获得对象级信息，[Huang等，2020]基于其外观和位置功能表示的对象构建图（LGCN），并建模与问题与图形卷积网络相关的对象之间的相互作用[KIPF和Welling， 2017]。相反，尽管[Jiang and Han，2020年]的同时工作（HGA）以及[Park等，2021]的B2A和[Wang等，2021]的B2A，B2A的b2a，b2a b2a b2a。它们具有粗糙的视频元素和单词，它们既结合了模式内和模式间关系学习，并取得了更好的表现。考虑到视频元素在语义空间中是分层的，[Liu等，2021a]，[Peng等，2021]和[Xiao等，2022]分别将层次学习思想分别纳入图网络。具体而言，[Liu等，2021a]提出了图形记忆机制（头发），以从对象级别到帧级别执行关系视觉 - 语义推理； [Peng等人，2021]串联的不同级别图，即对象级，框架级别和剪辑级别，以渐进的方式学习视觉关系（PGAT）；而[Xiao等，2022]提出了一个层次条件图模型（HQGA），将视觉事实从低级实体和较高级别的视频元素编织在一起，通过图聚合和汇总，以启用在多范围级别的视觉介绍。
凭借良好的关系建模能力，图形网络在推理videoqa任务上显示出令人鼓舞的结果，而重点和困难在于如何巧妙地使用视频元素设计图形。此外，当前的图形网络仍然缺乏明确的逻辑形式推理。
模块化网络。 [Le等人，2020年]发现目前的VideoQA构建网络体系结构用于特定量身定制的目的或特定数据模式。他们指出，当数据模式，视频长度或问题类型发生变化时，这种手工制作的体系结构将遇到问题。因此，他们设计了一种可重复使用的神经单元（CRN），该神经单元（CRN）产生了给定全局环境的输入功能的高阶关系，并将其层次封装，以更好地形成具有更好的概括能力的网络，具有与其他通用网络相似的设计理念，例如InceptionNet和Resnet。具体而言，设计的CRN堆叠在层次结构中，将视频输入嵌入了语言提示上的视频输入，以不同的粒度，包括框架，短剪辑和整个视频级别。模块化网络可以优雅地练习层次学习思想，并且可以轻松地与其他技术集成，例如图[Xiao等，2022]。
Neural-Symbolic：[Yi等，2020]指出，意识到对象和事件之间的时间和因果关系的对象中心视频表示，并且能够预测未观察到的对象动态或反事实场景的动力学模型是两个重要点用于VideoQa中的因果推理。提出了由ImageQa [Yi等，2018]中的神经符号方法激励，提出了NSDR，它用视频解析器提取对象级表示，将问题转化为功能性程序，提取并预测视频的动态场景动态预测指标，并在动态场景上运行程序以获得答案。 NS-DR的目的是将神经网络结合在一起，以进行模式识别和动态预测，以及因果推理的符号逻辑，以解决此问题，最终在合成对象数据集的解释性，预测性和反事实问题上取得了显着收益Al。，2020年]。 [Chen等，2021]和[Ding等，2021]促进了该地区的进一步进展。尽管神经符号在合成数据集上具有推理能力[Yi等，2020]，但在不受约束的视频上的潜在性能仍然未知。
其他：[Yi等，2020]指出，意识到对象和事件之间的时间和因果关系的对象中心视频表示，并且能够预测未观察到的对象动态或反事实场景的动力学模型是两个重要点用于VideoQa中的因果推理。提出了由ImageQa [Yi等，2018]中的神经符号方法激励，提出了NSDR，它用视频解析器提取对象级表示，将问题转化为功能性程序，提取并预测视频的动态场景动态预测指标，并在动态场景上运行程序以获得答案。 NS-DR的目的是将神经网络结合在一起，以进行模式识别和动态预测，以及因果推理的符号逻辑，以解决此问题，最终在合成对象数据集的解释性，预测性和反事实问题上取得了显着收益Al。，2020年]。 [Chen等，2021]和[Ding等，2021]促进了该地区的进一步进展。尽管神经符号在合成数据集上具有推理能力[Yi等，2020]，但在不受约束的视频上的潜在性能仍然未知。
此外，还根据输入信息进行了研究。 [Falcon等，2020]探索几种数据增强技术，以防止仅使用小型数据集对特定的VideoQA任务过度拟合。 [Kim等，2021]指出现有作品具有重大的计算复杂性和不足的表示能力，并介绍了从编码视频bitstream获得的VideoQA功能来解决该问题。 [Chadha等，2021]建立一个常识性知识基础，以感知视频中对象之间的常识和因果关系。

Performance Analysis

我们根据流行的VideoQA基准报告的结果分析了表2中的FACTOID VIDEOQA的高级方法和表3中的推理VideoQA。表2显示，大规模视觉文本数据集上变压器式模型的跨模式预训练比那些不执行跨模式预训练的方法可以实现卓越的性能。通过专注于没有预训练的方法，图形结构化技术是最受欢迎的，并且也显示出巨大的潜力。探索VideoQA图形的跨模式预处理会很有趣。此外，我们发现分层学习和细粒对象功能通常有助于改善性能。
推理VideoQA是一项新生的任务，主要挑战时间和因果推理。与Factoid QA相比，它受到了较少的关注。然而，表3表明，图形结构的技术和神经符号推理是解决它的有前途的方法。虽然神经肌符号方法在模拟环境上表现出了巨大的成功，但扩展到现实世界中的情况仍然非常具有挑战性，因为它需要用于监督的功能计划。这样的功能程序很复杂，目前很难实践实现。根据Factoid VideoQA的跨模式预训练的良好表现，我们认为也有望探索推理视频QA的预训练，并且有足够的改进机会。

image.png

Future Direction

尽管最近的VideoQA方法取得了巨大的成功，但对于现实世界应用程序，差距仍然很大。我们就未来方向的任务和技术提供了以下几点。

从认识到推理。如今，识别视觉数据中对象和属性的能力是强大分类模型的有点案例。因此，回答诸如“什么”之类的问题不再是VideoQA任务的核心。为了实现更有意义和深入的人机相互作用，迫切需要研究物体，行动和事件之间的随意和时间关系。
Knowledge VideoQA：为了回答超出视觉场景的问题，通过知识建模在推理阶段注入知识至关重要。一方面，它可以极大地扩展有关视频的问题的范围。另一方面，它有助于增强模型对用户的可解释性和可信度。除了常识之外，特定于领域的知识VideoQA（例如traffic-QA and embodied-VideoQA）也具有极大的兴趣和实用价值。
Vision-Language Pre-training：Vision-Language对视频QA显示出巨大的好处（见表2）。此外，这种好处伴随着劳动力和乏味的数据注释的豁免。因此，如何为视觉语言模型预识并将其转移到VideoQA是一个有希望的方向，值得更多关注。
解释性和概括能力：虽然正确回答问题至关重要，但是使这些预测可以理解和可信赖的用户同样重要。In addition, [Xiao et al., 2021] show that existing models perform well on multi-choice QA, but fail to generalize to open-ended QA，因此，要实现可靠且可推广的VideoQA系统还有很长的路要走。

结论

本文对VideoQA进行了全面的评论，涵盖了普通VideoQA，多模式视频的流行数据集和知识VideoQA。除数据集外，还讨论了既定的视频QA方法以及一些有意义的见解。我们终于总结了未来探索的几个有希望的方向。通过这些努力，我们强烈希望这项调查能够促进视频问答中的研究，并最终促进对强大的AI系统的努力，这些AI系统可以从整体上理解我们的动态视觉世界，并对人类的自然语言查询或指示做出有意义的回答。

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 216,651评论 6赞 501
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 92,468评论 3赞 392
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 162,931评论 0赞 353
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 58,218评论 1赞 292
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 67,234评论 6赞 388
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 51,198评论 1赞 299
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 40,084评论 3赞 418
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 38,926评论 0赞 274
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 45,341评论 1赞 311
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 37,563评论 2赞 333
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 39,731评论 1赞 348
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 35,430评论 5赞 343
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 41,036评论 3赞 326
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 31,676评论 0赞 22
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 32,829评论 1赞 269
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 47,743评论 2赞 368
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 44,629评论 2赞 354

Video Question Answering: Datasets, Algorithms and Challenges 论文阅读

摘要

Introduction

VideoQA Task and Datasets

算法

主要框架

Unique Challenges and Meaningful Insights

方法

Performance Analysis

Future Direction

结论

推荐阅读更多精彩内容