论文地址:2203.01225v1.pdf (arxiv.org)
一篇VQA的综述
摘要
视频问题回答(VideoQA)旨在根据给定的视频回答自然语言问题。随着联合视觉和语言理解的最新研究趋势,它引起了人们的关注。然而,与imageQA相比,VideoQA在很大程度上没有被逐渐解散,并且进展缓慢。尽管已经不断提出了不同的算法,并在不同的VideoQA数据集上显示了成功,但我们发现缺乏有意义的调查来对它们进行分类,这严重阻碍了其进步。因此,本文为VideoQA提供了明确的分类学和全面的分析,重点是数据集,算法和独特的挑战。然后,我们指出了研究质量质量质量值的研究趋势,以推理质量质量质量吸引力的认知视频内容,最后,我们总结了一些有希望的未来探索方向。
Introduction
VQA的难点:需要对视频全面理解才能正确回答问题,包括但不限于识别对象,行动和活动以及其空间,时间和因果关系的推理。
目前数据集、定义任务和算法混乱,因此,本文为VideoQA提供了更全面和有意义的调查,目的是从过去学习并塑造未来。我们的主要贡献总结为以下内容。 (1)我们回顾了Factoid VideoQA和Inference VideoQA的最新方法。此外,我们提出了当前数据集的合理拆分,以进行清晰的算法比较:VideoQA,多模态VideoQA和知识VIDEOQA。 (2)我们提出了一种分类法,将现有的视频QA技术分类为:Memory, Transformer, Graphs, Modular Networks and NeuralSymbolic methods。此外,包括一些有意义的见解:Memory, Transformer, Graphs, Modular Networks and NeuralSymbolic methods (3)我们从各种VideoQA任务中遇到的挑战的角度分析了现有方法,并为未来的研究提供了有意义的见解。
VideoQA Task and Datasets
两种VQA问题,multi-choice QA和open-ended QA。multi-choice QA,会提供几个候选答案任模型选择。open-ended QA,问题可以是分类(most popular)或回归(counting)或生成(word by word),multi-choice QA倾向于因果推理,Open-ended QA倾向分类。
-
按模态分类:多模态(Multi-modal)VQA以及Knowledge-based VQA。
MM VQA通常包括QA外的其他资源如电影字幕、文字图、音频,挑战多模态信息融合和理解。
KB VQA要求外部知识从明确的知识库或常识推理中蒸馏。 - 按Question类型分类:factoid VQA和Inference VQA。Factoid VQA询问视觉事实如位置对象/属性(WHO/what(颜色)是),并与答案几乎没有关系。 Factoid QA强调了对问题的整体理解,并挑战了视觉元素的识别。相反,推理VideoQA的目的是探索动态场景中的逻辑推理能力,并具有视觉事实之间的各种关系。尽管有丰富的关系类型,但VideoQA强调了时间(之前/之后)和因果关系(为什么/如何)
-
数据集分析:
注意:VQA和MMVQA方法类似,Inference VQA带来了新技术挑战。
算法
主要框架
最近工作显示了object-level visual and semantic feature的重要性,这些特征通常使用预训练的2D和3D网络提取。
然后可以通过时序模型如RNN,CNN,Transformer进一步处理视觉和语言顺序,并引入跨模态特征融合,Multi-choice QA可以选择一个答案,open-ended QA则成为一个分类问题。video和language encoders 可以pre-trained or mo recently E2E finetuned,损失使用hinge loss或者交叉熵等。
Unique Challenges and Meaningful Insights
由于时间动态变化,现有的ImageQA很难扩展到VideoQA,与其他视频任务相比,Questionanswering是一种在不同方面和粒度上了解视频的综合方法,例如在时间和空间领域中从细粒度到粗粒,从FACTOID问题到推理问题。为了应对挑战,已经为跨模式互动做出了许多努力,该互动旨在在问题的指导下了解视频。我们总结了文献中常见的一些有意义的见解。
- Attention:空间、时间维度Attention。自我注意力具有良好的模型远程依赖性的能力,并且可以用于模式内建模,例如视频中的时间信息和问题的全球依赖性。跨模态注意可以参与相关和关键的多模式信息,例如问题指导的视频表示和视频指导的问题表示。
- 跨模态预训练:跨模式预训练。随着可以同时处理视觉和语言数据的高性能处理器和高级网络体系结构的开发,跨模式的预训练可以完全利用来自嘈杂的语义信息,但收集的大规模,ImageText或视频text数据集在网上。可以通过在小规模的手动注释数据集上进行填充,可以将学习的模型转移到下游视觉语言任务中,这可以显着提高Factoid VideoQA任务上的性能。
- Multi-granularity Ensemble。问题是多种多样的,不受约束的,并且可能需要查询视频的不同粒度,尤其是在时间维度上。为了获得各种问题的丰富信息,多晶格合奏可以结合不同时间尺度的多个表示,这些表示以显式和隐性方式广泛使用。也有一些作品结合了细化和粗粒的视觉表示和问题特征,分别探索空间维度的多晶格和语言维度。与强调重要信息的特定于问题的注意力相反,多跨性集合提供了更多多种答案的表示。
- Hierarchical Learning:考虑到视频和问题内容在语义空间中是分层的,层次学习旨在组织从低级到高级以及从本地到全球的多模式表示。具体而言,语言概念从单词到句子进行分析,而视频元素是从对象到关系和活动的。类似于多粒性合奏,分层学习还模拟了多粒度视频元素和语言概念,但以一种渐进的方式进行了建模。等级学习可以更好地了解VideoQA的结构和关系,因此为更深入的分析提供了坚实的基础。
除上述内容外,VideoQA Works还体现了多步(或进步)推理和多通道融合。而且,所有这些想法都不是相互排斥的。它们通常是协调的,以实现特定模型的良好性能。
方法
- early works:基于RNN方法,略
- memory networks:将信息存储并逐步完善,性能一般
- Transformer:Transformer [Vaswani等,2017]具有良好的建模长期关系的能力,并且在模拟多模式视觉语言任务(例如VideoQA)的情况下表现出了有希望的性能,并在大型数据集上进行了预测。由变压器的成功激励,Li等人。 [Li等人,2019年]首先将变压器的体系结构介绍给没有预培训的视频QA(PSAC),该培训由两个位置自我发明块组成以取代LSTM,以及一个视频问题共同的共同块,同时参加视觉和文字信息。 [Yang等,2020]和[Urooj等,2020]纳入了预先训练的基于语言的变压器(BERT)[Devlin等,2019]电影和故事理解,这需要更多关于语言的模型字幕和对话。这两项工作都处理了每个输入模式,例如视频和字幕,分别具有问题和候选答案,并且最近融合了几个流以获取最终答案。
最近,[Lei等人,2021年]将图像文本预验证的变压器应用于跨模式的预训练,并为下游视频文本任务(例如VideoQA)进行芬特式训练。 [Yang等人,2021年]使用多模式视频问题变压器和答案变压器之间的对比度学习,培训基于大型数据集的VideoQA模型,具有69m的视频问题 - 招标三重态。可以在其他下游VideoQA任务上进一步列出此视频文本预估计的变压器,该任务显示了针对目标VideoQA任务的任务特定预训练的好处。此外,[Zellers等,2021]基于带有图像框架和单词的180m视频片段,以无标签的自我监督方式训练跨模式变压器(Merlot)。与Merlot相似,Violet [Fu等,2021]是另一种视频文本预训练的变压器。
多亏了跨模式学习能力和大规模数据集,变形金刚在几个Factoid VideoQA数据集上实现了SOTA性能。但是,对于数据驱动模型,除了缺乏解释外,推论问题仍然未知。 - Graph NN:图神经网络。图形结构的推理方法可以更好地建模关系信息,而关系信息对于VideoQA的推理能力很重要。当推断VideoQA在社区中引起人们的注意[Xiao等,2021],最近的作品探索了图神经网络。为了获得对象级信息,[Huang等,2020]基于其外观和位置功能表示的对象构建图(LGCN),并建模与问题与图形卷积网络相关的对象之间的相互作用[KIPF和Welling, 2017]。相反,尽管[Jiang and Han,2020年]的同时工作(HGA)以及[Park等,2021]的B2A和[Wang等,2021]的B2A,B2A的b2a,b2a b2a b2a。它们具有粗糙的视频元素和单词,它们既结合了模式内和模式间关系学习,并取得了更好的表现。考虑到视频元素在语义空间中是分层的,[Liu等,2021a],[Peng等,2021]和[Xiao等,2022]分别将层次学习思想分别纳入图网络。具体而言,[Liu等,2021a]提出了图形记忆机制(头发),以从对象级别到帧级别执行关系视觉 - 语义推理; [Peng等人,2021]串联的不同级别图,即对象级,框架级别和剪辑级别,以渐进的方式学习视觉关系(PGAT);而[Xiao等,2022]提出了一个层次条件图模型(HQGA),将视觉事实从低级实体和较高级别的视频元素编织在一起,通过图聚合和汇总,以启用在多范围级别的视觉介绍。
凭借良好的关系建模能力,图形网络在推理videoqa任务上显示出令人鼓舞的结果,而重点和困难在于如何巧妙地使用视频元素设计图形。此外,当前的图形网络仍然缺乏明确的逻辑形式推理。 - 模块化网络。 [Le等人,2020年]发现目前的VideoQA构建网络体系结构用于特定量身定制的目的或特定数据模式。他们指出,当数据模式,视频长度或问题类型发生变化时,这种手工制作的体系结构将遇到问题。因此,他们设计了一种可重复使用的神经单元(CRN),该神经单元(CRN)产生了给定全局环境的输入功能的高阶关系,并将其层次封装,以更好地形成具有更好的概括能力的网络,具有与其他通用网络相似的设计理念,例如InceptionNet和Resnet。具体而言,设计的CRN堆叠在层次结构中,将视频输入嵌入了语言提示上的视频输入,以不同的粒度,包括框架,短剪辑和整个视频级别。模块化网络可以优雅地练习层次学习思想,并且可以轻松地与其他技术集成,例如图[Xiao等,2022]。
- Neural-Symbolic:[Yi等,2020]指出,意识到对象和事件之间的时间和因果关系的对象中心视频表示,并且能够预测未观察到的对象动态或反事实场景的动力学模型是两个重要点用于VideoQa中的因果推理。提出了由ImageQa [Yi等,2018]中的神经符号方法激励,提出了NSDR,它用视频解析器提取对象级表示,将问题转化为功能性程序,提取并预测视频的动态场景动态预测指标,并在动态场景上运行程序以获得答案。 NS-DR的目的是将神经网络结合在一起,以进行模式识别和动态预测,以及因果推理的符号逻辑,以解决此问题,最终在合成对象数据集的解释性,预测性和反事实问题上取得了显着收益Al。,2020年]。 [Chen等,2021]和[Ding等,2021]促进了该地区的进一步进展。尽管神经符号在合成数据集上具有推理能力[Yi等,2020],但在不受约束的视频上的潜在性能仍然未知。
- 其他:[Yi等,2020]指出,意识到对象和事件之间的时间和因果关系的对象中心视频表示,并且能够预测未观察到的对象动态或反事实场景的动力学模型是两个重要点用于VideoQa中的因果推理。提出了由ImageQa [Yi等,2018]中的神经符号方法激励,提出了NSDR,它用视频解析器提取对象级表示,将问题转化为功能性程序,提取并预测视频的动态场景动态预测指标,并在动态场景上运行程序以获得答案。 NS-DR的目的是将神经网络结合在一起,以进行模式识别和动态预测,以及因果推理的符号逻辑,以解决此问题,最终在合成对象数据集的解释性,预测性和反事实问题上取得了显着收益Al。,2020年]。 [Chen等,2021]和[Ding等,2021]促进了该地区的进一步进展。尽管神经符号在合成数据集上具有推理能力[Yi等,2020],但在不受约束的视频上的潜在性能仍然未知。
此外,还根据输入信息进行了研究。 [Falcon等,2020]探索几种数据增强技术,以防止仅使用小型数据集对特定的VideoQA任务过度拟合。 [Kim等,2021]指出现有作品具有重大的计算复杂性和不足的表示能力,并介绍了从编码视频bitstream获得的VideoQA功能来解决该问题。 [Chadha等,2021]建立一个常识性知识基础,以感知视频中对象之间的常识和因果关系。
Performance Analysis
我们根据流行的VideoQA基准报告的结果分析了表2中的FACTOID VIDEOQA的高级方法和表3中的推理VideoQA。表2显示,大规模视觉文本数据集上变压器式模型的跨模式预训练比那些不执行跨模式预训练的方法可以实现卓越的性能。通过专注于没有预训练的方法,图形结构化技术是最受欢迎的,并且也显示出巨大的潜力。探索VideoQA图形的跨模式预处理会很有趣。此外,我们发现分层学习和细粒对象功能通常有助于改善性能。
推理VideoQA是一项新生的任务,主要挑战时间和因果推理。与Factoid QA相比,它受到了较少的关注。然而,表3表明,图形结构的技术和神经符号推理是解决它的有前途的方法。虽然神经肌符号方法在模拟环境上表现出了巨大的成功,但扩展到现实世界中的情况仍然非常具有挑战性,因为它需要用于监督的功能计划。这样的功能程序很复杂,目前很难实践实现。根据Factoid VideoQA的跨模式预训练的良好表现,我们认为也有望探索推理视频QA的预训练,并且有足够的改进机会。
Future Direction
尽管最近的VideoQA方法取得了巨大的成功,但对于现实世界应用程序,差距仍然很大。我们就未来方向的任务和技术提供了以下几点。
- 从认识到推理。如今,识别视觉数据中对象和属性的能力是强大分类模型的有点案例。因此,回答诸如“什么”之类的问题不再是VideoQA任务的核心。为了实现更有意义和深入的人机相互作用,迫切需要研究物体,行动和事件之间的随意和时间关系。
- Knowledge VideoQA:为了回答超出视觉场景的问题,通过知识建模在推理阶段注入知识至关重要。一方面,它可以极大地扩展有关视频的问题的范围。另一方面,它有助于增强模型对用户的可解释性和可信度。除了常识之外,特定于领域的知识VideoQA(例如traffic-QA and embodied-VideoQA)也具有极大的兴趣和实用价值。
- Vision-Language Pre-training:Vision-Language对视频QA显示出巨大的好处(见表2)。此外,这种好处伴随着劳动力和乏味的数据注释的豁免。因此,如何为视觉语言模型预识并将其转移到VideoQA是一个有希望的方向,值得更多关注。
- 解释性和概括能力:虽然正确回答问题至关重要,但是使这些预测可以理解和可信赖的用户同样重要。In addition, [Xiao et al., 2021] show that existing models perform well on multi-choice QA, but fail to generalize to open-ended QA,因此,要实现可靠且可推广的VideoQA系统还有很长的路要走。
结论
本文对VideoQA进行了全面的评论,涵盖了普通VideoQA,多模式视频的流行数据集和知识VideoQA。除数据集外,还讨论了既定的视频QA方法以及一些有意义的见解。我们终于总结了未来探索的几个有希望的方向。通过这些努力,我们强烈希望这项调查能够促进视频问答中的研究,并最终促进对强大的AI系统的努力,这些AI系统可以从整体上理解我们的动态视觉世界,并对人类的自然语言查询或指示做出有意义的回答。