一 写在前面
未经允许,不得转载,谢谢~~~
这也是今年发表在CVPR上的文章,简单整理记录一下。
主要信息:
- 文章出处:CVPR2020
- 文章代码:暂未发布
- 数据集地址:暂未发布
- 原文链接:https://arxiv.org/abs/1912.06992
二 主要内容
2.1 相关背景
以action recognition为代表的视频理解任务通常将视频当成一个单独的动作进行分析。相对应地,很多数据集对一个视频也用一个action进行标注。
虽然在图像领域,像scene graph这样的结构化表示已经被证明可以在很多任务上提升模型的性能。但在视频领域,视频动作的拆解(objects以及relationship的对应关系)还处于under-explored状态。
在认知科学也有研究支持人类会将长的视频分成几段以便理解。
2.2 本文工作
- 在视频领域,提出Action Genome,将动作表示成spatio-tempoal scene graph的形式。
以“person sitting on a sofa“为例,Action Genome在其对应的帧上进行object和relation的注释:
- object:person,sofa
- relation:<person next to sofa>, <person in front of sofa>, <person sitting on sofa>
- 基于Charades构建含有scene-graph的数据集:Action Genome
按照上面所示的例子,对视频进行sene-graph的标注工作,具体包括object以及relation;
最后的数据集包含:
- 157 action categories;
- 234K video frames;
- 476K bounding boxes;
- 1.72M relationships
- 在三种任务上进行了scene graph对于视频理解的帮助:
- action recognition
- few-shot action recognition
- spatio-temporal scene graph prediction
三 具体方法
3.1 Action Genome dataset
先简单介绍一下scene graph:
- node:object(物体对应图里的节点)
- edge:realtionship(物体之间的关系对应图中节点之间的边)
对应数据集的标注与构建:
- 整个数据集是基于Charades构建起来的;
- 标注的方法是action-oriented sampling strategy (以视频中的action为导向进行标注)
- 具体对应这个图进行解释:
对于视频中的每个action(不同的颜色段),在这个时间范围内统一sample 5帧进行注释。假设一段视频中有4个actions(action本身可包含,可覆盖),那总共会有4x5=20帧视频帧被标注到。
具体的标注形式如图所示,先标出跟这个action相关的object(bounding box),然后再标注relationships。
其中总共包含3类realtionships:
- attention(looking or not)
- spatial (空间位置)
- contact (交互方式)
最后的数据集信息:
- 234253 frames
- 35 object classes, 476229 bounding boxes
- 25 relationship classes,1715568 instances
3.2 方法
方法部分相对比较简单,主要就是构建scene-graph,然后获取最终的representation。
看颜色的线路(蓝 vs 绿),最终的特征来源最终包含2个部分:
- scene graph
- 3D CNN
其中scene graph的部分,对于视频中的每一帧经过scene graph predictor(先用Faster RCNN进行object detection,再用RelDN进行relationships prediction )构建对应的graph,然后用类似long-term feature bank中的方法获取到graph对应的特征表示。
具体而言,图中看到的feature map是|O| x |R|大小的,|O|表示所有object的数目(已经包含person),|R|表示所有relationship的种类,其值等于对应object的置信度乘上对应relationship的置信度。然后对于每一帧,都把这个map展开作为这一帧的feature,最后对不同帧之间做一个融合得到scene-graph这一路得到的特征。
3D CNN这一路是取视频中比较短的片段过3D conv主导的网络,最终得到的feature,这样可以结合短距离信息和长距离信息。
四 实验结果
介绍一下关于action recognition的结果:在Charader数据集上,通过用scene-graph features替换LFB(long-term feature bank)的feature banks ,能在SOTA的LFB上提升1.8% mAP。
另外还做了一个验证实验,假设真实的scene graph是存在的情况下,也就是直接用手工标注的GT进行scene-graph的构建,能在mAP上获得16%的提升。
五 写在最后
现在的视频分类的文章基本都不在ucf,hmdb这种小数据集上做了==,感觉从科研的角度来说会越来越难,但是真的能出现一些更challenging更有意义的工作还是感觉很好的。
感谢阅读~
有问题欢迎交流。