我们开源了发表在ACM MM2020上的工作:
Depth Guided Adaptive Meta-Fusion Network for Few-shot Video Recognition
- 文章link:https://arxiv.org/abs/2010.09982
- code link:https://github.com/lovelyqian/AMeFu-Net
文章做的是few-shot video action recogniton的工作。
基于对视频中:
1)场景信息可以有效帮助识别动作信息
2)人类即使在场景发生一定程度的偏移的情况下也能较好识别视频动作信息
这两点发现,针对性地提出了:
1)基于adaptive instance normalization的DGAdaIn多模态融合模块,有效融合RGB信息和depth信息
2)temporal shift sampling操作,通过采取不完全匹配的RGB和depth视频片段作为训练数据,提升模型的鲁棒性。
欢迎大家关注我们的工作,非常感谢~