背景
互联网上的多媒体数据正在迅速增长,每分钟分享的视频数量激增。 曾经以文本为主的网站已经转变成以照片和视频为主。
计算机视觉社区几十年来一直致力于视频分析,并解决了不同的问题,如行为识别,异常事件检测和活动理解。 但是,缺乏表示视频的一般形式,缺少视频的通用描述符。通用描述符要具备通用、紧凑便于扩展、计算效率高的特征。
从图像领域和深度卷积网络中受到启发,各种预训练的ConvNet网络模型通常用于提取图像特征。 由于两个主要原因,视频缺乏这样的通用特征:首先,没有包含各种通用概念的大规模监督视频数据集;其次,没有有效学习紧凑时空特征的方法去封装外形和动作。
相关工作
随着最近可用的功能强大的并行机器(GPU,CPU集群)以及大量的训练数据,卷积神经网络已经回归到许多突出的人工智能问题中,有与文本相关 ,语音识别和基于图像的问题。
[1] 中的工作与此文章关系密切,但是,[1]的工作是针对特定任务的行动分类而设计的,跟踪的人类主体被分割出来并作为3D ConvNet输入给人类行为分类。但此文将完整的视频帧作为输入,不依赖任何预处理,因此可轻松应用于更大规模和更通用的视频分析任务。
[2] 和[3]中的工作使用全帧来训练ConvNet。然而,他们的结果建立在仅使用2D卷积和2D池化操作的基础上,此文认为这不是处理时间信号的理想方式。
本文贡献
首先构建了一个包含各种不同含义视频的大型手动标注数据集,并且用它训练一个深度的3D ConvNet来学习视频功能。3D可以更好的模拟时空信息,提出更好的特征。总的贡献罗列如下:
- 提出了一种基于正确选择数据集设计的通用时空特征学习方法以及使用3D ConvNet的学习模型。
- 使用提出的通用特性,一个简单的线性模型可以实现或接近不同视频分类基准点的最新性能。
- 与当前最好的手工特征和当前最好的深度学习模型相比,提出的特征更紧凑,更具辨别性,并且计算速度更快。
C3D优势
- 通用性好:在视频相关任务中,比如目标识别,场景分类和动作相似性的测量,结果最为先进。
- 任务紧凑:比其他手动特征具有更好的精度和低维度的特征描述。
- 计算效率高:比当前手动功能快91倍,比当前基于深度学习的视频分类方法快两个数量级。
学习时空特征
数据集的设计
数据集包含超过380000个关于382个概念的视频,每个视频通常长5-15秒,由手动标注视频概念标签。
使用3D卷积神经网络学习时空特征
使用设计好的数据集对动作,物体,场景和其他概念进行分类。 训练好的网络然后被用作其他视频分析任务的特征提取器。
与2D卷积相比,3D ConvNet通过3D卷积和3D池化操作更好地模拟时间信息。3D ConvNets和2D ConvNet的主要区别在于卷积和合并操作是按照时空进行的,而对2D ConvNet的操作只能在空间上进行。只有3D卷积保留了输入信号的时间信息。
3D ConvNet的体系结构:所有的3D卷积滤波器都是3×3×3(长度×高×宽)读数,步长为1(空间和时间均为1)。所有的3D池化层都是2×2×2(池1除外),步长为1.只有池1是1×2×2,意图在早期保留时间信息,因为允许池化可以模糊早期运动信号。
训练:数据集被随机分为训练集,验证集和测试集,比例为70%,10%和20%。训练的3D ConvNet(C3D),输入尺寸为16帧。从训练视频密集采样,时间跨度为32帧。这些帧被缩小为128×128,使得网络的输入为3×16×128×128(3个颜色通道,16个时间帧和128×128个帧)。所有卷积层使用正态分布随机初始化,标准偏差为0.01。使用30个小批量大小、初始学习率为0.003,在每次200K迭代后除以10。 600K迭代后停止训练。在单个Nvidia K40 GPU上,需要4周的时间来训练模型。
训练结果:评估测试拆分中的C3D特征和其他两个基准特征模型(KNet,VGGA),并将结果记录在下表中。
C3D应用场景
动作识别
论文将C3D应用到动作识别的场景中, 采用的是UCF101数据集, 该数据集由101个人类行为类别的13320个视频组成。作者还将C3D与其他的基准模型的结果比较, 得到的结果如下,
为了评估C3D特征的紧凑性,使用PCA将特征投影到较低维度,并报告UCF101 上投影特征的分类精度。 对当前最好的手工提取特征以及当前图像深度特征应用相同的过程,比较图中的结果。在只有10个维度的极端设置下,C3D精度为 45.4%,比Imagenet的准确性好10%,比iDT好19%。 在50dim时,C3D也比Imagenet好大约5-10%,比iDT好大约20%。 最后,在100 - 200尺寸的情况下,C3D能够获得70%的准确度,表明特征既紧凑又有区别。 这对于低存储成本和快速检索至关重要的大规模检索应用程序非常有用。
动作相似性标注
论文将C3D应用到动作相似性标注的场景中, 采用的是ASLAN数据集, 该数据集由来自432个操作类的3631个视频组成。 任务是预测给定的一对视频是否属于相同或不同的动作。得到的结果如下,
论文以二分类中经典的ROC曲线进行衡量, 可以看出C3D识别效果只比人类识别效果低, 其AUC值86.5%也是属于比较理想的分数了。
动态场景识别
论文将C3D应用到动作识别的场景中, 采用的是YUPENN和Maaryland 两个数据集数据集,YUPENN由14个场景类别的420个视频组成,马里兰州拥有130个场景类别的130个视频。 得到的结果如下,
总结
特征学习在解决跨不同领域的许多机器学习问题方面起着关键作用,例如文本,语音,图像和视频。通过具有区分性,紧凑性和快速计算特性,人们可以使用简单的线性模型解决各种问题。视频处理器在这方面一直落后,此论文试图解决视频学习通用功能的问题。该论文指出,正确的数据集设计,强大的网络架构和良好的时间建模的组合对于学习视频的通用功能至关重要。
这些发现与[4]中的讨论一致,[4]发现适当的训练数据集为静态图像中的场景分类提供了更好的特征。学习通用视频特征的方法建立在大规模手动标注的视频数据集上,并用它训练深度3D卷积网络。
学习到的视频特征不仅具有区分性,并且紧凑型好,计算能力更强。该论文的工作对视频领域有双重影响。一方面,这些特征的区分能力使其成为视频问题现有特征的一个很好的替代方案。另一方面,它为C3D的紧凑和高效计算开辟了大规模视频分析的机会。
他们的工作提取的通用性特征可以通过简单的线性模型在低维的特征空间中,以低损耗的方式实现或接近不同视频任务的最新结果。
感受
该论文发表的团队能够把目前的研究成果考虑的很全面,在方法应用上,把前人提出的方法进行整合,提取特征中,即应用考虑整帧内容,又结合3D卷积保存时间信息。这些都是其他人考虑过的方法,但作者能够大胆结合不同方法,创新性地提出自己的视频通用特征信息。所以,做科学研究,首先要把当前的工作进度了解到,要站在巨人的肩膀上。
参考文献
[1] S. Ji, W. Xu, M. Yang, and K. Yu. 3d convolutional neu-ral networks for human action recognition. IEEE TPAMI, 35(1):221–231, 2013. 2, 3
[2] A. Karpathy, G. Toderici, S. Shetty, T. Leung, R. Sukthankar, and L. Fei-Fei. Large-scale video classification with convo-lutional neural networks. In CVPR, 2014. 2, 3, 5, 6
[3] K. Simonyan and A. Zisserman. Two-stream convolutional networks for action recognition in videos. In NIPS, 2014. 2, 3, 5, 6, 7, 8
[4] B. Zhou, A. Lapedriza, J. Xiao, A. Torralba, and A. Oliva. Learning deep features for scene recognition using places database. In NIPS, 2014. 2, 8