06组-Learning Spatiotemporal Features with 3D Convolutional Networks

背景

互联网上的多媒体数据正在迅速增长,每分钟分享的视频数量激增。 曾经以文本为主的网站已经转变成以照片和视频为主。
计算机视觉社区几十年来一直致力于视频分析,并解决了不同的问题,如行为识别,异常事件检测和活动理解。 但是,缺乏表示视频的一般形式,缺少视频的通用描述符。通用描述符要具备通用、紧凑便于扩展、计算效率高的特征。
从图像领域和深度卷积网络中受到启发,各种预训练的ConvNet网络模型通常用于提取图像特征。 由于两个主要原因,视频缺乏这样的通用特征:首先,没有包含各种通用概念的大规模监督视频数据集;其次,没有有效学习紧凑时空特征的方法去封装外形和动作。

相关工作

随着最近可用的功能强大的并行机器(GPU,CPU集群)以及大量的训练数据,卷积神经网络已经回归到许多突出的人工智能问题中,有与文本相关 ,语音识别和基于图像的问题。
[1] 中的工作与此文章关系密切,但是,[1]的工作是针对特定任务的行动分类而设计的,跟踪的人类主体被分割出来并作为3D ConvNet输入给人类行为分类。但此文将完整的视频帧作为输入,不依赖任何预处理,因此可轻松应用于更大规模和更通用的视频分析任务。
[2] 和[3]中的工作使用全帧来训练ConvNet。然而,他们的结果建立在仅使用2D卷积和2D池化操作的基础上,此文认为这不是处理时间信号的理想方式。

本文贡献

首先构建了一个包含各种不同含义视频的大型手动标注数据集,并且用它训练一个深度的3D ConvNet来学习视频功能。3D可以更好的模拟时空信息,提出更好的特征。总的贡献罗列如下:

  • 提出了一种基于正确选择数据集设计的通用时空特征学习方法以及使用3D ConvNet的学习模型。
  • 使用提出的通用特性,一个简单的线性模型可以实现或接近不同视频分类基准点的最新性能。
  • 与当前最好的手工特征和当前最好的深度学习模型相比,提出的特征更紧凑,更具辨别性,并且计算速度更快。

C3D优势

  • 通用性好:在视频相关任务中,比如目标识别,场景分类和动作相似性的测量,结果最为先进。
  • 任务紧凑:比其他手动特征具有更好的精度和低维度的特征描述。
  • 计算效率高:比当前手动功能快91倍,比当前基于深度学习的视频分类方法快两个数量级。

学习时空特征

数据集的设计

数据集包含超过380000个关于382个概念的视频,每个视频通常长5-15秒,由手动标注视频概念标签。

使用3D卷积神经网络学习时空特征

使用设计好的数据集对动作,物体,场景和其他概念进行分类。 训练好的网络然后被用作其他视频分析任务的特征提取器。

与2D卷积相比,3D ConvNet通过3D卷积和3D池化操作更好地模拟时间信息。3D ConvNets和2D ConvNet的主要区别在于卷积和合并操作是按照时空进行的,而对2D ConvNet的操作只能在空间上进行。只有3D卷积保留了输入信号的时间信息。

3D ConvNet的体系结构:所有的3D卷积滤波器都是3×3×3(长度×高×宽)读数,步长为1(空间和时间均为1)。所有的3D池化层都是2×2×2(池1除外),步长为1.只有池1是1×2×2,意图在早期保留时间信息,因为允许池化可以模糊早期运动信号。


网络结构

训练:数据集被随机分为训练集,验证集和测试集,比例为70%,10%和20%。训练的3D ConvNet(C3D),输入尺寸为16帧。从训练视频密集采样,时间跨度为32帧。这些帧被缩小为128×128,使得网络的输入为3×16×128×128(3个颜色通道,16个时间帧和128×128个帧)。所有卷积层使用正态分布随机初始化,标准偏差为0.01。使用30个小批量大小、初始学习率为0.003,在每次200K迭代后除以10。 600K迭代后停止训练。在单个Nvidia K40 GPU上,需要4周的时间来训练模型。

训练结果:评估测试拆分中的C3D特征和其他两个基准特征模型(KNet,VGGA),并将结果记录在下表中。


Result

C3D应用场景

动作识别

论文将C3D应用到动作识别的场景中, 采用的是UCF101数据集, 该数据集由101个人类行为类别的13320个视频组成。作者还将C3D与其他的基准模型的结果比较, 得到的结果如下,


C3D on Action recognition

为了评估C3D特征的紧凑性,使用PCA将特征投影到较低维度,并报告UCF101 上投影特征的分类精度。 对当前最好的手工提取特征以及当前图像深度特征应用相同的过程,比较图中的结果。在只有10个维度的极端设置下,C3D精度为 45.4%,比Imagenet的准确性好10%,比iDT好19%。 在50dim时,C3D也比Imagenet好大约5-10%,比iDT好大约20%。 最后,在100 - 200尺寸的情况下,C3D能够获得70%的准确度,表明特征既紧凑又有区别。 这对于低存储成本和快速检索至关重要的大规模检索应用程序非常有用。


PCA

动作相似性标注

论文将C3D应用到动作相似性标注的场景中, 采用的是ASLAN数据集, 该数据集由来自432个操作类的3631个视频组成。 任务是预测给定的一对视频是否属于相同或不同的动作。得到的结果如下,


C3D on Action Similarity Labeling

论文以二分类中经典的ROC曲线进行衡量, 可以看出C3D识别效果只比人类识别效果低, 其AUC值86.5%也是属于比较理想的分数了。

动态场景识别

论文将C3D应用到动作识别的场景中, 采用的是YUPENN和Maaryland 两个数据集数据集,YUPENN由14个场景类别的420个视频组成,马里兰州拥有130个场景类别的130个视频。 得到的结果如下,


C3D on Scene and Object Recognition

总结

特征学习在解决跨不同领域的许多机器学习问题方面起着关键作用,例如文本,语音,图像和视频。通过具有区分性,紧凑性和快速计算特性,人们可以使用简单的线性模型解决各种问题。视频处理器在这方面一直落后,此论文试图解决视频学习通用功能的问题。该论文指出,正确的数据集设计,强大的网络架构和良好的时间建模的组合对于学习视频的通用功能至关重要。
这些发现与[4]中的讨论一致,[4]发现适当的训练数据集为静态图像中的场景分类提供了更好的特征。学习通用视频特征的方法建立在大规模手动标注的视频数据集上,并用它训练深度3D卷积网络。
学习到的视频特征不仅具有区分性,并且紧凑型好,计算能力更强。该论文的工作对视频领域有双重影响。一方面,这些特征的区分能力使其成为视频问题现有特征的一个很好的替代方案。另一方面,它为C3D的紧凑和高效计算开辟了大规模视频分析的机会。
他们的工作提取的通用性特征可以通过简单的线性模型在低维的特征空间中,以低损耗的方式实现或接近不同视频任务的最新结果。

感受

该论文发表的团队能够把目前的研究成果考虑的很全面,在方法应用上,把前人提出的方法进行整合,提取特征中,即应用考虑整帧内容,又结合3D卷积保存时间信息。这些都是其他人考虑过的方法,但作者能够大胆结合不同方法,创新性地提出自己的视频通用特征信息。所以,做科学研究,首先要把当前的工作进度了解到,要站在巨人的肩膀上。

参考文献
[1] S. Ji, W. Xu, M. Yang, and K. Yu. 3d convolutional neu-ral networks for human action recognition. IEEE TPAMI, 35(1):221–231, 2013. 2, 3
[2] A. Karpathy, G. Toderici, S. Shetty, T. Leung, R. Sukthankar, and L. Fei-Fei. Large-scale video classification with convo-lutional neural networks. In CVPR, 2014. 2, 3, 5, 6
[3] K. Simonyan and A. Zisserman. Two-stream convolutional networks for action recognition in videos. In NIPS, 2014. 2, 3, 5, 6, 7, 8
[4] B. Zhou, A. Lapedriza, J. Xiao, A. Torralba, and A. Oliva. Learning deep features for scene recognition using places database. In NIPS, 2014. 2, 8

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 204,189评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,577评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 150,857评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,703评论 1 276
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,705评论 5 366
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,620评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,995评论 3 396
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,656评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,898评论 1 298
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,639评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,720评论 1 330
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,395评论 4 319
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,982评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,953评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,195评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 44,907评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,472评论 2 342

推荐阅读更多精彩内容