1.Spatial stream Convnet:随机采样单帧图片输入,提取静态特征(颜色,形状)
网络结构很常用,类似于图像领域上的应用,可以现在Imagnet预训练,再微调。
2.Temporal stream Convnet:本文的亮点。
与以往将堆叠的视频帧作为输入不同,本文采用堆叠的光流作为网络的输入。将多帧(L帧)光流作为多个输入通道(2L)
以往堆叠的视频帧,将堆叠的视频帧作为输入,未从时序上处理视频帧,只是简单地作为多个输入通道,难以提取时空运动信息。
而将堆叠的光流输入,光流本身已描述了运动的速度和方向,然而存在着计算量大的问题。
3.spatial stream convnet与Temporal stream convnet融合:
简单求平均或者两者用L2范式融合再用SVM分类
summary:
1.光流的多种变体:
a。简单计算选定帧I的前向L帧光流
b。只计算稠密轨迹点上的光流(计算量减小?效果差一些?)
问题Q:实验结果表明该效果比单纯的光流效果差?为什么?
c。计算选定帧I的前L/2帧以及后L/2帧光流
2.相机运动消除
减去平均光流
3.多任务学习
针对数据集小,样本数量少:本文联合UCF101与HMDB51数据集进行训练,用两层softmax分别进行两个数据集的分类
4.训练:
a。每次迭代从视频样本中随机抽取一帧(I)作为空域卷积网络的输入
当迭代次数多时,可以保证随机采样得到的帧均匀分布整个视频样本。
问题Q:迭代的次数能否满足上述要求?每次只学习到一帧?是否存在效率低的问题?
b。计算选定帧I的L帧光流,作为时域卷积网络的输入
问题Q:选定帧I位于视频的开始,结束时,如何计算L帧光流
5.测试
从待测试的视频中均匀抽取固定数量的视频帧作为输入
问题Q:不同长度的视频是否需要不一样的数量