Spatially Supervised Recurrent Convolutional Neural Networks for Visual Object Tracking 笔记

2017 IEEE ISCS

摘要

发明一种新方法，将空间监督的递归卷积神经网络（RNN）用于跟踪。
受到边框回归的启发，研究LSTM，建议将卷积网络产生的高级视觉特征与区域信息相结合。目标位置预测使用回归得出。

1、引入

解决问题：目标跟踪中的大多数挑战。
我们发现大多数算法主要关注提高深度特征的鲁棒性和表现，来对抗手工特征。对于目标跟踪如何扩展深度神经网络分析到时空域却没有充分的研究。

我们方法最大的动机是，跟踪失败可以有效地恢复，通过历史视觉语义和跟踪建议。我们的递归神经网络是“双倍深的”，不仅检查位置的历史信息，还检查过去帧的鲁棒性的视觉特征。

别人：有两个方法与本篇很相关。用RNN解决跟踪中相同的问题。但是他们关注人工产生的序列和合成的数据，没有解决现实世界视频中目标跟踪的挑战。他们使用传统的RNN和局部区域的二分类。
我们：直接回归坐标和热图而不是用子区域分类。使用LSTM用单独的一个估计来实现端到端的时空域回归。
我们的跟踪器更准确和鲁棒，而且计算成本低。

主要贡献：

模型化的神经网络，可以用基于梯度的学习方法端到端训练。并给出LSTM的解释和高层视觉特征的回归能力。
对比基于卷积神经网络的trackers，我们的框架扩展到了时空域做跟踪。
网络准确高效且低复杂度。

2、系统综述

图1.png

用YOLO提取特征，和初步的位置判断；在下一阶段，使用LSTM，因为它具有空间深度而且适合序列处理。
网络输入是原生时频帧，输出是在每一帧中目标回归框的坐标。数学上，提出的模型因式将整个跟踪概率分解为：

跟踪概率分解.png

其中 $B_t$ 是时间 $t$ 之前的所有位置的历史记录， $X_t$ 是时间 $t$ 之前的所有输入帧的历史记录。

2.1 Long Short Term Memory(LSTM)

由于反向传播的误差随着时间的推移而膨胀或衰减，传统的RNN无法访问远程上下文，这被称为消失梯度问题。LSTM可以克服这个问题，并能够模拟自学习的上下文信息。LSTM的主要创新是其存储单元 $c_t$ ，它基本上充当状态信息的累加器。通过几个自参数化控制门（self-parameterized controlling gates），这些单元可以读取、写入和清除。每当有新输入时，如果输入门 $i_t$ 被激活，它的信息将被累积到储存单元。我们使用LSTM来作为跟踪模型。LSTM使用记忆细胞来存储和输出信息，能够发现长范围时间信息。 $σ = (1 + e^{-x})^{-1}$ 是非线性回归函数，将实数值压缩到[0,1]， $\phi(x)=\frac{e^x-e{-x}}{e^x+e{-x}}$ ，给定输入 $x_t，h_{t-1}和c_{t-1}$ 的时间戳t的LSTM更新是：

LSTM更新

2.2 使用YOLO进行目标检测

YOLO模型以45 fps实时处理图像。

3、我们提出的系统

受到基于回归的目标检测器的启发，我们提出新的神经网络系统来处理（1）时空信息，（2）推断区域位置。我们使用递归神经网络将YOLO可扩展到时空域。本文的方法称为ROLO（recurrent YOLO）。
（1）使用YOLO收集视觉特征，然后使用LSTM；
（2）将卷积网络产生的高层特征与区域信息结合。

本文提出的框架

ROLO模型端到端训练有三个阶段：

特征学习卷积层的预训练；
用于object proposal的传统YOLO训练；
用于目标跟踪的LSTM训练。

3.1 检测模块的网络训练

首先预训练一个传统的CNN网络用来一般的特征学习。卷积神经网络输入一个视频帧，输出整张图像的feature map。权重使用有1000个分类的ImageNet数据学习得到。在预训练中，第一层全连接层产生一个4096大小的特征向量，理论上可以输入到任何分类工具（SVM或者CNN）产生好的分类结果。

一旦通过预训练参数得到了特征，就采用YOLO做检测模块。在卷积层之上，YOLO采用全连接层回归特征表达到区域预测。结构参考YOLO。

3.2 跟踪模块的网络训练

将LSTM RNNs增加到跟踪模块的训练中。有两条数据流进入到LSTM，来自卷积层的特征表示和来自全连接层的监测信息 $B_{t,i}$ 。在每个时间t步，都提取一个4096长度的特征向量，称这些特征向量为 $X_t$ 。除了 $B_{t,i}$ 和 $X_t$ ，还有上一个时间的状态输出 $S_{t-1}$ 。
使用Mean Squared Error (MSE)做训练：
$L_{MSE}=\frac{1}{n}\sum_{i=1}^n ||B_{target}-B_{pred}||_{2}^2$
$n$ 是一个batch的样本数。

3.3 Alternative Heatmap

作者将ROLO预测位置转换为长度为1024的特征向量，可以将其转换为32乘32的heatmap。在输入到LSTM之前，将它和4096的特征向量连接。heatmap的优点：在多个空间位置有置信度，而且可以可视化中间结果。
所以，heatmap为LSTM输入。

在训练期间，将区域信息从检测框传输到热图，方法是将值1分配给相应的区域，而将0分配给其他区域。
目标函数为：
$L_{MSE}=\frac{1}{n}\sum_{i=1}^n ||H_{target}-H_{pred}||_{2}^2$
$H_{target}$ 表示groundtruth的heatmap向量； $H_{pred}$ 表示在LSTM输出中预测的heatmap。

3.4 Spatio-temporal Regression and Spatial Supervision by Region Proposals

LSTM不仅能做序列处理，而且能处理时空回归。这种回归是双重的：

在一个unit中回归：当LSTM连接成一个单元时，LSTM能够从视觉特征推断区域位置。
对序列单元的回归，即在一系列帧上的级联特征之间的回归。 LSTM能够将特征序列回归到下一帧中的预测特征向量中。

4、实验结果

实验环境：
Python，Tensorflow。20/60fps分别对应YOLO和LSTM。使用八核处理器3.4GHz Intel Core i7-3770，NVIDIA TITAN X GPU。

工程主页包含跟踪器，预训练模型和结果。
由于ROLO的性能取决于YOLO部分，作者选择默认的YOLO模型进行公平比较。模型基于ImageNet数据预训练，可以识别20类对象。

图4，未见过序列的跟踪结果。红色：groundtruth。蓝色：YOLO。绿色：ROLO

图4(a)(b)中的groundtruth是faces，不存在于YOLO预训练的类中。对于运动模糊的情况，ROLO更稳定。
图4(c)中，对象类确实属于预先训练的YOLO类，但在任何训练序列中都未曾见过。这种情况下ROLO仍然跟踪它。
这证明了，（1）跟踪可以推广到没见过的对象。（2）LSTM可以推断视觉特征。（3）LSTM能够通过空间监督将视觉特征回归到区域推断。
传统方法（例如卡尔曼滤波），预测仅基于先前的位置，ROLO还利用了视觉线索的历史信息。
在ROLO中的位置历史信息扮演者空间监督的角色，是双重的：

当LSTM解释高层视觉特征时，先前的位置信息推断帮助回归特征到一个确定的视觉元素位置。空间监督回归作为在线外观模型。
在时间上，LSTM学习序列单元以将位置预测限制到空间范围。

4.2 处理遮挡

图5，在未看见帧中面对遮挡的时空鲁棒性

图5 展示了ROLO成功跟踪未见过帧中遮挡下的对象。77-783帧中，即使检测模块失败，ROLO继续跟踪对象。

图6.在看不见的视频剪辑中面对遮挡的鲁棒性。蓝色：YOLO检测的回归框，红色：Groundtruth。

作者还使用热图而不是位置坐标训练替代ROLO模型（离线训练），以便在遮挡条件下分析LSTM。ROLO结果用heatmap展示。图6 显示，即使有两个相似的对象同时出现在视频里，ROLO也能跟踪正确的对象，因为检测模块为LSTM单元提供空间约束。

因为几个原因，ROLO被证明是高效的：

来自卷积网络高层特征的表示能力；
LSTM能够做特征分析，所以能够检测对象，受到位置和热图矢量在空间上的监督。
利用时空信息有效回归的能力。

4.3 结果

在OTB-30上测试结果。

表1. Summary of Average Overlap Scores (AOS) results for all 12 trackers. The best ：绿色， second best：红色。

最后编辑于：2018.10.20 19:22:18

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 206,378评论 6赞 481
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 88,356评论 2赞 382
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 152,702评论 0赞 342
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 55,259评论 1赞 279
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 64,263评论 5赞 371
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 49,036评论 1赞 285
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 38,349评论 3赞 400
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,979评论 0赞 259
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 43,469评论 1赞 300
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,938评论 2赞 323
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 38,059评论 1赞 333
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,703评论 4赞 323
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 39,257评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 30,262评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,485评论 1赞 262
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 45,501评论 2赞 354
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,792评论 2赞 345