论文:http://openaccess.thecvf.com/content_cvpr_2018/papers/Li_High_Performance_Visual_CVPR_2018_paper.pdf
1.Abstract
近年很多基于深度学习的目标跟踪方法,取得了很好的准确度,但是很少有方法可以在高精度的前提下保持实时的速度。这篇文章提出Siamese-RPN。利用Siamese子网络来提取特征,利用RPN子网络来进行正负分类和检测框回归。在推理阶段,Siamese-RPN可以认为是一个(local one-shot detection task)本地一次检测任务。作者预先计算孪生子网络中的模板支路,也就是第一帧,并且将它构造成一个检测支路中区域提取网络里面的一个卷积层,用于在线跟踪。得益于这些改良,传统的多尺度测试和在线微调可以被舍弃,这样做也大大提高了速度。Siamese-RPN跑出了160FPS的速度,并且在VOT2015,VOT2016和VOT2017上取得了领先的成绩。
2.Contribution
- 提出siamese region proposal network(Siamese-RPN)用于解决目标跟踪问题。该网络可利用“图片对”进行端到端地离线训练;
- 该模型可将在线跟踪任务转换为one-shot检测任务,而不是使用低效费时的多尺度测试(multi-scale test);
- 该模型在保证准确率的同时,达到了较高的速度。
3.SiameseFC
- 特征提取层利用到权重共享的全卷积神经网络(孪生网络)。
- 对于模板图像,首先统一resize到1271273,然后通过卷积神经层,得到一个66128的输出feature map。
- 对于检测图像,首先统一resize到2552553,然后通过卷积神经层,得到一个2222128的输出feature map。
- 两个特征图做相关性卷积,计算两个feature map各个位置(区域)上的相似度,得到一个17*17的score map。Score map上相似度最大的点,映射到原检测图像上,则认为是匹配位置。
siameseFC存在的缺点
- bbox的大小一直不会变,和模板图像的大小保持一致。当视频中的目标由远及近等情况的时候,会在图像中变大,但bbox框并不会变大。
- 模板支只在第一帧进行,这使得模版特征对目标的变化不是很适应,当目标发生较大变化时,来自第一帧的特征可能不足以表征目标的特征。
4.SiameseRPN网络结构
SiamRPN的前一部分和SiamFC一样:都是先通过一个全卷积网络提取高层特征。不同的是SiamFC把输出直接用来进行相关滤波,而SiamRPN接入的是一个RPN(有2个分支:分类、回归)。
k代表k个anchor,模板分支6*6*256的特征图经过conv升维,分别升维为4*4*(2k*256)、4*4*(4k*256)。2k作为前后背景分类的softmax输出结果、4k作为bbox的(x,y,w,h)的回归结果。
其他细节
- siameseRPN的loss与Faster-RCNN相同,分类部分的采用cross-entropy loss,回归部分采用smooth L1 loss。
- 图像预处理方式与Siamese-FC相同,具体来说就是经过填充、裁剪、缩放,把ground truth box放到图像的中心位置。