[2018] Object detection at 200 Frames Per Second
@United Technologies Research Center-Ireland(爱尔兰联合技术研究中心)
论文链接
- 介绍
我们的研究重点是开发出一种高效的目标检测器,其有较低的内存需求且能在单个 GPU 上高速处理多个数据流。我们考虑了网络 distillation [12, 2, 1],其中更大网络的知识会被用来高效地学习更小网络的表征。尽管这一思想最近已经在目标检测上得到过应用,但我们的工作在我们应用 distillation 的方式上有关键性的贡献。 - 主要创新点
1)我们最早将 distillation 应用到了单流程检测器(Yolo)上,这使得我们的工作不同于之前的将其应用于区域建议网络(region proposal network)的工作。
2)我们的方法的关键基于这一观察:目标检测涉及非极大抑制(NMS)步骤,而这个步骤在端到端学习之外。在 NMS 步骤之前,检测网络的最后一层由检测区域中的密集激活构成,如果它被直接迁移给学生网络,就会导致过拟合和表现下降的问题。因此,为了将 distillation 应用于检测,我们提出了特征图非极大抑制(Feature Map-NMS 或 FM-NMS),其会抑制对应于重叠检测的激活。
3)通过强调教师检测中有更高目标性(objectness)值的检测结果,我们将该问题形式化为了一个目标性缩放的 distillation 损失问题。我们的结果表明,这种 distillation 是一种在保持复杂度较低的同时提升表现的有效方法。
(4) 最后,我们在目标检测语境中调查研究了「数据的有效性」[8]。有标注数据是有限的,但使用高准确度的目标检测器和无限量的无标注数据,我们探索了我们提出的轻量级检测器的表现可以提升的程度。我们的思路遵循半监督学习 [29, 35, 4],这是深度学习目标检测器领域一个尚未得到深入研究的领域。Radosavovic et. al. [23] 是与我们的方法密切相关的一项近期研究,其中的标注是使用组合在一起的检测器生成的。我们的思路与他们的方法有两个主要差异:(1)我们是迁移来自教师网络的卷积特征图的软标签,事实表明这在网络 distillation 上更高效 [28]。(2)我们通过目标性缩放和 distillation 权重得到了损失公式,这让我们可以根据教师标签控制权重。这个公式提供了灵活性,能为基本真值(ground-truth)的检测结果赋予高权重,为不准确的教师预测结果提供相对更低的权重。此外,我们的训练损失公式无缝整合了检测损失与 distillation 损失,这让该网络可以从有标注数据和无标注数据的混合数据中学习。就我们所知,这是第一个通过联合使用有标注数据和无标注数据来训练深度学习目标检测器的研究。