1.论文地址:https://arxiv.org/abs/1908.05612
2.论文代码:https://github.com/Thinklab-SJTU/R3Det_Tensorflow
3.论文动机:在文本检测和遥感目标检测领域的三个挑战:
1.长宽比例大:对角度变化十分敏感。
2.密集排列:例如停车场。
3.类别不平衡:现存数据集类别极度不平衡。
4.论文创新:主要有三个贡献:
1.我们提出可推导的近似SkewIoU损失,解决倾斜交并比分数(SkewIoU)对角度敏感而造成的轻度偏移就会导致SkewIoU快速下降。
2.提出旋转锚框和水平锚框组合的有粗到细的单阶段端到端检测器,来适应目标密集场景。
3.设计了特征精炼模块,使用特征插值来获取Anchor的位置信息并重建特征图实现特征对齐,解决了单级检测器存在的特征未对齐问题。并且减少了精炼边界框的数量,加速了模型。
5.论文骨架网络和数据集:基于RetinaNet网络,三个流行的遥感公共数据集DOTA,HRSC2016,UCAS-AOD和一个文本数据集ICDAR2015.
6.实验算法比较和总结
实验结果明显,如下图:
解决特征偏移的FRM模块的核心是特征重构,与双阶段目标检测中的ROIAlign相比,精度和速度都有提升。原因是FRM仅仅采样5个特征点,比ROIAlign默认的7*7*4=196个采样点少了很多,这是速度优势所在;在进行分类和回归之前,是需要获得与特征点对应的特征(实例级别)和重建整个特征图(图像级别),而ROIAlign仅获取与ROI对应的特征。