北大计算所王勇涛团队工作 是与阿里巴巴AI实验室横向合作课题 智能驾驶场景下车辆目标3D包围框回归算法研究,2018.01-2018.09
http://www.icst.pku.edu.cn/cpdp/index.php/research-team/11-wangyongtao
使用的是浅层特征来检测小目标,浅层特征不具备丰富的语义信息,因此对分类来说区分度不高,是否就会分错。
refinedet提供的方案,用encode-decode 结构来加深网络 ,并且用上采样特征图的方式来使大的特征图能获取更多的语义信息。 用级联回归的方式,encode模块获取粗糙的位置,decode模块获取准确位置。
ssd是特征金字塔的架构 conv4_3 是用来检测小目标,其他的用来检测大一些的目标, anchor size 根据训练集数据scale 分布决定 这篇是从增强特征的角度来改善ssd
主要是cfe模块, 融合了xception ,resnext, large separable(引文8) 模块。
加了四个cfe模块 和两个ffb模块 cfe模块分为两个branch,长的都差不多,就是K*1和1×k卷积的次序不一样(不一样的好处是什么,为什么要这么设计?)
查了一下,这个是inception v3里面的
用n×1 和1×n的来代替 n×n的 factorization conv 在feature map 在12到20的时候work well 早期用效果不好
K*1和1×k卷积 出自于large kernel matters 里面的 global convolutional network 模块这个模块感觉就是用提升大的感受野,然后做了一系列的实验来验证这个模块还是很work的
看light_head 里面,孙剑的新的一篇文章引用了这个 MetaAnchor: Learning to Detect Objects with Customized Anchors是从anchor这个角度切入的 nips2018 有空的时候可以翻一下 然后又翻到一篇文章 iou-net Acquisition of Localization Confidence for Accurate Object Detection 这个直觉上看还是可以的 就是把iou 融入到了sgd的优化目标中
添加不同模块的效果
multiscale 的效果很明显 直接将效果提升从22.34 到29.69