R-CNN:
selective search 算法 选择出可能包含目标的目标框。
对于每个可能的候选框分别卷积,提取特征。
通常RP大小都不相同,但AlexNet要求输入图像大小是227×227,所以需要对RP进行resize操作,将它们变形为
227×227
。变形之前,我们先在候选框周围加上16的padding,再进行各向异性缩放。 这种形变使得mAp提高了3到5个百分点。然后对每个特征图做了分类(svm)和回归任务
Fast rcnn:
针对RCNN中每个卷积不能共享(全连接层必须尺寸一样的特征图)提出了Faste rcnn
(1)整个图像做了一个全卷积,得到特征图
(2)将图像中可能存在目标的区域(这个还是用selective search算法得到)映射到特征图中(感受野),ROIs
(3)做了ROI Pooling,将特征图比较大的区域框,提取更多的,特征图比较小的区域框,提取小的,然后拼接成同一大小的特征图
(4)将这个特征图连接到全连接层作分类和回归任务
Faster rcnn: RPN + Fast Rcnn
(1)整张图像进行卷积得到特征图
(2)对特征图进行RPN操作,得到可能是目标区域的候选框(相对于原始图像的候选框),代替了selective search算法
(3)将这个候选框映射到(1)中得到的特征图上
(4)进行分类和回归