??什么叫一个物体的中心落在某网格内,则相应网格负责检测该物体
答:意思是指如果某个groundtruth的中心点落在该网格,则该网格负责对该物体的boundingbox进行回归
区别于之前目标检测的R-CNN系列,通过region proposal+分类的方式实现检测的功能,YOLO没有选择滑动窗口或提取proposal的方式来训练网络,而是直接选用整张图的训练模式。其一次性预测多个Box位置和类别,实现端到端到目标检测和识别,其最大的优势在于其速度很快,但精度上有所损失。相比于R-CNN系列,其能更好地区分出目标和背景区域。另外,YOLO相当于是一个实现回归功能的CNN网络,其预测出boundingbox的位置及confidence以及所属类别的概率。
总体思路:将整张图片划分成n*n个单元,每个单元通过回归产生B个boundingbox,对每个单元中的boundingbox进行筛选是通过IOU值的大小进行的,保留IOU值最大的那个boundingbox,最后对于整幅图像上的boundingbox通过非极大值抑制的方式筛选出目标的检测框。
训练过程:
Step1:将图片划分成单元格
将整张图片划分成s*s个单元格(文中设置s=7),若有待检测物体的中心落入该单元格中,则该单元格负责对该物体的检测(??如何判断物体中心是否落入该单元格)。每个单元格产生类别预测结果(文中为20类),每个单元格回归产生B个boundingbox,每个boundingbox共享该单元格中的类别预测值。
每个预测的boundingbox包含5个参数——boundingbox的中心坐标(x,y)以及boundingbox的(width,height)以及一个confidence,其计算方式为:
此处的IOU表示的是该boundingbox与若干个groundtruth的IOU中值最大的那个。
注:class信息是针对每个单元格而言的,confidence信息是针对每个boundingbox而言的。下图说明了所有预测值参数的计算方式:
其实现的网络结构如下图所示:(??最后如何从4096转换成7*7*30)
Step2:损失函数设计
测试阶段:
性能评估