2021-07-12 yolov1

传统目标检测:滑动窗口,去便利整个图像区域

缺点:模板需要提前设定

提升部分:权值共享


预测阶段:

关于置信度:是否有物体的概率*预测与真实的IOU


每一个grid(网格)包含两个预测框,每一个预测框包含5个参数(x,y,w,h,置信度)这五个参数。然后pascal voc数据集中包含20个类别,所以总共5+5+20=30维度。又因为是7*7的张量。所以输出参数维度是7*7*30=1470tensor outputs的向量


每一个grid cell还能生成20个类别的条件概率。上面不同颜色表示不同类别,而相同颜色里面,那些grid cell都是对应类别中条件概率比较高的区域


每一个grid cell都得到两个预测框,总共7*7=49个grid cell得到98个预测框。在对其进行后处理:比如低置信度的框过滤掉、非极大值抑制去除掉,得到最终的结果。



每一个grid cell都有对应的两个bounding box,每个bounding box都有5个参数:

    中心点坐标(x,y);bounding box的宽高(w,h);置信度c

置信度:bounding box包含物体的概率

后面20个是条件概率

在bounding box负责预测这个物体的条件下,是20个类别的概率

用条件概率*包含物体的概率(置信度)=全概率

每一个grid cell都可以获得两个20维的全概率,分别表示两个bounding box

总共有7*7=49个grid cell,每一个grid cell都可以获得两个20维的向量;一共有98个bounding box,就可以获得98个20维的向量;这里面的每一个黄色竖条都表示这20个类别的概率是多少(全概率)

将中间98个竖条可视化出来,就是中间的图

首先,假设每个竖条第一个为狗的概率。一共有98个狗的概率,然后设定一个阈值,把概率小于阈值的概率全部置零,再按照概率高低排序,接着进行NMS(非极大抑制)处理

首先,将概率最高的与其他概率分别进行比较,假设最高的和次高的IOU大于某个阈值,说明这两个是重复识别了一个物体,将置信度较小的那一个去掉;如果不小于,就保留。直到最后一个和第一个比对结束后,再让次高的和其他的进行比较,一直重复下去;最后只剩下少数几个 。

这只是一类物体的,当所有的物体都遍历完成之后,得到一个数值。将不全为0的矩阵保留。最后将其中的分数和类别取出,作为目标检测的结果

深度学习训练是通过 梯度下降 和 反向传播 的方法迭代的去微调神经元的权重,使得损失函数最小化的过程。

而目标检测是一个典型的监督学习问题。首先,在训练集上先人为画出ground truth(真实的),而算法就是为了让预测框能够更好的拟合这个绿框。而这个绿框的中心点落在哪个grid cell里面,就需要哪个grid cell产生的bounding box去拟合这个绿框。并且这个grid cell输出的类别也应该是ground truth的类别。

 所以每个grid cell只能预测一个物体,而7*7=49个grid cell也只能预测49个物体。这也是yolo局限的地方,对于小目标或者密集目标时效果不好的原因。有可能一个grid cell里面会有很多个ground truth。

而每一个grid cell都预测了两个bounding box,这时候要选出由哪一个bounding box去拟合ground truth。

由和ground truth  的 IOU比较大的那个框去拟合ground truth

如果 grid cell里 没有ground truth的中心点落在其中的话,那么这个grid cell预测出的两个bounding box都将被舍弃,只需要让这两个框的置信度越接近0越好。

yolo目标检测问题其实是当做回归问题去做的

首先,右上角的蓝框、红框、绿框分别表示

    蓝框:负责检测物体的grid cell(若所在grid cell有物体为1,否则为0)

    红框:负责检测物体的bounding box(若负责检测为1,否则为0)

    绿框:表示不负责检测物体的bounding box(若不负责检测为1,否则为0)

另外,若一个bounding box 负责检测物体,那么它所在的grid cell也负责检测物体,并且它的另一个bounding box就不负责检测物体。相当于红框为1,则蓝框也为1;并且此时绿框一定为0

其中,角标i表示的是s*s个grid cell,角标j表示有B个bounding box。所以i最大到7*7=49,最大到2,因为B = 2

这是对那些真正负责检测物体的bounding box的坐标误差给予更大的权重

这是对那些不负责检测物体bounding box误差给予小一点的权重。

这两项是:坐标回归误差。其中,第一项,是bounding box的中心点坐标与ground truth中心点坐标的误差;第二项,是bounding box的宽高(w,h)与ground truth的宽高(w,h)的误差。

这两项是置信度回归误差。其中,预测值和标签值

Ci  预测值:从模型正向推断结果为s*s*(B*5+c)维向量中找到这个bbox的confidence score

Ci^标签值:计算这个bounding box与ground truth的IOU      

                    c = pr(object)*IOU(pred 和 truth)

这一项是类别预测误差


测试结果:

检测效果不是特别好


yolo论文细节

在实时检测中,yolo是最准的;在非实时检测中,yolo是最快的。

在2015年的时候,yolo的检测效果介于rcnn和fast rcnn,并没有特别优势。但是,它的检测速度却很高。

对比之后,yolov1的优缺点就比较鲜明了:因为是将全图喂给cnn,所以拥有全局的信息,那么区分背景与物体的能力强,误差小;但是定位能力就比较差,误差大。

    其中原因有很多,可能是输入图片像素较低,只有448*448。

    考虑到两种网络各有优劣,人们尝试将两种网络结合,实现优势互补:

通过对比,发现Fast-rcnn在和yolo结合之后效果提升最大。集成基模型的关键就是要模型之间好且不同。


yolo的模型迁移泛化能力很强。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 206,602评论 6 481
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 88,442评论 2 382
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 152,878评论 0 344
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 55,306评论 1 279
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 64,330评论 5 373
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,071评论 1 285
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,382评论 3 400
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,006评论 0 259
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 43,512评论 1 300
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,965评论 2 325
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,094评论 1 333
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,732评论 4 323
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,283评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,286评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,512评论 1 262
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,536评论 2 354
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,828评论 2 345

推荐阅读更多精彩内容

  • 本文依次讲解YOLOv1,v2,v3。博客地址https://blog.csdn.net/hancoder/art...
    HAN_望向阅读 7,488评论 2 4
  • 姓名:何热;学号:20021210616; 学院:电子工程学院转自https://zhuanlan.zhihu.c...
    川上观鱼阅读 2,545评论 0 3
  • YOLO 全称You Only Look Once,属于目标检测算法的One-Stage算法,One-Stage和...
    罗泽坤阅读 927评论 0 0
  • 本文是我对YOLO算法的细节理解总结,本文的阅读前提是已读过YOLO相关论文,文中不会谈及YOLO的发展过程,不会...
    mrhalyang阅读 46,111评论 48 49
  • 表情是什么,我认为表情就是表现出来的情绪。表情可以传达很多信息。高兴了当然就笑了,难过就哭了。两者是相互影响密不可...
    Persistenc_6aea阅读 124,193评论 2 7