自学保存,作者原地址:请大家支持原作者,写的真的不错.
http://hellodfan.com/2017/10/11/%E7%89%A9%E4%BD%93%E6%A3%80%E6%B5%8B%E8%AE%BA%E6%96%87-YOLO%E7%B3%BB%E5%88%97/

物体检测论文-YOLO系列

发表于 <time title="创建于" itemprop="dateCreated datePublished" datetime="2017-10-11T17:31:39+08:00">2017-10-11</time> | 分类于 Paper Reading

本次论文主要分为两个部分:YOLO和YOLO9000。
YOLO是Rgb大神在Object Detection上的新尝试，目的是在保持准确率的基础上提高检测速度，从而达到了实用要求。
YOLO9000是YOLO的改进版，使用了多种trick，并提供了一种使用多种训练集训练模型的方法。

</header>

YOLO

Rgb大神关于物体检测的新作YOLO，论文You Only Look Once: Unified, Real-Time Object Detection。

Introduction

对比人类的视觉系统，现存的物体检测模型:

要不就是准确度不咋的(DPM速度还行，准确率很差，实用不现实)
要不就是速度跟不上(Faster R-CNN 准确度还可以，3FPS的速度不能实时监测啊~)

对比项	YOLO	Faster RCNN	YOLO2
结构上	预测bbox值是使用FC层来整的，gird cell负责预测种类，同一个grid cell下bbox没得选。	在feature map的基础上，使用不同形状的anchor boxes,然后计算出Proposal。	去掉YOLO的FC层，同时去掉YOLO的最后一个pool层，增加feature map的分辨率，修改网络的输入，保证feature map有一个中心点，这样可提高效率。并且是以每个anchor box来预测物体种类的
预测框	将图片分成<nobr aria-hidden="true">7×7</nobr>

参数	数值
learning rate	0.1
polynomial rate decay	4
weight decay	0.00005
momentum	0.9

data augmentation数据增强	random crops, rotations等tricks

参数	数值
训练次数	160 epochs
learning rate	起始0.001,在60和90 epochs时衰减10倍
weight decay	0.0005
momentum	0.9
data augmentation	random crops,color shifting,etc

细节	方法
样本	使用WordTree混合了COCO与ImageNet数据集后，混合数据集对应的WordTree包含9418类。由于ImageNet数据集跟COCO比太大了，产生了样本倾斜的问题，因此作者将COCO过采样，使得COCO与ImageNet的比例为1: 4。
anchor box	YOLO9000的训练基于YOLO v2的架构。anchor box数量由5调整为3用以限制输出大小。
训练时遇到检测数据集样本	正常地反方向传播
训练时遇到分类数据集样本	在该类别对应的所有bounding box中找到一个置信度最高的（作为预测坐标），同样只反向传播该类及其路径以上对应节点的类别损失。反向传播objectness损失基于如下假设：预测box与ground truth box的重叠度至少0.3 IOU。

YOLO,YOLO2学习(搬运)

物体检测论文-YOLO系列

YOLO

Introduction

Detection System

分成单元格

每个单元格需要做三件事:

单元格数据

<nobr aria-hidden="true">(x,y)</nobr>

到底代表啥意思?

<nobr aria-hidden="true">(w,h)</nobr>

又是啥意思?

<nobr aria-hidden="true">Confidence</nobr>

<nobr aria-hidden="true">C</nobr>

个种类的概率值

单元格输出

YOLO检测物体的流程

YOLO的架构

预训练

YOLO的训练

损失函数

训练细节

总结

缺点

优点

YOLO2

Introduction

Better

Batch Normalization

High Resolution Classifier

Convolutional With Anchor Boxes

Dimension Clusters

Direct location prediction

Fine-Grained Features

Multi-Scale Training

Faster

DarkNet-19

Training for classification

Training for dectection

Stronger

Hierarchical classification

Joint classification and detection

总结