目标检测Part 1

Intro

object detection 主要解决的问题是图像中目标的what and where。以2014年为分水岭，2014年主要为传统方法，2014年后主要是基于deep learning的方法。面临的主要问题是不同视角，不同光照条件，类内差异，小目标（目标的尺度和旋转变化），精确的目标定位，密集和遮挡条件下如何处理，以及如何加快速度等问题。目标检测延伸出如实例分割，人车检测，跟踪等多个领域。当下，目标检测领域已经完全进入了Anchor-free时代。

传统方法

1. VJ detectors

普遍的方法是滑动窗遍历所有可能的区域，Scale每个区域查看是否存在目标。Viola和Jones两位大牛发表了经典的《Rapid Object Detection using a Boosted Cascade of Simple Features》和《Robust Real-Time Face Detection》，在AdaBoost算法的基础上，使用Haar-like小波特征和积分图方法进行人脸检测，他俩不是最早使用提出小波特征的，但是他们设计了针对人脸检测更有效的特征，并对AdaBoost训练出的强分类器进行级联。

Haar-like特征：

基础的Haar-like特征在2002年的《A general framework for object detection》提出，它定义了四个基本特征结构，如下A，B，C，D所示，可以将它们理解成为一个窗口（与卷积核类似），这个窗口将在图像中做步长为1的滑动，最终遍历整个图像。在基本的四个haar特征基础上，文章《An extended set of Haar-like features for rapid object detection》对其做了扩展，将原来的4个扩展为14个。这些扩展特征主要增加了旋转性，能够提取到更丰富的边缘信息。

Haar-like特征提取过程就是利用下面定义的窗口在图像中滑动，滑动到一个位置的时候，将窗口覆盖住的区域中的白色位置对应的像素值的和减去黑色位置对应的像素值的和，得到的一个数值就是haar特征中一个维度。当一次遍历结束后，窗口根据原图像的尺寸将在宽度或长度上成比例的放大，再重复之前遍历的步骤，直到放大到最后一个比例后结束。

Adaboost：

集成方法已经十分常见，其目标是结合多个估计器来解决一个共同的问题，这里不多赘述。Adaboost 首先选择一个决策树桩，然后当决策树桩不正确的时候，提高权重，当分类正确的时候，降低权重，这种迭代方式会让集成中每个新的分类器优先训练那些标记错误的情况，结果是模型以通过那些高权重的数据点作为目标处理进而得到调整，最后，这些树桩合并得到最终的分类器。

积分图：

积分图本质是一个加速器，它是Haar分类器能够实时检测人脸的保证。Haar-like分类器的训练和检测过程，无论是训练还是检测，每遇到一个图片样本，每遇到一个子窗口图像，我们都面临着如何计算当前子图像特征值的问题，一个Haar-like特征在一个窗口中怎样排列能够更好的体现人脸的特征，这是未知的，所以才要训练，而训练之前我们只能通过排列组合穷举所有这样的特征，仅以最基本四个特征为例，在一个24×24size的窗口中任意排列至少可以产生数以10万计的特征，对这些特征求值的计算量是非常大的。而积分图就是只遍历一次图像就可以求出图像中所有区域像素和的快速算法，大大的提高了图像特征值计算的效率。

积分图是一个二维矩形的查找表，与原始图像具有一样的尺寸。积分图的每一个元素是原始图像在对应位置左上角所有像素的和。这就使得在任意位置计算任意尺寸的矩形的像素和时，只需要进行四次查表：

2. HOG detector

HOG+SVM 经典中的经典

其属于传统的特征加分类器的目标检测方法。HOG算子Histogram of Oriented Gradients (HOG) 特征描述子，其和Sift，surf，ORB等相似均为局部描述算子。它通过计算和统计图像局部区域的梯度方向直方图来构成特征。与sift的比较可见 https://www.zhihu.com/question/45833619

颜色空间归一化—>梯度计算—>梯度方向直方图—>重叠块直方图归一化—>HOG特征

颜色归一化: 灰度与Gamma矫正（在图像照度不均匀的情况下，可以通过Gamma校正，将图像整体亮度提高或降低。在实际中可以采用两种不同的方式进行Gamma标准化，平方根、对数法。）

例如下面的平方根方法

梯度计算：经过颜色空间归一化后的图像，使用梯度算子求取其梯度及梯度方向，分别在水平和垂直方向进行计算。

梯度方向直方图：将图像划分成若干个cells（单元），8x8=64个像素为一个cell，相邻的cell之间不重叠。在每个cell内统计梯度方向直方图，将所有梯度方向划分为9个bin（即9维特征向量），作为直方图的横轴，角度范围所对应的梯度值累加值作为直方图纵轴，每个bin的角度范围如下。Z2对应着两部分，一部分是20∘20∘到40∘40∘，另一部分是200∘200∘到220∘220∘。

如图所示，可以分成9个bin分别对应一定的角度范围，这9个bins即为直方图的横轴，而这些角度范围内所对应的梯度的累加值为直方图的纵轴。最后我们可以得到每个cell的梯度方向直方图。

重叠块直方图归一化：一个block由若干个cell组成，通常以R-HOG为例，一个block含9个cell，以九字格的形式存在。相邻block之间都有重叠的cell，目的就是利用相邻信息，引入各个block之间的关系。

相关的参数设置可以是，每图片大小为512*512，一个cell大小是8*8=64个pixel，block的大小为64∗4=256个像素，有时图片大小不一定正好是其整数倍，所以还要调整图片的大小，缩放到其整数倍，以分离出整数个block。使用R-HOG，则共有(512/8−1)×(512/8−1)=63×63=3969个block。对于每个cell，其提取出的HOG特征向量有9个bins，即9维特征向量。则每个block有4×9=364×9=36维特征向量。那么，整幅图像共有36×3969=14288436×3969=142884维HOG特征向量。

到这里已经得到了整幅图像的HOG特征向量了，使用一系列样本提取得到的HOG特征向量送入SVM分类器训练，寻找最优超平面进行分类。在实际应用中，往往是从一幅图片中取出若干个小窗口进行特征提取，这样子可以得到有目标的窗口作为正样本，和没有目标的窗口作为负样本。将正负样本送入SVM训练，识别时也是取一个相同大小的滑动窗口，使用训练好的SVM来判断滑动窗口是否包含目标

3. DPM deformable part-based model可形变部件模型

传统方法的巅峰，DPM最初是HOG检测器的扩展，也是先计算梯度方向直方图，然后用SVM训练得到物体的梯度模型。有了这样的模板就可以直接用来分类了，简单理解就是模型和目标匹配。DPM随后被 R. Girshick做了一系列的改进。DPM的主要思想是分而治之，训练被看作是学习分解一个物体，结果可以看作是对目标不同部分检测的集合。它将目标对象建模成几个部件的组合。比如它将人类视为头部/身体/手/腿的组合。尽管看起来DPM非常简单，但是将这种intuition转化为数学模型（SVM，convex optimization，坐标下降法，梯度下降法）是十分tricky的。这其中涉及了很多的优化/训练方法。但是深度学习技术火了之后，DPM似乎消失了光芒。如果可视化深度学习每一层的特征，可以看到深度学习似乎也在学习这些部件（人的头/手/脚）的特征，但是深度学习训练起来比较简单。而DPM则加入较多的启发式规则，变得复杂。

For example, the problem of detecting a “car” can be considered as the detection of its window, body, and wheels.（aka star model）接着 R. Girshick 将其扩展到“混合模型”，以便在更显着的变化下处理现实世界中的物体。

典型的DPM检测器由一个root filter和多个part filter 组成，基于DPM的弱监督学习无需手动指定part filter(size，location)，而是将part filters的所有配置作为latent variables 潜在变量自动学习。R. Girshick进一步将此过程作为multi-instance learning的一个特例，并应用了其他一些重要技术，如“hard negative mining”，“BBX回归”和“context priming”等。提高检测精度。为了加快检测速度，Girshick开发了一种技术，用于将检测模型“编译”成更快的检测模型，实现级联结构，加速超过10倍而不牺牲任何精度。尽管今天的探测器在探测精度方面远远超过DPM，但其中许多仍深受其宝贵见解的影响，例如“hard negative mining”，“BBX回归”和“context priming”等。

HHOG+linear SVM中，我们根据图像计算出HOG pyramid，然后学习一个权重filter，然后计算这两个矩阵的内积，就会得到一个分数，我们再训练得出分数阀值就可以检测人类。但是在现实生活中，物体是有很多变化的，包括人的各种动作/车的各种形状/不同的视角和光照等等。而DPM则是一个更好的表示模型，上面这些变化对DPM影响不大。以检测一个人为例。它将人类表示成头/手/大腿/小腿等部件。每个部件的位置不是固定的，也就是说可以形变的。其中root filter是关注整个人的，part filter是关注身体几个部件的。而deformation model则是考虑不同形变带来的惩罚，也就是说你的手不能离身体太远，否则就会扣分。而且每个部件和主体的相对位置是比较稳定的，头部在上方，手部在中间，腿在下边。

DPM算法主要公式

混和模型：
因为视角不同，将会导致不同的形状（比如人的正面和侧面）。就好像盲人摸象一样。那么就需要多训练几个DPM，最后组成一个mixture model，这样才能准确识别到目标物体。

基本原理：

一个DPM模型包括一个root filter Fo和 n个部件模型（Fi，Vi，di），其中Fi表示第i个部件的filter， Vi表示第i个部件跟root filter的相对位置， di表示第i个部件的形变参数（用来定义不同位置的形变代价。那么DPM可以用一个得分函数来描述：

$\operatorname{score}\left(p_{0}, \ldots, p_{n}\right)=\sum_{i=0}^{n} F_{i}^{\prime} \cdot \phi\left(H, p_{i}\right)-\sum_{i=1}^{n} d_{i} \cdot \phi_{d}\left(d x_{i}, d y_{i}\right)+b$

其中第一项是每个filter跟feature vector的点乘，用来判断像不像人。第二项是形变系数点乘形变特征，用来确定形变代价，b是偏置值，用于混合模型的多个component的比较。那么对于一个假定的位置z，其对应的分数可以记为：

$\operatorname{score}(z)=\beta \cdot \psi(H, z)$

其中， β是未知参数，这是模型需要通过训练学习得到的。而 $\psi(H, z)$ 是已知量,包括HOG特征和形变特征，可以通过计算得到。

$\beta=\left(F_{0}, \ldots, F_{n}, d_{1}, \ldots, d_{n}, b\right)$

$\psi(H, z)=\left(\phi\left(H, p_{0}\right), \ldots, \phi\left(H, p_{n}\right),-\phi_{d}\left(d x_{1}, d y_{1}\right), \ldots, \phi_{d}\left(d x_{n}, d y_{n}\right), 1\right)$

Part2会首先介绍DPM的训练方法，接着主要介绍各类网络的优缺点和tips。

Reference：

1. Object Detection in 20 Years: A Survey https://arxiv.org/abs/1905.050552.

2. https://www.cnblogs.com/ello/archive/2012/04/28/2475419.html

3. Computer Vision:Algorithms and Applications Richard Szeliski

4. https://zh.wikipedia.org/wiki/%E5%93%88%E5%B0%94%E7%89%B9%E5%BE%81

5. https://blog.csdn.net/hujingshuang/article/details/47337707

6 https://dataxujing.github.io/CNN-paper2/#/

7. https://blog.csdn.net/ttransposition/article/details/12966521

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 204,530评论 6赞 478
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 86,403评论 2赞 381
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 151,120评论 0赞 337
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,770评论 1赞 277
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,758评论 5赞 367
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,649评论 1赞 281
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 38,021评论 3赞 398
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,675评论 0赞 258
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 40,931评论 1赞 299
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,659评论 2赞 321
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,751评论 1赞 330
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,410评论 4赞 321
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 39,004评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,969评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,203评论 1赞 260
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 45,042评论 2赞 350
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,493评论 2赞 343