Learning Better Features for Face Detection with Feature Fusion and Segmentation Supervision

abstract

随着卷积神经网络的发展，面部检测器的性能得到了很大的提高。然而，面部探测器检测微小，遮挡或模糊的面部仍然具有挑战性。此外，大多数人脸探测器不能精确定位人脸位置，也无法达到高交会（IoU）分数。我们假设内部问题是监管信息的使用不充分以及CNN中各级特征地图的语义和细节之间的不平衡，即使使用特征金字塔网络（FPN）[15]。在本文中，我们提出了一个新的单镜头人脸检测网络，名为DF 2 S 2（特征融合和分割监督检测），它在ResNet-50上引入了更有效的特征融合金字塔和更有效的分割分支[10]处理上述问题。具体来说，受到FPN和SENet [11]的启发，我们将来自更高级别特征地图的语义信息应用为上下文提示，以通过空间和渠道方式的注意风格来增强低级特征地图，从而防止细节被过多的语义所覆盖并使语义和细节相互补充。我们进一步提出了一种语义分割分支，以便在以自我监督的方式应用注意机制的同时最好地利用检测监督信息。分段分支由弱分段地面实况（不需要额外注释）以分层方式监督，在推理时间中弃用，因此它不会损害推理速度。

1.introduction

最近，物体检测借鉴了ImageNet [14]预训练模型作为图像分类的主干，并获得了显着的改进。对于图像分类的任务，只需要语义来识别类别，特征映射在CNN中更深入地拥有更多的语义信息和更少的详细信息。但是，语义和细节都需要面部检测器来检测不同位置的面部。各种尺度和特征。因此，FPN [15]提出了一种分而治之的原则，即收集不同尺度的对象并将其分布到不同的要素层，并附加自上而下的架构以保持高空间分辨率和语义信息。
我们观察到FPN通过将较高级别的特征映射的变形添加到较低级别的特征映射来获得较低级别层次的语义丰富，这可能导致较高级别特征映射的过多语义损害较低级别特征映射中的细节。如在[35]中可以看出，语义表示多个语义有意义的模式，其接受日提交的较大，而细节表示基本的视觉图案，其接受日提交的是smaller.Intuitively，它们将在加法方式熔合语义和细节上作出时的冲突。因此，特征融合的关键是防止不同特征图之间的冲突和转换过程中的信息丢失。为了在较低层次上获得语义丰富，同时防止细节被过多的语义所覆盖，我们提出了一种新颖的特征金字塔结构，以空间和渠道方式关注方式融合更高级别的特征图和更低级别的特征图。。更具体地说，我们将更高级别特征映射的语义信息作为上下文线索应用于元素明智地乘以更低级别的特征映射。我们通过应用转置卷积（也称为反卷积[36]）来转换特征映射，进一步避免了语义信息的丢失
其次，大多数工作将检测任务划分为分类任务和回归任务，两者都处理预先设定的锚点。当锚点与对象不匹配时，对象将被忽略，浪费了检测监督信息，使得优化不是最理想的。因此，锚定分配策略决定了基于锚点的人脸检测的性能上限。
在本文中，为了补充锚定分配策略和最佳利用检测监督信息，我们引入了一个有效的分割分支，如[18]。以分层方式利用边界框分割地面实况训练分割分支。分段分支可以帮助网络从对象区域学习更多的判别特征，这已经在[25]中以自我监督的方式被证明是有帮助的。我们在训练阶段使用分段来应用注意机制 - 一种动态特征提取器，它结合了多次上下文，因为CNN特征是自然的空间，通道和多层[4]，并且不会有额外的参数推理时间。我们在WIDER FACE [32]基准测试中进行了大量实验，以验证我们提出的结构的功效。

3. Detection with Feature Fusion and Segmentation Supervision

3.1. Overall architecture

我们的目标是学习更多具有辨别力的层次特征，并在各个层面上使用丰富的语义和细节来检测硬面，如微小的面部，部分遮挡的面部等。图2说明了我们提出的具有特征融合金字塔和分割分支的网络。为了获得强大的通用性，我们将广泛使用的ResNet-50视为主干CNN架构并模拟S3FD [39]来构建我们的单次多尺度人脸检测器。
首先，我们基于来自ResNet-50的四层{res2 / 2，res3 / 3，res4 / 5，res5 / 2}构建我们的特征融合金字塔结构（在图2的左上部分为白色）。该结构从这些层中获取四个特征映射作为输入，并生成四个相应的新特征映射，其中增加了语义和{FFP 2，FFP 3，FFP 4，FFP 5}的详细信息（在左下角突出显示为蓝色特征映射）如图2所示，其空间分辨率和通道数分别与输入特征图相同。为了获得更大的感受野来检测更大的面部，我们只需连续两次最大化FFP 5特征图，以获得{FFP 6，FFP 7}的额外两个特征图。六个检测特征图有分别为{4,8,16,32,64,128}的stride。如图2所示，在FFP n（范围从2到7）层的特征图上执行检测和分割。
在检测分支中，分类子网应用四个3×3卷积层，每个卷积层具有256个滤波器，接着是具有K×A滤波器的3×3卷积层，其中K表示类的数量，A表示每个位置的锚点数。对于面部检测K = 1，因为我们使用sigmoid激活，并且我们在大多数实验中使用A = 6。此子网中的所有卷积层共享所有金字塔等级的参数，以加速参数的收敛。回归子网与分类子网相同，只是它终止于具有线性激活的4×A卷积滤波器。
为了增强分类子网和回归子网之间的相关性并改善语义监督信息和位置监督信息的分离，除了最后一个预测层之外，在检测分支上共享卷积层的参数。
3.2. Segmentation branch
为了弥补锚定分配策略并充分利用检测监督信息，我们提出了有效和高效的分割分支。如图2的右下部所示，分段分支与分类子网和头架构中的回归子网并行。它采用FFP 2，FFP 3，FFP 4，FFP 5，FFP 6，FFP 7的特征图作为输入，与检测分支相同，并以分层方式用边界框级分割地面实况进行监督。遵循[19]和S3FD [39]的匹配原则，这些分层分割图与匹配其相应感受野的地面实况面相关联。感受野在分割分支和检测分支之间是相同的，以确保它们集中在相同范围的面部尺度上。因此，我们的分割有助于网络从面部区域学习更多的判别特征，并进一步使分类和回归的任务更容易用于检测分支，从而促进更好的优化。
我们在输入特征映射之后添加四个3×3卷积层，每个滤波器层具有256个滤波器，接着是具有K个滤波器的一个3×3卷积层，其中K表示类的数量。对于面部检测K = 1，因为我们使用sigmoid激活。为了增强分段监督信息对检测分支的影响并保留分段分支的更多参数，进一步与检测分支共享前四个卷积层的参数。对于分割预测图的无用性，在推断时间中不推荐使用分割分支。
我们优于分割分支的其他用途的是，相反应用分割预测图（如FAN [30]）或中间结果（如DES [40]）来激活主分支的特征图，我们将注意机制应用于自我 - 没有额外参数和激活操作的监督方式。此外，在人脸检测的边界框分割基础事实中几乎没有多余的背景区域，因为当混沌背景干扰对象区域的判别特征的学习时，面部区域通常占据边界框地面实况的大多数位置。在数学上，面部的实际分割地面实况和边界框地面实况之间的平均IoU（联合交叉点）是如此之高，以至于冗余上下文区域的影响可以忽略不计。
3.3. Feature fusion pyramids
图2说明了所提出的特征融合金字塔和特征融合块（简称为“F块”）的思想。我们应用“F块”递归地从上到下融合不同的特征图。在数学上，我们将特征融合方法表示为φi= F（φi+ 1，φi;θ），并详细说明我们的F如下公式：

图片.png

其中φi和φi+ 1分别代表较浅的特征图和较深的特征图。 Ψ表示高级特征映射上的转置卷积运算，θrep表示转置卷积的参数。公式左侧的φi表示融合后新生成的特征图，并将继续参与与较低级特征映射的特征融合过程，直到最低。元素乘法（表示为·）可以被视为空间和渠道方面关注的组合，其最大化较低级别和较高级别表示之间的互信息。此外，为了增强对于检测硬面必不可少的详细信息，然后在逐元素乘法之后将低级特征图添加到先前生成的特征图。
值得注意的是，在转换到更高级别的特征映射时，我们应用转置卷积而不是上采样操作和一个卷积的组合。一方面，如果我们首先对高级特征映射进行上采样，它将使后续卷积操作的参数数量加倍，这将损害推理速度。另一方面，如果我们首先将高级特征映射卷积到通道数量的一半，我们可能会不可避免地丢失一些高级特征映射的语义，从而损害了特征的融合。因此，我们利用转置卷积的优势，一步改变特征映射的空间分辨率和通道。

最后编辑于：2018.12.01 17:10:58

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 204,530评论 6赞 478
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 86,403评论 2赞 381
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 151,120评论 0赞 337
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,770评论 1赞 277
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,758评论 5赞 367
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,649评论 1赞 281
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 38,021评论 3赞 398
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,675评论 0赞 258
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 40,931评论 1赞 299
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,659评论 2赞 321
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,751评论 1赞 330
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,410评论 4赞 321
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 39,004评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,969评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,203评论 1赞 260
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 45,042评论 2赞 350
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,493评论 2赞 343

Learning Better Features for Face Detection with Feature Fusion and Segmentation Supervision

abstract

1.introduction

3. Detection with Feature Fusion and Segmentation Supervision

推荐阅读更多精彩内容