可变形卷积神经网络——计算机新“视”觉

[Description]：不久前，微软亚洲研究院视觉计算机组的研究员在arXiv上发布了一篇名为为“Deformable Convolutional Networks”（可变形卷积网络）的论文，首次在卷积神经网络（convolutional neutral networks,CNN）中引入了学习空间几何形变的能力，得到可变形卷积网络（deformable convolutional networks），从而更好地解决了具有空间形变的图像识别任务。通过大量的实验，成功验证了该方法在计算机视觉任务（如目标检测和语义分割）上的有效性，首次表明在深度卷积神经网络（deep CNN）中学习空间上密集的几何形变是可行的。该论文的源代码也于近期在Github上公布。

[Keywords]：可变形卷积网络、计算机视觉、神经网络、微软亚洲研究院

[Question]：可变形卷积网络是怎样实现的？相比卷积神经网络，可形变卷积网络有什么优势？

[Text]：

如同视觉是人们获取信息的主要渠道一样，计算机视觉也是人工智能研究领域的核心问题之一，计算机通过对图像中的物体进行识别、分割、跟踪和三维集合测量等操作观察图像、识别图像内容。由于同样的物体在图像中可能呈现出同的大小、姿态、视角变化甚至非刚体形变，因此如何适应这些复杂的几何形变是物体识别的主要难点，同时也是计算机视觉领域多年来关注的核心和问题。很多传统经典方法，如尺度不变的特征变换（scale invariant feature transform,or SIFT）和可变形部件模型（deformable part models）等，都旨在解决这一问题。然而，由于人工设定特征的局限性，传统视觉方法在物体识别问题上多年来并未取得突破进展。

近年来，随着深度卷积神经网络的普遍使用，很多困难的视觉问题都获得了重大突破。由于强大的建模能力和自动的端到端的学习方式，深度卷积神经网络可以从大量数据中学习到有效特征，避免了传统方法人工设计特征的弊端。然而，现有的网络模型对于物体几何形变的适应能力几乎完全来自于数据本身所具有的多样性，其模型内部并不具有适应几何形变的机制。

究其原因，是因为传统卷积操作本身具有固定的几何结构，而由其层叠搭建而成的卷积网络的几何结构也是固定的，所以不具有对于几何形变建模的能力。自卷机网络诞生之初，卷积网络结构基本构成单元——卷积操作，一直沿用至今，该操作在输入图像的每个位置时会进行基于规则格点位置的采样，然后对于采用到的图像值做卷积并作为该位置的输出，通过端到端的梯度反向传播学习，系统将会得到一个用矩阵表示的卷积和的权重。举个例子，想要识别出同一幅图像中不同大小的物体（比如远近不同的两个人），理想的结果是在对应于每个物体的位置网络需要具有相应大小的感受野(receptive field)，直观的说，为了识别更大的物体网络需要看到更大的图像区域。然而，在现有的卷积网络架构中，图像中任何位置的感受野大小都是相同的，其取决于事先设定的网络参数（卷积核的大小、步长和网络深度等），无法根据图像内容自适应调整，从而限制了识别精度。

为了削弱标准卷积中的规则格点采样导致网络难以适应几何形变的限制，微软亚洲研究院的研究院们对卷积核中的每个采样点的位置都增加了一个偏移的变量。通过这些变量，卷积核就可以在当前位置附近随意的采样，而不再局限于之前的规则格点，这样扩展后的卷积操作被称为可变形卷积(deformable convolutional )。标准卷积和可变形卷积在图1简要展示。

图1：展示了卷积核大小为3x3的正常卷积和可变形卷积的采样方式。(a)所示的正常卷积规律的采样9个点（绿点），(b)(c)(d)为可变形卷积，在正常的采样坐标上加上一个位移量（蓝色箭头），其中(c)(d)作为(b)的特殊情况，展示了可变形卷积可以作为尺度变换、比例变换和旋转变换的特殊情况。

事实上，可变形卷积单元中增加的偏移量是网络结构中的一部分，通过另外一个平行的标准卷积单元计算得到，进而也可以通过地府反向传播进行端到端的学习。加上该偏移量学习之后，可变形卷积核的大小和位置可以根据当前需要识别的图像内容进行动态调整，其直观效果就是不同位置的卷积核采样点位置会根据图像内容发生自适应的变化，从而适应不同物体的形状、大小等几何形变。如图2、图3所展示。

图2：两层3x3的标准卷积和可变形卷积的区别。(a)标准卷积中固定的感受野和卷积核采用点。(b)可变形卷积中自适应的感受野和卷积和采用点

图3：更多可变形卷积的示例。每个图像三元显示了三层3x3可变形卷积核的采样点位置（共729个点），对应于三个不用的图像区域（从左至右，背景、小物体、大物体）

可变形卷积单元具有诸多良好的性质。它不需要任何额外的监督信号，可以直接通过目标任务学习得到。它可以方便的取代任何已有视觉识别任务的卷积神经网络中的若干个标准卷积单元，并通过标准的反向传播进行端到端的训练。可变形卷积网络是对于传统卷积网络简明而又意义深远的结构革新，具有重要的学术和实践意义。它适用于所有待识别目标具有一定几何形变的任务（几乎所有重要的视觉识别任务都有此特点，人脸、行人、车辆、文字、动物等），可以直接由已有网络结构来扩充而来，无需重新训练。它仅增加了很少的模型复杂度和计算量，且显著提高了识别精度。例如，在用于自动驾驶的图像语义分割数据集(CityScapes)上，可变形卷积神经网络将准确率由70%提高到75%。此外，通过增加偏移量来学习几何形变的思想还可以方便的扩展到其他计算单元，例如，目前业界最好的物体检测方法都使用了规则块采样的兴趣区域(region of interests,ROI)池化(pooling)。在该操作中，对于每个采样的规则块增加类似的偏移量，从而得到可变形兴趣区域池化(deformable ROI pooling)，由此所获得的新的物体检测方法也取得了显著的性能提升。

与传统的卷积神经网络结构相比，可变形卷积网络首次表明了可以在卷积网络中显式的学习几何形状，它修改了已使用二十余年的基本卷积单元结构，在重要的物体检测和语义分割等计算机视觉任务上获得了重大性能提升。可以想象，在不远的将来，在更多计算机视觉识别任务中都能看到它的成功应用。

最后编辑于：2021.12.30 22:38:58

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 202,723评论 5赞 476
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 85,080评论 2赞 379
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 149,604评论 0赞 335
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,440评论 1赞 273
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,431评论 5赞 364
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,499评论 1赞 281
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 37,893评论 3赞 395
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,541评论 0赞 256
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 40,751评论 1赞 296
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,547评论 2赞 319
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,619评论 1赞 329
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,320评论 4赞 318
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 38,890评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,896评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,137评论 1赞 259
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 42,796评论 2赞 349
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,335评论 2赞 342

可变形卷积神经网络——计算机新“视”觉

推荐阅读更多精彩内容