[Description]:不久前,微软亚洲研究院视觉计算机组的研究员在arXiv上发布了一篇名为为“Deformable Convolutional Networks”(可变形卷积网络)的论文,首次在卷积神经网络(convolutional neutral networks,CNN)中引入了学习空间几何形变的能力,得到可变形卷积网络(deformable convolutional networks),从而更好地解决了具有空间形变的图像识别任务。通过大量的实验,成功验证了该方法在计算机视觉任务(如目标检测和语义分割)上的有效性,首次表明在深度卷积神经网络(deep CNN)中学习空间上密集的几何形变是可行的。该论文的源代码也于近期在Github上公布。
[Keywords]:可变形卷积网络、计算机视觉、神经网络、微软亚洲研究院
[Question]:可变形卷积网络是怎样实现的?相比卷积神经网络,可形变卷积网络有什么优势?
[Text]:
如同视觉是人们获取信息的主要渠道一样,计算机视觉也是人工智能研究领域的核心问题之一,计算机通过对图像中的物体进行识别、分割、跟踪和三维集合测量等操作观察图像、识别图像内容。由于同样的物体在图像中可能呈现出同的大小、姿态、视角变化甚至非刚体形变,因此如何适应这些复杂的几何形变是物体识别的主要难点,同时也是计算机视觉领域多年来关注的核心和问题。很多传统经典方法,如尺度不变的特征变换(scale invariant feature transform,or SIFT)和可变形部件模型(deformable part models)等,都旨在解决这一问题。然而,由于人工设定特征的局限性,传统视觉方法在物体识别问题上多年来并未取得突破进展。
近年来,随着深度卷积神经网络的普遍使用,很多困难的视觉问题都获得了重大突破。由于强大的建模能力和自动的端到端的学习方式,深度卷积神经网络可以从大量数据中学习到有效特征,避免了传统方法人工设计特征的弊端。然而,现有的网络模型对于物体几何形变的适应能力几乎完全来自于数据本身所具有的多样性,其模型内部并不具有适应几何形变的机制。
究其原因,是因为传统卷积操作本身具有固定的几何结构,而由其层叠搭建而成的卷积网络的几何结构也是固定的,所以不具有对于几何形变建模的能力。自卷机网络诞生之初,卷积网络结构基本构成单元——卷积操作,一直沿用至今,该操作在输入图像的每个位置时会进行基于规则格点位置的采样,然后对于采用到的图像值做卷积并作为该位置的输出,通过端到端的梯度反向传播学习,系统将会得到一个用矩阵表示的卷积和的权重。举个例子,想要识别出同一幅图像中不同大小的物体(比如远近不同的两个人),理想的结果是在对应于每个物体的位置网络需要具有相应大小的感受野(receptive field),直观的说,为了识别更大的物体网络需要看到更大的图像区域。然而,在现有的卷积网络架构中,图像中任何位置的感受野大小都是相同的,其取决于事先设定的网络参数(卷积核的大小、步长和网络深度等),无法根据图像内容自适应调整,从而限制了识别精度。
为了削弱标准卷积中的规则格点采样导致网络难以适应几何形变的限制,微软亚洲研究院的研究院们对卷积核中的每个采样点的位置都增加了一个偏移的变量。通过这些变量,卷积核就可以在当前位置附近随意的采样,而不再局限于之前的规则格点,这样扩展后的卷积操作被称为可变形卷积(deformable convolutional )。标准卷积和可变形卷积在图1简要展示。
事实上,可变形卷积单元中增加的偏移量是网络结构中的一部分,通过另外一个平行的标准卷积单元计算得到,进而也可以通过地府反向传播进行端到端的学习。加上该偏移量学习之后,可变形卷积核的大小和位置可以根据当前需要识别的图像内容进行动态调整,其直观效果就是不同位置的卷积核采样点位置会根据图像内容发生自适应的变化,从而适应不同物体的形状、大小等几何形变。如图2、图3所展示。
可变形卷积单元具有诸多良好的性质。它不需要任何额外的监督信号,可以直接通过目标任务学习得到。它可以方便的取代任何已有视觉识别任务的卷积神经网络中的若干个标准卷积单元,并通过标准的反向传播进行端到端的训练。可变形卷积网络是对于传统卷积网络简明而又意义深远的结构革新,具有重要的学术和实践意义。它适用于所有待识别目标具有一定几何形变的任务(几乎所有重要的视觉识别任务都有此特点,人脸、行人、车辆、文字、动物等),可以直接由已有网络结构来扩充而来,无需重新训练。它仅增加了很少的模型复杂度和计算量,且显著提高了识别精度。例如,在用于自动驾驶的图像语义分割数据集(CityScapes)上,可变形卷积神经网络将准确率由70%提高到75%。此外,通过增加偏移量来学习几何形变的思想还可以方便的扩展到其他计算单元,例如,目前业界最好的物体检测方法都使用了规则块采样的兴趣区域(region of interests,ROI)池化(pooling)。在该操作中,对于每个采样的规则块增加类似的偏移量,从而得到可变形兴趣区域池化(deformable ROI pooling),由此所获得的新的物体检测方法也取得了显著的性能提升。
与传统的卷积神经网络结构相比,可变形卷积网络首次表明了可以在卷积网络中显式的学习几何形状,它修改了已使用二十余年的基本卷积单元结构,在重要的物体检测和语义分割等计算机视觉任务上获得了重大性能提升。可以想象,在不远的将来,在更多计算机视觉识别任务中都能看到它的成功应用。