摘要:
最近的工作通过使用空洞卷积、多尺度特征还有调整边界的全卷积神经网络(FCN)对像素分类,有效的提升了空间分辨率。在这篇论文中,我们引入了上下文编码模块来探索全局上下文信息对于语义分割的影响。上下文编码模块可以获取场景的语义上下文还有选择性的高光依赖图。提出的上下文编码模块相比于全卷积神经网络(FCN)只计算边缘额外成本在语义分割结果上有一个显著提升。
介绍:
语义分割对给定的目标类目的每个像素进行预测,它提供了全面的场景描述,包括对象类别、位置和形状的信息。效果好的语义分割方法传统都是基于全卷积神经网络(FCN)。深度卷积神经网络的自适应性得益于从各种不同的图像集合中学习到的丰富的对象类别和场景语义信息。深度卷积神经网络可以通过叠加非线性和下采样卷积层来得到全局感受野进一步获取信息表示。为了克服下采样造成的空间分辨率损失问题,最近的工作使用空洞/多孔卷积策略从预训练的网络中产生密集预测。然而,这种策略还是会把像素从全局的上下文中割离开来,导致了像素的错误分类。对于图像四的第三行,基础的分类方法把一些窗户中的像素分成了门。
最近的方法通过使用多分辨率空间金字塔来扩大感受野从而获得了一个很好的效果。例如:空间金字塔网络采用空间金字塔池化来把特征图池化成不同大小,并且经过上采样后把他们组合在一起,Deeplab提出一个多孔空间金字塔池化可以采用更高比率的扩张卷积。这些方法确实提升了效果,但是上下文表示还是不明确的,这引起了一系列问题。比如:获取上下文信息是否等同于提高感受野的大小。考虑为大型数据集(比如 ADE20K,包含150个类目)标记新 图像,如图一所示。假设我们有一个工具,允许注释器去首先选择图像的语义信息(例如:卧室)。然后,这个工具可以提供一个更小的相关的类目(比如卧室中的床,椅子等),这样就会有效的降低类目的可选择性。同样的,如果我们设计一个方法去有效的使用场景与可能存在的类目的关系后,语义分割就会变的相对简单。
经典的计算机视觉方法在获取场景的语义上下文中有优势。对于一个给定的输入图像,SIFT还有滤波器被用来提取手工设计的特征。然后通过学习视觉词典,并通过经典的编码器(BoW)、VALD、Fisher vector来描述全局特征。经典的表示方法通过捕获特征统计信息对全局上下文信息进行编码。虽然CNN方法大大改善了手工制作的特征,但是传统方法的整体编码过程方便而强大。我们能否通过深度学习强大的能力来改善经典的上下文编码方法?最近的工作通过使用CNN框架在传统的编码器上获得了一个有效的提升。Zhang等人提出了一个编码层去将整个字典学习和剩余编码流水线集成到单个CNN层以捕获无序表示。
该方法在纹理分类上取得了最好的研究成果。在本文中,我们扩展了编码层以捕获用于理解语义上下文的全局特征统计数据。