论文地址:https://arxiv.org/abs/1803.11189v1
摘要
我们提出一种创新的视觉迭代推理框架,超越了现在只有卷积堆叠而无推理能力的识别系统。我们的框架由两个模型组成:一个使用空间记忆来存储、同步更新先验置信度的局部模型;一个全局图推理模型。我们的图模型由三个部分组成:a)知识图,将类别表征为节点而将语义关系表征为节点之间的变;b)当前图片的区域图,将图片中的区域表征为节点而将区域之间的关系表征为边;c)分配图,将区域分配给类别。不管是局部模型还是全局模型都是迭代更新,并且相互之间交叉传输预测值,以优化预测结果。我们的模型在ADE数据集上表现出强劲的性能,比以单纯卷积的方法提高8.4%(以每个类别的精确率评测)。我们的分析也表明该框架对于缺失推理区域的情况也有很强的适应能力。
介绍
近几年我们在基础识别任务如图像分类、检测、分割任务中取得了丰厚的成果,这些成果中大多数都使用了学习好的前向传播端到端的卷积模型。与人类对于空间与语义的视觉推理能力不同,我们现在的视觉系统在拥有大量感受野的卷积之外缺少内容推理能力。因此,如何结合空间与语义的推理能力来构建下一代视觉系统是一个十分重要的问题。
我们的目标是构建一个不仅仅可以抽取并且利用分层卷积特征的系统,更是要提高它对空间与语义关系预测的能力。那么,什么是空间与语义关系呢,它们又如何用来提高识别结果呢?看一下图1,空间推理的例子(左上):如果空间中四分之三是“窗户”,那么第四个区域也可能是窗户。语义推理的例子(右下):即使只看到少量或者没有看到校车的例子——仅仅给一些“公共汽车”的例子以及它们的联系,也能识别出“校车”。最后,空间-语义推理的例子:识别出路上的一辆“车”应该有助于识别出“开车”的“人”。
关系推理的一个关键之处是迭代进行预测。近期,有一些使用自顶向下的模型或者使用详细记忆的方法来进行推理。在自顶向下的模型中,包含类别相关信息的高级特征与低级特征相结合来提高识别结果。另一个可选方案是使用详细记忆。例如,Chen & Gupta 借助卷积的强大能力来抽取密集内容模型,使用空间记忆来存储先前检测到的物体来提高时许物体检测的性能。
但是,这些方法有两个问题:a)每一种方法都使用堆叠的卷积来进行局部像素级别的推理,从而缺少全局推理的能力,缺少区域之间的信息流通。b)更重要的是,两种方法尽管可以将训练集中视觉关系的样本利用的很好,但是随着类别的增长视觉关系成指数增长,也就是说数据永远是不够的。很多语义推理要求从少量样本甚至没有样本的环境中学习,因此我们需要探索额外的结构化信息来帮助视觉推理。
在这篇论文中,我们提出了适用于空间与语义推理的通用框架。与现有只依赖于卷积方法不同的是,我们的框架可以知识库的形式来学习结构化信息。我们算法核心由两个模块组成:依赖卷积进行像素级别推理的空间记忆局部模型,我们通过同时更新记忆大大提升了性能;在局部区域之上进行推理的全局模型。全局模型基于图结构,由三个部分组成:a)知识图,将类别表征为节点而将语义关系表征为节点之间的变;b)当前图片的区域图,将图片中的区域表征为节点而将区域之间的关系表征为边;c)分配图,将区域分配给类别。威力利用好这个结构,我们专为图内信息传递开发了推理方法。局部模型和全局模型都可以迭代更新,并且相互之间交叉传输预测值,以优化预测结果。因此,局部与全局的推理并不是独立的:好的图像理解通常由先验背景知识和特别的图片观察组成。因此,我们的流水线使用注意力机制来将这两种模型结合,依赖于最相关的特征进行最终预测。
我们的结果在ADE数据集上表现出强劲的性能,比以单纯卷积的方法提高8.4%(以每个类别的精确率评测),而简单堆深网络智能提高1%。
相关工作
视觉知识库(Visual Knowledge Base)。
内容建模( Context Modeling )。
关系推理( Relational Reasoning )。
推理框架
这一节介绍我们的推理框架。除了卷积网络简单预测得到的p0(注:应该是概率的意思),它还包含两个核心模型进行推理预测。首先是局部模型,使用空间记忆来存储并同步更新之前的置信度,这个依然是依赖卷积的基础推理。除了卷积,我们还有核心贡献——直接从两个表征为图节点的区域和类别进行推理的全局模型。