论文信息
- 题目:A Model of Saliency-Based Visual Attention for Rapid Scene Analysis
- 作者:Laurent Itti, Christof Koch, and Ernst Niebur
- 领域:视觉显著性
- 类型:新问题,新方法
相关背景
灵长类动物的视觉系统能够快速地定位出场景中的显著目标,如何借鉴地让计算机快速定位出图像中的显著性位置,以此将复杂的场景理解问题简化。
问题是什么
寻找图像中的能够优先引起人类关注的位置。
已有解决方案
通过分析人眼的运动来研究人类视觉关注点的特征,以此做进一步分析。
作者的核心思想、创新点
从人类视觉心理学的角度入手来研究该问题,采用方法包含了两部分,一是提取显著图(Saliency Map, SM),二是动态更新关注点(Focus of Attention, FOA)。
提取显著图
受生物学启发,该方法模仿人类自下而上的视觉选择性注意过程,提取图像的底层特征,构造相应的显著图。
显著图的构造基于“特征集成理论”(feature integration theory),每一种特征都会有自己的显著图,在某个特征下,不同位置的像素之间互相竞争,最终会有一些像素脱颖而出,成为该特征中的显著点。作者根据“中心-周围”拮抗理论,算出每一个像素点(作为中心点)相对于周围的像素点的显著值,所有点的显著值就构成了一副显著图。而不同特征下的显著图经过某种方式,汇集成最终的场景显著图。
作者在这里采用了三种特征:亮度,颜色(根据“颜色双对立”系统[color double-opponent]),角度(使用Gabor滤波器),为了生成这些特征的显著图(Conspicuity Maps),作者先对原图像进行尺度变换,生成九层高斯金字塔,这一方面增强了该方法的尺度不变性,另一方面也模拟了层级感受野的机制。我们可以把金字塔中的低层级图像的像素点看成“中心”,把高层级图像的对应像素点看成“周围”。然后把高层级图像通过插值的方式变成和低层级图像相同的大小,最后,把两个图像对应像素点的某种特征的值,进行逐点相减,产生一个尺度下某种特征的显著图。
最后还要把得到的不同特征的不同尺度的显著图进行合并,得到最终的显著图。
首先是合并同一特征不同尺度的显著图。作者把它们都缩小到金字塔的第四层级(最开始选择的时候,中心点只取2,3,4这三级,所以得到的显著图只有这三级的,因此在这里就是把这些级通过降采样缩小到第四级),然后把每张显著图的每一个像素点的显著值进行归一化。作者归一化的方式比较特别,原则就是去除不同特征因为幅值不同而带来的不均衡性,以及尽可能地让最显著的点突出出来(加大“贫富差距”)。最后,把所有图对应点的显著值相加,得到最终该特征的显著图。要注意的是,对于角度特征,作者采用了四个角度,因此实际上可以看成是四个特征,所以在对角度特征进行显著图合并时,作者是先对各个角度做一次显著图合并,然后把合并好的四个图直接叠加起来得到角度特征的显著图。
接下来是合并不同特征的显著图。作者先把三个特征的显著图都做再一次上述的归一化,然后进对三者求平均,便得到最终的显著图。有趣的是,作者把得到的结果记为S,而不是SM (Saliency Map),这是因为重头戏在接下来的部分。
动态更新关注点
一般而言,我们得到上一步的显著图就完事了,而作者又增加了一个动态更新关注点的过程,目的就是为了模拟人类视觉注意力转移的过程,从而生成更具表现力的显著图。此处,作者把真·显著图(SM)类比成一个动态更新的神经层,它的初始输入是上一步得到的静态显著图(S),然后作者又定义了一个激活神经网络:“胜者为王”网(winner-take-all),S、SM、WTA网络三者的大小是一致的,并且每一个点都是一一对应的。初始时,SM的值由S决定(通过类似神经信号传导的方式),而之后它又会在WTA网络的影响下进行更新。S中最显著的点会给SM中对应的点最大的初始激励值。SM中每一个点又会刺激WTA网络中对应的点,当WTA网络中的某个点首先达到激活阈值时,一个真·注视点(FOA)就产生了,这个机制很好地模拟了当有多个显著点时,人类是怎样产生注意的:第一个引起注意的就是注视点(至于哪个会是第一个,就仁者见仁智者见智了,毕竟WTA网络的激活方式并没有指定,比如可以所有的点同步变更,也可以先变更中心区域的点)。当WTA网络出现了一个胜者时,将会同时执行以下三个过程:
- 将FOA转移到胜者对应的点上,即更新注视点
- 重置WTA网络(清零),为下一次注视点变更做准备
- 在SM中对注视点周围的区域做一定时间的局部抑制,确保能够发生注视点转移,并且确保注视点不会立刻返回来。
为了模拟“近邻优先”(proximity preference)的原则,作者还在SM上对注视点周围(除了抑制区域外)的点加了一个短时间的激励。
当然作者对它的模型进行调参了,以便使注视点转移的过程更接近人类视觉系统的行为。
如何实验与验证
眼见为实!让程序跑出来的结果和我们人类的判断作比较就好。作者将他人做过的根据眼动观测仪的结果(Spatial Frequency Content),与自己用程序跑出来的结果进行对比,可以看出来结果还是不错的。当然这个模型也是有缺点的,就是太依赖特征的选择了,没有考虑到的特征就不会产生出显著性,太过于human-design,比较适合专用系统。此外,由于最终的显著图是在第四级高斯金字塔下呈现的,这就导致了分辨率的降低,也就损失了一些图像的信息。作者之所以这样做,是因为他不关心精确的分割问题,只是找出显著点,然后大致画一块区域。
启发
这一篇论文仅仅六页,但是把整个框架搭得很清楚,为什么?因为简单!为什么简单?因为自然!而且作者并没有说详细的实现过程,这就让人读起来如丝顺滑,同时给读者自己发挥的空间(完全可以用其它的特征和别的理论来构造相应的显著图),论文就应该这样写啊!