论文笔记：A Model of Saliency-Based Visual Attention for Rapid Scene Analysis

论文信息

题目：A Model of Saliency-Based Visual Attention for Rapid Scene Analysis
作者：Laurent Itti, Christof Koch, and Ernst Niebur
领域：视觉显著性
类型：新问题，新方法

问题是什么

寻找图像中的能够优先引起人类关注的位置。

已有解决方案

通过分析人眼的运动来研究人类视觉关注点的特征，以此做进一步分析。

作者的核心思想、创新点

从人类视觉心理学的角度入手来研究该问题，采用方法包含了两部分，一是提取显著图(Saliency Map, SM)，二是动态更新关注点(Focus of Attention, FOA)。

提取显著图

受生物学启发，该方法模仿人类自下而上的视觉选择性注意过程，提取图像的底层特征，构造相应的显著图。

显著图的构造基于“特征集成理论”(feature integration theory)，每一种特征都会有自己的显著图，在某个特征下，不同位置的像素之间互相竞争，最终会有一些像素脱颖而出，成为该特征中的显著点。作者根据“中心-周围”拮抗理论，算出每一个像素点（作为中心点）相对于周围的像素点的显著值，所有点的显著值就构成了一副显著图。而不同特征下的显著图经过某种方式，汇集成最终的场景显著图。

系统框架结构

作者在这里采用了三种特征：亮度，颜色（根据“颜色双对立”系统[color double-opponent]），角度（使用Gabor滤波器），为了生成这些特征的显著图(Conspicuity Maps)，作者先对原图像进行尺度变换，生成九层高斯金字塔，这一方面增强了该方法的尺度不变性，另一方面也模拟了层级感受野的机制。我们可以把金字塔中的低层级图像的像素点看成“中心”，把高层级图像的对应像素点看成“周围”。然后把高层级图像通过插值的方式变成和低层级图像相同的大小，最后，把两个图像对应像素点的某种特征的值，进行逐点相减，产生一个尺度下某种特征的显著图。

最后还要把得到的不同特征的不同尺度的显著图进行合并，得到最终的显著图。

首先是合并同一特征不同尺度的显著图。作者把它们都缩小到金字塔的第四层级（最开始选择的时候，中心点只取2,3,4这三级，所以得到的显著图只有这三级的，因此在这里就是把这些级通过降采样缩小到第四级），然后把每张显著图的每一个像素点的显著值进行归一化。作者归一化的方式比较特别，原则就是去除不同特征因为幅值不同而带来的不均衡性，以及尽可能地让最显著的点突出出来（加大“贫富差距”）。最后，把所有图对应点的显著值相加，得到最终该特征的显著图。要注意的是，对于角度特征，作者采用了四个角度，因此实际上可以看成是四个特征，所以在对角度特征进行显著图合并时，作者是先对各个角度做一次显著图合并，然后把合并好的四个图直接叠加起来得到角度特征的显著图。

归一化的直观表示

接下来是合并不同特征的显著图。作者先把三个特征的显著图都做再一次上述的归一化，然后进对三者求平均，便得到最终的显著图。有趣的是，作者把得到的结果记为S，而不是SM (Saliency Map)，这是因为重头戏在接下来的部分。

动态更新关注点

一般而言，我们得到上一步的显著图就完事了，而作者又增加了一个动态更新关注点的过程，目的就是为了模拟人类视觉注意力转移的过程，从而生成更具表现力的显著图。此处，作者把真·显著图(SM)类比成一个动态更新的神经层，它的初始输入是上一步得到的静态显著图(S)，然后作者又定义了一个激活神经网络：“胜者为王”网(winner-take-all)，S、SM、WTA网络三者的大小是一致的，并且每一个点都是一一对应的。初始时，SM的值由S决定（通过类似神经信号传导的方式），而之后它又会在WTA网络的影响下进行更新。S中最显著的点会给SM中对应的点最大的初始激励值。SM中每一个点又会刺激WTA网络中对应的点，当WTA网络中的某个点首先达到激活阈值时，一个真·注视点(FOA)就产生了，这个机制很好地模拟了当有多个显著点时，人类是怎样产生注意的：第一个引起注意的就是注视点（至于哪个会是第一个，就仁者见仁智者见智了，毕竟WTA网络的激活方式并没有指定，比如可以所有的点同步变更，也可以先变更中心区域的点）。当WTA网络出现了一个胜者时，将会同时执行以下三个过程：

将FOA转移到胜者对应的点上，即更新注视点
重置WTA网络（清零），为下一次注视点变更做准备
在SM中对注视点周围的区域做一定时间的局部抑制，确保能够发生注视点转移，并且确保注视点不会立刻返回来。

为了模拟“近邻优先”(proximity preference)的原则，作者还在SM上对注视点周围（除了抑制区域外）的点加了一个短时间的激励。

当然作者对它的模型进行调参了，以便使注视点转移的过程更接近人类视觉系统的行为。

如何实验与验证

眼见为实！让程序跑出来的结果和我们人类的判断作比较就好。作者将他人做过的根据眼动观测仪的结果(Spatial Frequency Content)，与自己用程序跑出来的结果进行对比，可以看出来结果还是不错的。当然这个模型也是有缺点的，就是太依赖特征的选择了，没有考虑到的特征就不会产生出显著性，太过于human-design，比较适合专用系统。此外，由于最终的显著图是在第四级高斯金字塔下呈现的，这就导致了分辨率的降低，也就损失了一些图像的信息。作者之所以这样做，是因为他不关心精确的分割问题，只是找出显著点，然后大致画一块区域。

启发

这一篇论文仅仅六页，但是把整个框架搭得很清楚，为什么？因为简单！为什么简单？因为自然！而且作者并没有说详细的实现过程，这就让人读起来如丝顺滑，同时给读者自己发挥的空间（完全可以用其它的特征和别的理论来构造相应的显著图），论文就应该这样写啊！

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 205,132评论 6赞 478
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 87,802评论 2赞 381
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 151,566评论 0赞 338
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,858评论 1赞 277
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,867评论 5赞 368
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,695评论 1赞 282
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 38,064评论 3赞 399
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,705评论 0赞 258
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 42,915评论 1赞 300
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,677评论 2赞 323
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,796评论 1赞 333
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,432评论 4赞 322
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 39,041评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,992评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,223评论 1赞 260
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 45,185评论 2赞 352
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,535评论 2赞 343

论文笔记：A Model of Saliency-Based Visual Attention for Rapid Scene Analysis

论文笔记：A Model of Saliency-Based Visual Attention for Rapid Scene Analysis

论文信息

相关背景

问题是什么

已有解决方案

作者的核心思想、创新点

提取显著图

动态更新关注点

如何实验与验证

启发

推荐阅读更多精彩内容