Residual Attention Network for Image Classificationcation读书笔记

  这篇论文主要是把注意力机制应用在了图像分类上,其实作者的思路很简单,就是在原有的ResNet网络的基础上,添加了一些新的分支:Soft Mask Branch。
  废话不多说,下面直接看看论文里作者的介绍。略过前面的一堆废话不提,直接看第3部分。

  3. Residual Attention Network

  首先,作者大概介绍了一下Residual Attention Network是怎么回事,然后介绍说自己用stacking Attention Modules方法的原因,因为和最简单的只使用一次soft weight mask方法相比,stacking 具有很多优势。
  在有些图片中,由于背景复杂,环境复杂,这时候就需要对不同的地方给与不同的注意力。如果只使用一次soft weight mask分支,那么可能需要指数级的通道数来捕捉这些信息。而且只有一次机会,有些时候有可能会导致捕捉失败。
  而在Residual Attention Network中,因为主网络的每个分支都有自己单独的mask分支,所以可以缓解上面说的这些情况。

  3.1. Attention Residual Learning

  作者在这一部分介绍了为什么要借鉴使用Residual 结构,然后给出了公式。主要有两个原因:原始的Attention Modules由于使用点乘的形式,会导致效果明显下降。首先,和mask分支进行点乘会导致在deep layers中提取到的特征的数值明显下降。第二,soft mask有可能会破坏主网络的有些好的性质,比如the identical mapping of Residual Unit。(ps:关于作者给的这两个原因不敢苟同,后面会具体说说我个人的想法)

  3.2. Soft Mask Branch

  作者借鉴了FCN的结构,在attention分支中对特征图进行卷积和反卷积的操作(其实,和RNN中many-to-many有异曲同工之妙,都是encoder-decoder结构)。另外,作者在这个分支中,又设计了单独的分支内部的residual unit。



  另外,作者还提供了一个分支结构的示意图:


  3.3. Spatial Attention and Channel Attention

  我们知道,注意力模型输出的结果是0—1的数值,作者最终使用的是sigmoid函数,在这里,作者又讨论了另外的两种方法:一个是在每一张特征图上进行归一化,也就是这里说的Spatial Attention;另一种是在通道上进行归一化,也就是这里说的Channel Attention。不过,经过作者验证,还是使用sigmoid函数的效果最好。
  (ps:作者在attention分支中没有使用BN层,在使用sigmoid激活函数之前,接一个BN层,会不会效果更好,可以验证一下。)

  第4部分,作者主要就是进行了一些实验验证,和别的一些分类网络做了对比。然后对某些地方做了进一步的分析。具体来看两个地方:

  Attention Residual Learning

  Attention Module的设计一方面可以消除图片中噪声的影响(也即是,无效区域),另一方面,可以保留有用信息(也即是,我们需要关注的目标区域)。而实现的方法就是:attention分支和主网络上面的feature进行点乘。但是,如果是在深层网络中使用stacking方法,反复的点乘会导致数值衰减的很快。而我们设计的attention residual结构,由于使用identical mapping,可以有效缓解这种情况。这也就是作者在3.1中说的第一个原因。
  另外,作者给出了一张图来对比论文的网络和naive attention learning的输出结果。


  乍一看这张图,哇,确实是哦,NAL到后期基本上衰减到0了,但其实,仔细想一下,这里面的问题很大。这就是我说对作者的观点不敢苟同的原因。
  首先,来看ARL和ResNet-164这两条线,这两个肯定没什么问题,而且ARL比ResNet-164来的要低,也说明了attention branch起了一定的作用,如果没起作用的话,大不了两条线重合就是了。
  那么问题出在哪里呢,当然是NAL,主要有两个地方:一个是计算方法的问题,这里计算的是平均值,如果我们使用NAL的话,那么对于图片中不需要的信息,当然就都被变为0了,而且对于大部分的图片来说,这种区域是占了很大比重的的。这个时候,计算平均值的时候,如果平均值不衰减的很快就怪了,那才说明出问题了,说明你的attention分支压根就没什么作用(当然,目标区域的数值肯定也会有一定程度的减小,这个不可避免。)从这个Figure 4上面来看,NAL很小,这说明很好啊,NAL很好的完成了任务。而且,这个结果在作者给的Figure 1中也得到了证明。

  可以看出,经过naive attention learning,图像中的大部分的区域都被过滤掉了,只有目标区域被保留了下来,这个时候如果对整张图片进行平均的话,得出的数值很小这是必然的。
  另外一个问题,就是坐标系的问题,把NAL和ResNet-164放在一份坐标系里进行比较,他们之间的数值相差很大,这个时候体现在Figure 4里面,当然从视觉上来看NAL就接近0了,如果把NAL单独拿出来,可能就会好看很多。

  Comparison of different mask structures

  作者在attention分支中比较了两种不同的方法:全部采用conv的方式,而且步长设为1;还有一个就是现在使用的方法:先使用down sampling,然后使用up sampling。得出的结论当然是后一种方法比较好。
  (ps:分析一下原因,在进行down sampling的时候,实际上是对图片进行了模糊处理,这在无形中就起到了过滤的作用。)
  对了,还有一个地方,作者在3.1中提到的第二个原因,我觉得这个有点扯,作者纯粹就是拿来凑数的。因为attention分支是和Residual Unit平行的结构,怎么可能会造成影响。另外,attention机制做的本来就是破坏的工作,怎么破坏的呢,直接过滤掉无效区域,只保留想要关注的部分。(实际上,就是特征提取,哈哈。。。)
  好了,最后作一下总结:去掉那些复杂的专业名词和花里胡哨的说法,到底什么是注意力模型,其实应该叫注意力机制更好一点,在具体一点,就是特征提取,只不过这里要分两个步骤:首先生成一张取值为0—1之家的mask,然后和原来的特征相乘,这样就让不关注的区域变为0,关注的区域数值不变,而具体的位置,网络可以自己学习。
  那么,具体到这篇论文,实际上就是一个ResNet网络就的改进,只不过这里改进的方向不是在深度上,而是在宽度上,增加了一些attention分支。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 204,189评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,577评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 150,857评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,703评论 1 276
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,705评论 5 366
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,620评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,995评论 3 396
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,656评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,898评论 1 298
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,639评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,720评论 1 330
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,395评论 4 319
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,982评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,953评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,195评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 44,907评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,472评论 2 342

推荐阅读更多精彩内容