此部分主要是Chunshui Cao的几篇文章
一、Lateral Inhibition-Inspired Convolutional Neural Network for Visual Attention and Saliency Detection
要实现的目的:
通过建模一种自上而下的反馈注意力模型,使用这样一种弱监督的方法来实现显著目标检测
解决方案:
1、自上而下的反馈信号:对于一个简单的分类网络来说,最后的神经元决定了目标所属的类别,如果将神经元用表示,类别用表示,则有映射,使用泰勒展开则有:
显然,从直觉上来看,的导数可以量化神经元对最终结果的贡献。
2、横向抑制建模:横向抑制可以抑制激活的神经元向邻近神经元传播,一个重要的发现是通过横向抑制与反馈信号的结合可以使得最相关的神经元组合在一起。由于ReLU层决定了哪个神经元激活,所以在ReLU层加入了横向抑制。当网络训练完成后,梯度进行反向传播,经过ReLU层后,在通道轴取最大值,得到Max-C map。之后经过横向激活模块来进一步将目标与背景分开:
前一部分最大限度保留目标,后一部分尽力将目标与背景分开,同时强调边缘。
3、获取注意力图:经过横向抑制后,激活的位置保留,其他位置置为零,继续执行前向传播或者反向传播,如果要取某一层的注意力或响应,只要将那一层的梯度或响应按通道相加,再放缩至输入大小即可。
二、Feedback Convolutional Neural Network for Visual Localization and Segmentation
要实现的目的:
利用注意力机制这张弱监督的方法,实现对目标的定位与分割。(个人感觉这篇文章主要是对以前文章的总结升华)
解决方案:
1、提出Feedback Recovering:实质是通过门控来实现对无关区域的抑制,相关区域的激活来反向传播梯度。核心公式:
通过门控信号选择后的梯度给反传梯度(即结果对输入的梯度)加权。
2、提出FeedbackSelective Pruning:此方法与Feedback Recovering类似,不同的是这种方法认为在梯度反传时加门控信号会使得结果图失去一定的辨别能力,所以这种方法在反传时只使用cw加权,门控信号是在反传结束后从下到上的过程中提取梯度。