论文笔记【Recurrent Attentional Reinforcement Learning for Multi-label Image Recognition】

摘要

多标签图像识别是计算机视觉中一项基础却又有挑战性的任务。利用深度卷积神经网络对具有语义感知的图像区域进行定位,并对其标签进行预测,目前取得了显著的进展。然而,通过提出假设区域进行对图像区域的定位,需要冗余的计算成本,而且往往忽略或简单化了区域之间的上下文依赖关系。作者在该论文中提出了一个循环注意强化学习框架,迭代地发现与不同语义对象相关的注意区域(含有信息的图像区域),并对这些区域预测相关标签的得分。此外,该模型还可以对注意区域的依赖关系进行建模,从而促进多标签识别。实验证明,该模型在性能和效率都具有优势。

介绍

这一部分作者主要介绍了图像分类的发展,从最初的单标签分类,到更接近现实任务的多标签分类,并谈论了目前多标签分类所采用的方法(对CNNs进行微调、引入假设区域),以及它们的优点和不足(如HCP中存在冗余计算和次优性能的问题)。为了达到更好的分类性能,作者提出了一个可端到端训练的循环注意强化学习框架,其中包括了一个用于提取输入图像特征表示卷积网络和一个有LSTM网络实现的循环注意感知模块。

相关工作

主要介绍了目前多标签图像识别和视觉注意网络这两个研究领域上的一些进展。

模型


模型结构示意图

总体结构:
    1. FCN(全卷积网络):从原始输入图像中提取特征映射f_{I} (feature maps)。
    2. 循环注意感知模块:在每一次迭代的过程中:通过特征映射f_{I} 以及位置l_{t} (由上一次迭代生成),找到k个注意区域,并根据f_{I} 提取每一个区域对应的特征f_{tr} 。由一个LSTM网络,根据区域的特征f_{tr}以及上一次迭代后的隐藏状态,为每个区域进行相应的标签预测得分a_{tr} ,并生成一个最优位置l_{t+1} 供下一次迭代使用。
    3. 集合:在迭代结束后,将所有循环得到的预测得分经过 category-wise max-pooling 得到最终的标签分布结果。

1. FCN全卷积网络

    首先将原始输入图像大小调整为W × H ,并通过网络VGG16 ConvNet 训练得到图像的特征映射f_{I}\epsilonR^{C\times W\times H},特征映射是从最后一次卷积层得出的。

2. 循环注意感知模块

    (1)首先根据特征映射f_{I} 提取中心位于l_{t} 的不同尺寸、比例的k个图像区域\left\{ R_{tr}  \right\} _{r=1}^k
    (2)由特征映射f_{I} 和区域R_{tr} ,提取每个区域对应的特征f_{tr}

其中函数G包括了裁剪和双线性插值的操作,最终得到的f_{tr} 具有固定的大小。
(区域特征的提取基于整幅图像的特征映射f_{I} ,避免了计算密集的卷积过程)
    (3)LSTM以上一次迭代后的隐藏状态h_{t-1} 以及每一区域的特征f_{tr} ,为每个区域进行相应的标签预测得分a_{tr} ,并生成一个最优位置l_{t+1} 供下一次迭代使用:

其中\theta 为网络的参数,a_{tr} 对于于区域R_{tr} 的标签得分。注意在第一次迭代的过程中,以整幅图像作为注意区域,即R_{0} 只有一个区域,它的目的仅仅为确定l_{1} 的位置。

3. category-wise max-pooling

    在迭代结束后,模型一共得到了C\times k\times T个得分(T次迭代产生了得分,每一次迭代为k个区域打分,每个区域的得分为一个C维向量。其中C是总的标签个数或总类别数):
\left\{ a_{tr}|t=1,2,...,T; r=1,2,...,k  \right\} ,其中a_{tr} =\left\{ a_{tr}^0,a_{tr}^1,...,a_{tr}^{C-1}  \right\} 。这里category-wise max-pooling简单地选取每个标签的最大预测得分值最为最终结果:a^c = max(a_{11}^c,a_{12}^c,...,a_{Tk}^c ),c=0,1,...,C-1

训练过程

    循环注意感知模块对区域的打分和搜索下一最优位置,可以看作是一个顺序决策问题,通过引入强化学习进行训练。
    (1)状态:s_{t} 由两部分组成。一是当前区域的特征\left\{ f_{tr}  \right\} _{r=1}^k;二是上一次迭代的隐藏状态h_{t-1} (有助于找到瞥见区域和标签之间的上下文依赖关系)。
                                    s_{t}  = \left\{ f_{t1},f_{t2},...,f_{tk},h_{t-1}  \right\}
    (2)动作:包括两个部分,
            (a)一是为区域进行打分,具体操作为:将区域的特征 f_{tr}通过一个全连接层生成语义表现。LSTM根据语义表现以及上次迭代的隐藏状态,生成新的隐藏状态\left\{ h_{tr}  \right\} _{r=1}^k,新的隐藏状态通过一个分类网络为每个区域进行打分:


其中\theta _{cls} 为分类网络的参数。

            (b)二是寻找下一最优位置,具体操作为:将\left\{ h_{tr}  \right\} _{r=1}^k求均值得到h_{t} ,h_{t} 经过一个带参数\theta _{loc} 的定位网络f_{loc} 。以f_{loc} (h_{t};\theta _{loc}  )的输出作为均值,以\sigma (常设为0.11)作为方差构建高斯分布,并根据该分布随机取得位置l_{t+1}
    (3)奖励:每次迭代的奖励定义为


            其中,g为图像真实的n个标签(ground-truth labels),p为得分最高的前n个标签,\vert .\vert 为集合的大小。
            总的奖励为:

            其中,\gamma 取1。故总的奖励R=r_{T}

    除了定义分类损失函数,作者还定义了一个延迟奖励机制,得到一个混合的目标函数。最终的目的是为了学到一个可以指导打分和生成下一位置的策略\pi ((a_{t}, l_{t+1})|S_t;\theta  )其中S_t为之前的注意区域和动作S_t=R_0,l_1,R_1,a_1,l_2,...,Rt

    目标函数,是奖励期望最大化:

    P(S_T;\theta )为所有可能的交互序列的分布。
    目标函数的梯度计算:

分类损失函数:

其中:

    y_i为真实标签的独热编码。||||_1表示求向量元素绝对值之和。

实验

以下为作者进行实验的结果以及与其他方法的比较:

论文中还进行了消融实验,检验模型中每一个模块的作用。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 203,547评论 6 477
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,399评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 150,428评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,599评论 1 274
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,612评论 5 365
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,577评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,941评论 3 395
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,603评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,852评论 1 297
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,605评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,693评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,375评论 4 318
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,955评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,936评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,172评论 1 259
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 43,970评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,414评论 2 342

推荐阅读更多精彩内容