论文读书笔记(Multimodal Compact Bilinear Pooling for Visual Question Answering and Visual Grounding)

来源EMNLP(2016)

关键词Multimodal Compact Bilinear(MCB),VQA

问题


视觉问答系统


视觉定位系统

对于像视觉问答系统、视觉定位系统这样Multimodal任务,需要融合不同类型modal的向量得到一个joint representation。传统的向量融合方式一般是:点乘,点加,全连接。作者认为这些方法不如向量的外积更具有表达性。但是向量的外积会引起维度的急剧增加,因此作者提出了MCB的方法。

方法

1 MCB的框架

双线性模型:z = W[x @q](@表示外积)

如果x和q都是2048维,z是3000维,整个参数空间大小是:2048*2048*3000 ,所以需要对外积进行降维和避免直接计算外积。

降维:通过the count sketch projection function ,将向量v(n维)映射到向量y(d维)。

避免直接计算外积:


MCB结构图
MCB算法

2 MCB在VQA任务的应用

1.VQA结构:


MCB在VQA任务的应用

给定图片和问题,预测答案的过程可以看做一个在候选答案集合进行多分类的任务:

对于输入的问题,利用2-LSTM,每层1024个结点,得到2048维度的文本向量;对于输入的图片,利用预训练好的152层的Res-net。然后将这两个向量通过MCB后正则化和归一化后得到16000联合表示的向量,再将这16000维度的向量连接到3000个答案上进行多分类。

2.Multiple Attention:


MCB+multiple attention

Attention机制使得模型专注于输入特征的和当前问题最相关的部分,目前常用的是soft-attention的方法。而multiple attention的动机则是相当于回答问题之前多次的观察。

首先利用MCB产生一个联合向量,然后使用两个卷积层去预测每一个区域的attention权值,通过softmax归一化后的soft attention map和原始视觉向量加和,得到注意力视觉向量。比较巧妙地的是产生了两个attention map,模仿多次的观察。

实验结果:


MCB性能对比实验

1 MCB优于点乘,点加,全连接的方法

2参数规模相同的时候,MCB优于Concat+FC+FC

3压缩对双线性池化的方式没有太大影响

4 soft attention,最好的搭档是MCB

VQA数据集实验结构对比

从实验结果上看:

MCB:1%多 

Att :3%多

Genome:1%多

Glove:0.2%左右

相关工作

1向量的连接方式:

a = [1,2], b = [3,4]

点乘(element-wise)[3,8]

点加(elsement-add)[4,6]

全连接(concencate)[1,2,3,4]

内积(inner-product)11

外积(outer-product)向量

维基百科中对向量外积的定义:

外积的定义

2 MCB的前世今生:

①1T.-Y. Lin(et.all) CNN models for fine-grained visual recognition.在细粒度视觉识别任务中,作者把CNN网络的全连接层改为双线性层后,取得了很大提升。

②2Yang Gao(et.all) Compact bilinear pooling

提出两种压缩双线性模型,和完整的双线性模型相比,损失基本不变但是参数规模缩减了两个数量级,而且支持端到端的训练结构。

③3Ninh Pham(et.all)在Fast and scalable polynomial kernels via explicit feature maps

提出了两个向量外积的count sketch可以被转化为每个countsketch的卷积。

3 VQA:

任务:给定一张图片和自然语言形式的问题,生成自然语言形式的答案。

背景:这个任务同时涉及到了CV和nlp两个领域。类似的多领域问题最近非常火的就是看图说话(Image Caption)任务,但是看图说话只需要产生对图片的一般性描述,而视觉问答需要理解问题的真正含义,根据问题的不同仅聚焦与图片中的某一部分,而且某些问题还需要一定的常识推理才能做出回答。因此,VQA相比看图说话在图像语义的理解方面有更高的要求。

方法:近年来,各种以CNN网络为基础的深度学习网络层出不穷,将图像的底层特征如纹理,边角,色彩逐层抽取组合成更高级的语义特征。和传统的词包模型相比,rnn模型能够捕捉词语序列,通过参数共享的方式减少参数规模,并且LSTM,GRU等等改进版本能够更好捕捉长距离信息的表达。目前,利用CNN抽取图像语义信息,rnn抽取问题中包含的文本语义信息,将两者的信息融合构造组合模型是VQA问题的主流方法。从答案的生成方式看可以分为:分类模式和生成模式。

分类:

分类模型

生成:


生成模型

小结:VQA这样的任务,主流的方法都是需要联合表达图像信息和文本信息。目前主流的结合两个向量的方式有点乘,点加,连接。但是作者觉得这样产生的联合向量表达能力不够,不足以捕捉多模型之间复杂的交互信息。于是作者提出了这样一个猜想:多模型向量的外积可以表达多模型向量的交互信息。因为传统的向量结合方式都是针对单个元素的,向量外积的方式是对两个向量之间所有元素的乘法操作。但是双线性模型计算向量外积的过程中,产生的向量维数太大,计算量太大,所以双线性模型计算外积的方式并没有被广泛采用。

简评

之前老师说过,创新点可以分为应用创新和模型创新。我觉得这两种创新方式其实是相辅相成的。这里作者因为想要改进VQA模型中视觉向量和问题向量的融合方式,提出了外积这个想法,成功地将之前的cbp(compact biliniaer pooling)模型改进后应用到模型融合的过程中。这种解决问题的思路值得我们参考和学习。

本文还有一个创新点就是应用了soft attention。并且使用的了两层attention maps,对MCB后的联合向量去求attention weight后对关注的视觉向量。

再者,作者参加VQA比赛的时候,单个模型最好的的实验结果是MCB+att+genome+glove,只比后面两名高了1个百分点左右。但是集成7个模型的时候取得的的结果则比后面的模型提升了4到5个百分点。说明在做这种比赛的时候,还是能够多用一些trick提升就多用一些。

��

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 203,547评论 6 477
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,399评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 150,428评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,599评论 1 274
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,612评论 5 365
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,577评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,941评论 3 395
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,603评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,852评论 1 297
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,605评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,693评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,375评论 4 318
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,955评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,936评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,172评论 1 259
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 43,970评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,414评论 2 342

推荐阅读更多精彩内容