论文读书笔记（Multimodal Compact Bilinear Pooling for Visual Question Answering and Visual Grounding）

来源：EMNLP（2016）

关键词：Multimodal Compact Bilinear(MCB)，VQA

问题：

视觉问答系统

视觉定位系统

对于像视觉问答系统、视觉定位系统这样Multimodal任务，需要融合不同类型modal的向量得到一个joint representation。传统的向量融合方式一般是：点乘，点加，全连接。作者认为这些方法不如向量的外积更具有表达性。但是向量的外积会引起维度的急剧增加，因此作者提出了MCB的方法。

方法：

1 MCB的框架

双线性模型：z = W[x @q](@表示外积)

如果x和q都是2048维，z是3000维，整个参数空间大小是：2048*2048*3000 ,所以需要对外积进行降维和避免直接计算外积。

降维：通过the count sketch projection function ，将向量v(n维)映射到向量y(d维)。

避免直接计算外积：

MCB结构图

MCB算法

2 MCB在VQA任务的应用

1.VQA结构：

MCB在VQA任务的应用

给定图片和问题，预测答案的过程可以看做一个在候选答案集合进行多分类的任务：

对于输入的问题，利用2-LSTM，每层1024个结点，得到2048维度的文本向量；对于输入的图片，利用预训练好的152层的Res-net。然后将这两个向量通过MCB后正则化和归一化后得到16000联合表示的向量，再将这16000维度的向量连接到3000个答案上进行多分类。

2.Multiple Attention：

MCB+multiple attention

Attention机制使得模型专注于输入特征的和当前问题最相关的部分，目前常用的是soft-attention的方法。而multiple attention的动机则是相当于回答问题之前多次的观察。

首先利用MCB产生一个联合向量，然后使用两个卷积层去预测每一个区域的attention权值，通过softmax归一化后的soft attention map和原始视觉向量加和，得到注意力视觉向量。比较巧妙地的是产生了两个attention map,模仿多次的观察。

实验结果：

MCB性能对比实验

1 MCB优于点乘，点加，全连接的方法

2参数规模相同的时候，MCB优于Concat+FC+FC

3压缩对双线性池化的方式没有太大影响

4 soft attention，最好的搭档是MCB

VQA数据集实验结构对比

从实验结果上看：

MCB：1%多

Att ：3%多

Genome：1%多

Glove：0.2%左右

相关工作：

1向量的连接方式：

a = [1,2], b = [3,4]

点乘（element-wise）[3,8]

点加（elsement-add）[4,6]

全连接（concencate）[1,2,3,4]

内积（inner-product）11

外积（outer-product）向量

维基百科中对向量外积的定义：

外积的定义

2 MCB的前世今生：

①1T.-Y. Lin（et.all) CNN models for fine-grained visual recognition.在细粒度视觉识别任务中，作者把CNN网络的全连接层改为双线性层后，取得了很大提升。

②2Yang Gao（et.all) Compact bilinear pooling

提出两种压缩双线性模型，和完整的双线性模型相比，损失基本不变但是参数规模缩减了两个数量级，而且支持端到端的训练结构。

③3Ninh Pham(et.all)在Fast and scalable polynomial kernels via explicit feature maps

提出了两个向量外积的count sketch可以被转化为每个countsketch的卷积。

3 VQA：

任务：给定一张图片和自然语言形式的问题，生成自然语言形式的答案。

背景：这个任务同时涉及到了CV和nlp两个领域。类似的多领域问题最近非常火的就是看图说话（Image Caption）任务，但是看图说话只需要产生对图片的一般性描述，而视觉问答需要理解问题的真正含义，根据问题的不同仅聚焦与图片中的某一部分，而且某些问题还需要一定的常识推理才能做出回答。因此，VQA相比看图说话在图像语义的理解方面有更高的要求。

方法：近年来，各种以CNN网络为基础的深度学习网络层出不穷，将图像的底层特征如纹理，边角，色彩逐层抽取组合成更高级的语义特征。和传统的词包模型相比，rnn模型能够捕捉词语序列，通过参数共享的方式减少参数规模，并且LSTM，GRU等等改进版本能够更好捕捉长距离信息的表达。目前，利用CNN抽取图像语义信息，rnn抽取问题中包含的文本语义信息，将两者的信息融合构造组合模型是VQA问题的主流方法。从答案的生成方式看可以分为：分类模式和生成模式。

分类：

分类模型

生成：

生成模型

小结：VQA这样的任务，主流的方法都是需要联合表达图像信息和文本信息。目前主流的结合两个向量的方式有点乘，点加，连接。但是作者觉得这样产生的联合向量表达能力不够，不足以捕捉多模型之间复杂的交互信息。于是作者提出了这样一个猜想：多模型向量的外积可以表达多模型向量的交互信息。因为传统的向量结合方式都是针对单个元素的，向量外积的方式是对两个向量之间所有元素的乘法操作。但是双线性模型计算向量外积的过程中，产生的向量维数太大，计算量太大，所以双线性模型计算外积的方式并没有被广泛采用。

简评：

之前老师说过，创新点可以分为应用创新和模型创新。我觉得这两种创新方式其实是相辅相成的。这里作者因为想要改进VQA模型中视觉向量和问题向量的融合方式，提出了外积这个想法，成功地将之前的cbp(compact biliniaer pooling)模型改进后应用到模型融合的过程中。这种解决问题的思路值得我们参考和学习。

本文还有一个创新点就是应用了soft attention。并且使用的了两层attention maps，对MCB后的联合向量去求attention weight后对关注的视觉向量。

再者，作者参加VQA比赛的时候，单个模型最好的的实验结果是MCB+att+genome+glove，只比后面两名高了1个百分点左右。但是集成7个模型的时候取得的的结果则比后面的模型提升了4到5个百分点。说明在做这种比赛的时候，还是能够多用一些trick提升就多用一些。

��

最后编辑于：2017.12.04 04:16:32

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 206,968评论 6赞 482
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 88,601评论 2赞 382
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 153,220评论 0赞 344
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 55,416评论 1赞 279
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 64,425评论 5赞 374
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 49,144评论 1赞 285
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 38,432评论 3赞 401
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 37,088评论 0赞 261
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 43,586评论 1赞 300
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 36,028评论 2赞 325
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 38,137评论 1赞 334
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,783评论 4赞 324
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 39,343评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 30,333评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,559评论 1赞 262
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 45,595评论 2赞 355
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,901评论 2赞 345

论文读书笔记（Multimodal Compact Bilinear Pooling for Visual Question Answering and Visual Grounding）

推荐阅读更多精彩内容