视觉问答VQA之通过提问题获取知识

Knowledge Acquisition for Visual Question Answering via Iterative Querying

这篇论文是斯坦福李飞飞团队做的工作,发表在CVPR2017上。论文通过迭代的查询(问问题query)来获取额外知识和信息,从而更好的解决VQA问题(关于VQA的纵览可以看我的另一篇文章——一文带你了解视觉问答VQA)。相比于其它获取额外知识的方法,这篇论文是通过提问与问题和图片相关的问题的方式来获取相关知识/信息,就像人类会问问题获取信息一样,论文也是基于这个启发。例子如下图所示,通过问那个是平底锅,然后得知里面食物的颜色。(然而这篇论文距离这种类型的目标还差之甚远,论文也算是提出了一种问问题的框架,还是有待改善。)

模型


模型的总框架,分为

  1. core network
    核心网络根据图像和问题,额外知识,得到最终答案,具体包含四个部分:
  • question encoder: 输入为图片特征和问题特征,经过MLP,输出编码;
  • answer decoder:输入为memory bank的所有向量sum和question encoder的编码,经过MLP,输出answer;
  • memory encoder:输入为提问query得到的response,经过encoder编码为固定长度的向量,因为response有多种格式,所以memory encoder需要能处理不同类型的response;
  • memory bank:存储memory encoder编码得到的memory,以队列保存每次查询得到的response的memory。
    迭代查询的方式如下图所示,论文没有提到查询是什么时候,怎么终止的,所以应该是固定查询次数的。


  1. query generator
    查询生成器用来生成query,输入为图像,问题,当前的memory bank,输出下一个问题。
    因为问题空间大,所以论文使用了四种类型的问题/模板,与固定的objects(主要是因为哲四种有标注好的数据集),所以模型有两个softmax,一个问题类型,一个object:


Training

query generator的训练因为没有数据,不能进行有监督的训练,但是可以有core network的反馈/回报。所以一种方式是使用增强学习RL的方法,然而因为action空间,也就是问题空间很大,所以论文没有使用RL。而是使用mento-carlo来采样问题空间,扩展问题树,通过得到的答案的准确性来给问题打分score:



seed set是词的集合,用来生成相关性强的问题。训练sample来自当提的问题能够使网络得到正确答案时,那么这个问题是正确的,相关的,将用来训练query网络。
两个网络使用交替更新的方式来训练,就是固定一个网络然后训练另一个网络:


实验

实验在两个数据集上做验证:

  • Visual7W数据集,知识源是Visual Genome的标注,包含object,position,relationship等;
  • VQA数据集,知识源是一个训练好的detector。
    结果:



    从结果看,Visual7W的提升还是较大的,毕竟相比于那两个方法多了额外的信息,也就是Genome的标注。不过在VQA数据集上,优势就体现不出来了,可能是得到的额外信息少了,因为只有detector作为知识源,也有模型的问题,比如没有attetion的运用,数据增强等。
    论文给出的一些query例子:



Discussion

这篇论文本质上是通过query来得到额外知识/信息来提高回答的准确性,给我们提供了一个问问题的思路,然而也存在很多缺陷,留给大家思考:

  1. 提问问题可以得到额外信息,但是没有转化为内在知识表示,只是当作记忆;(每次都要问,需要一个庞大的知识源,相比于数据增强训练能转化为内在表示);
  2. 提问不知道何时停止,何时得到准确信息,这是一个可以改进的地方,比如增加一个判断啥的;
  3. 太依赖知识源的回答,本质还是视觉基础问题,只有当视觉基础解决得好,与NLP的融合问题也可以迎刃而解;
  4. 学习方法,问的问题还是比较蠢的,从上面给出的例子可以看出,同时也受限于问题类型等。
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 194,491评论 5 459
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 81,856评论 2 371
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 141,745评论 0 319
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 52,196评论 1 263
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 61,073评论 4 355
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 46,112评论 1 272
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 36,531评论 3 381
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 35,215评论 0 253
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 39,485评论 1 290
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 34,578评论 2 309
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 36,356评论 1 326
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 32,215评论 3 312
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 37,583评论 3 299
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 28,898评论 0 17
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 30,174评论 1 250
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 41,497评论 2 341
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 40,697评论 2 335

推荐阅读更多精彩内容