论文笔记:Deep Visual-Semantic Alignments for Generating Image Descriptions

题目:Deep Visual-Semantic Alignments for Generating Image Descriptions

1.解决的问题

  • (1)用文字搜索库中图片、用图片搜索库中的文字。
  • (2)对图片进行描述(Captioning)

2.方法

  • 针对要解决的问题(1), 采用了 RCNN + BRNN 框架,首先将图片和文字切成片段,然后将片段图片和片段文字都映射到同一个特征空间,然后利用两个向量在同一空间的相似度来描述整张图片与一段文字的相似度,取相似度较高的结果。
  • 针对要解决的问题(2), 采用了VGGNet + RNN 的框架,开始输入一张图片,然后生成一段话。

3.RCNN + BRNN

  • 图片表示:对19个检测出的候选框(物体)外加整张图片进行卷积操作:

    v = W_m[CNN_{\theta_c}(I_b)]+b_m

CNN(I_b)I_b 转变成4096维的向量,\theta_c 大概用6000万个参数,W_m 的维度是 h*4096 (h 在 1000-1600维之间),所以每张图片用20个 h 维的向量描述。

  • 句子表示:将句子中的每个单词输入到BRNN中转成h维的向量:
    • 首先用 word2vec 将单词转为300维的向量表示(实验中发现改动词向量会对在最终结果产生轻微影响)
    • 然后将词向量输入BRNN中训练,实验中采用的隐藏层维度为 300 - 600 ,采用ReLU激活函数。如下图所示:
RCNN+BRNN.png
  • 单词 与 图片候选框对应:用点乘 v_i^t s_t 代表第 i 个候选框与第 t 个单词的相似度,那么对于图片 k (包含多个候选框)和句子 l(包含多个单词)来说,相似度可以定义为:

    {S_k}_l = \sum_{t\epsilon{g_l}} \sum_{i\epsilon{g_k}} max(0,v_i^t s_t)

    上面的公式中g_k 是图片 k 的候选框集合,g_l 是句子 l 的单词集合,意思是将所有的候选框与单词进行了笛卡尔乘积然后将所有的相似度加和,作者发现下面的公式可以用下面的公式进行简化:

    {S_k}_l = \sum_{t\epsilon{g_l}} max_{i\epsilon_{g_k}}(0,v_i^t s_t)

    公式的意思是说对于句子中的每一个单词,从图片集合的候选框中选取相似度最大的候选框,然后将所有的(单词—候选框)相似度加和。就是这个句子与这个图片的相似度,实验表明替换成这个公式后提升了检索效果。最后的loss定义为:

    C(\theta) = \sum_k[\sum_l max(0 , {S_k}_l - {S_k}_k + 1) + \sum_l max(0,S_{lk} - S_{kk} + 1)]

    个人理解这个公式的含义是 S_{kk} 是标准的答案(相似度最大),那么S_{kl} - S_{kk} 则小于0,而且只选出那么相似度相差比较近的 (0-1之间)。

  • 上一步中只是将单词与候选框进行对应,而实际中存在很多单词(句子片段)对应一个候选框的情况,作者在这里用马尔可夫夫随机场来解决这个问题。

4.图片描述生成(VGGNet + RNN)

  • 这个方法比较简单,即是用VGGNet对整张图片的特征进行抽取,然后用RNN生成语句,主要如下图所示:

    VGGNet+RNN.png
  • 要注意的是训练的时候每一时刻输入的是标准答案,测试的时候的输入是上一时刻概率最大的单词。

5.实验

  • 用了三个数据集:Flickr8K、Flickr30K 和 MSCOCO,分别包含8000、31000、123000张图片,每张图片都有五句描述。对于Flickr8K 和 Flickr30K 采用1000张图片作为验证集,1000张图片作为测试集。对于MSCOCO采用5000张图片作为验证集,5000张作为测试集。

  • 预处理:将所有句子转为小写,然后选取出现不少于五次的单词,对于三个数据集分别得到 2538,7414,8791个单词。

  • 用图片搜句子和用句子搜图片得到的结果是:

result1.png
  • 图片描述的结果是:
result2.png

6.思考

  • 扫描图片,确定实体,然后描述实体间的交互关系是不是更好一些
  • RNN接受到图片信息是通过加法直接传入RNN的,会不会有更复杂抽象的关系比如乘法等效果会更好
  • 现在的模型是两个模型分开的,如何设计端到端的模型。
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 194,491评论 5 459
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 81,856评论 2 371
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 141,745评论 0 319
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 52,196评论 1 263
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 61,073评论 4 355
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 46,112评论 1 272
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 36,531评论 3 381
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 35,215评论 0 253
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 39,485评论 1 290
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 34,578评论 2 309
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 36,356评论 1 326
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 32,215评论 3 312
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 37,583评论 3 299
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 28,898评论 0 17
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 30,174评论 1 250
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 41,497评论 2 341
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 40,697评论 2 335

推荐阅读更多精彩内容