论文阅读(28)Cross-modal Hallucination for Few-shot Fine-grained Recognition

1. 论文相关

CVPR2018

2.摘要

最先进的深度学习算法通常需要大量数据用于模型训练。缺乏可能严重恶化性能,特别是在类别之间具有细微边界的情况下。为此,我们提出了一种多模式方法,有助于通过有意义的联合嵌入来弥合信息差距。具体而言,我们提出了在训练期间多模态的基准(即图像和文本)和测试时间中的单模态(即图像),以及在基类(具有许多样本)中利用多模态数据的相关任务,以学习显式视觉新课程的分类(少量样本)。接下来,我们提出了一个基于跨模态数据幻觉的框架。在这方面,我们引入了一个用于样本生成的有区别的文本条件GAN,其具有用于样本选择的简单的自定进度策略。我们展示了我们提出的用于在CUB数据集上进行1次,2次和5次学习的辨别性幻觉方法的结果,其中通过采用多模态数据来提高准确性。

3. 思想

目标是建立多模态的Fewshot细粒度识别的基准(benchmark),模拟在实际中出现的状态。因此,在Hariharan等人的启发下,我们提出了一个小样本学习的Benchmark,并将其扩展到使用多模态训练数据。在他们的工作之后,其思想是建立一个小样本学习框架,由多个阶段组成。第一阶段被用来学习大型训练集的有意义表示(表示学习阶段)。在下一阶段,应用上一阶段学习到的表示,并且对具有少量样本的新类别进行微调(小样本学习阶段,few-shot learing phase)。这个与经典的one-shot学习设置不同,one-shot learning没有包含许多样本的基类可用(如表1所示)。为此,用I来表示图像空间,\tau表示文本空间,C=\{1,...,Y \}为离散的标签空间。此外,让x_i\in I \times \tau表示第i个输入数据点及y_i\in C表示其标签。如论文[5]一样,标签空间被分成两个不相交的子集,为了设置小样本学习设置:C_{base}表示有大量数据样本的类的标签;C_{novel}表示数据量不足的类别,每个类别只有几个实例是可获得的。注意,两个子集都会耗尽标签空间C,即C=C_{base} \bigcup C_{novel}。可以进一步假设:一般来说,|C_{novel}|< |C_{base}|。为了能够学习强大的表示,这是必要的。此外,数据集S的组织如下:训练数据S_{train}应该由元组{\{(x_i,y_i) \}}_{i=1}^n组成,元组取自整个数据集,y_i \in C_{base} \bigcup C_{novel}

因此,训练数据由S_{train}=S_{train}^{novel}\bigcup S_{train}^{base}S_{train}^{novel} = {\{(x_i,y_i):(x_i,y_i) \in S_{train}, y_i \in C_{novel}\} }_{i=1}^k \subset S_{train},而S_{train}^{base} = {\{(x_i,y_i):(x_i,y_i) \in S_{train}, y_i \in C_{base}\} }_{i=1}^k \subset S_{train}。而为了符合小样本的场景,|S_{train}^{novel}|<< |S_{train}^{base}|。与定义的基准方法Hariharan等人[5]和其他流行的小样本学习任务不同,我们的场景在训练阶段中是多模态的(见表1)。然而,测试阶段是单模态的图像数据C_{novel}。也就是说,分类器是根据图像数据进行评估的,最终目标只是为了训练一个视觉分类器。

image.png

3.1

4. 方法

该方法的总体框架可以分为两个阶段:1)表示学习:训练一个有辨别力的文本条件GAN,根据提供的文本描述产生假图像(Hallucination Image);2)微调阶段:我们学会用自配速样本选择策略(a self-paced sample selection strategy)从生成的数据中选择最具辨别力的图像。最后,我们训练一个通用分类器。

4.1 具有判别力的文本条件GAN(Discriminative TextConditional GAN)

受到论文[27]的启发,我们遵循元学习(meta-learning)框架,和利用C_{base}中大量可用的数据学习一个生成模型(generative model),然后利用它来学习一个与C_{novel}相关的有限样本的分类器。因此,我们构建了文本条件GAN(tcGAN)(例如[13,18,30])区学习一个映射\tau\rightarrow I,这样生成器G被训练产生无法被一个训练有素的鉴别器D从“真实”的图像中区分的输出,判别器D被训练去尽可能的检测生成器产生的假数据。这允许跨模态的样本生成,通过补偿C_{base}的缺乏数据促进小样本学习。

文本T和图像I的tcGAN目标函数可以简明扼要地表达为:

image.png

表示随机噪声向量,和图像表示文本和图像的嵌入向量。

在实践中,我们在张等人提出的StackGAN[30]框架的基础上构建了我们的方法。tcGAN是一个变种,具有强大的管道以从细粒度的文字描述中生成真实的图像。

然而,仅优化tcGAN的损失L_{tcGAN},缺乏类的判别性。因此我们增加L_{tcGAN}通过添加一个类判别项L_{class},定义如下:

image.png

以一种另类的方式优化,产生D^*G^*。应该注意的是,鉴于L_{tcGAN}是用C_{base}中的样本训练,复合损失仅在C_{novel}中n个训练样本的(子)集上训练。这为我们提供了一种用元学习的方式训练tcGAN的方法,其中跨模态的表示学习在基础类上,后来应用于类辨别性(class-discriminative,细粒度)的小样本学习任务。

4.2 Self-paced Sample Selection(自定步调样本选择)

训练文本条件GAN潜在上能用G^*根据提供的文本描述生成无限多的样本。然而,挑战是从生成的样本池中选取足够的样本允许在细粒度小样本场景中构建更好的分类器。这样的图像子集应该不仅要现实(realistic),而且要有类判别性(class-discriminative)。为了这个最后,我们按照自定步调策略选择一个子集与生成器所在的图像相对应的图像最自信的是他们的“现实”,判别器对他们的“类判别性”最有信心。具体来说,我们使用D^*对每个类别计算分数,并依据这些分数按降序对生成的图像进行排序。然后我们选择最前面的m个元素。直观地说,我们选择生成的样本的子集根据实际数据训练的分类器最有信心,如图2所示。最后,一个卷积神经网络(CNN)被训练用一系列真实图像和那些被选为生成的最佳的类判别性(class-discriminative)图像。

image.png

5.实验

image.png

参考资料

[1] Cross-modal Hallucination for Few-shot Fine-grained Recognition

相关论文

[27] Y.-X.Wang, R. Girshick, M. Hebert, and B. Hariharan. Low-
Shot Learning from Imaginary Data. In CVPR, 2018. 2, 3

[30] H. Zhang, T. Xu, H. Li, S. Zhang, X. Wang, X. Huang, and
D. Metaxas. Stackgan++: Realistic image synthesis with
stacked generative adversarial networks. arXiv: 1710.10916,2017. 1, 2, 3, 4, 5

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 203,098评论 5 476
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,213评论 2 380
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 149,960评论 0 336
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,519评论 1 273
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,512评论 5 364
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,533评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,914评论 3 395
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,574评论 0 256
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,804评论 1 296
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,563评论 2 319
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,644评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,350评论 4 318
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,933评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,908评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,146评论 1 259
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 42,847评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,361评论 2 342

推荐阅读更多精彩内容