论文阅读（28）Cross-modal Hallucination for Few-shot Fine-grained Recognition

1. 论文相关

CVPR2018

2.摘要

最先进的深度学习算法通常需要大量数据用于模型训练。缺乏可能严重恶化性能，特别是在类别之间具有细微边界的情况下。为此，我们提出了一种多模式方法，有助于通过有意义的联合嵌入来弥合信息差距。具体而言，我们提出了在训练期间多模态的基准（即图像和文本）和测试时间中的单模态（即图像），以及在基类（具有许多样本）中利用多模态数据的相关任务，以学习显式视觉新课程的分类（少量样本）。接下来，我们提出了一个基于跨模态数据幻觉的框架。在这方面，我们引入了一个用于样本生成的有区别的文本条件GAN，其具有用于样本选择的简单的自定进度策略。我们展示了我们提出的用于在CUB数据集上进行1次，2次和5次学习的辨别性幻觉方法的结果，其中通过采用多模态数据来提高准确性。

3. 思想

目标是建立多模态的Fewshot细粒度识别的基准（benchmark），模拟在实际中出现的状态。因此，在Hariharan等人的启发下，我们提出了一个小样本学习的Benchmark，并将其扩展到使用多模态训练数据。在他们的工作之后，其思想是建立一个小样本学习框架，由多个阶段组成。第一阶段被用来学习大型训练集的有意义表示（表示学习阶段）。在下一阶段，应用上一阶段学习到的表示，并且对具有少量样本的新类别进行微调（小样本学习阶段，few-shot learing phase）。这个与经典的one-shot学习设置不同，one-shot learning没有包含许多样本的基类可用（如表1所示）。为此，用 $I$ 来表示图像空间， $\tau$ 表示文本空间， $C=\{1,...,Y \}$ 为离散的标签空间。此外，让 $x_i\in I \times \tau$ 表示第 $i$ 个输入数据点及 $y_i\in C$ 表示其标签。如论文[5]一样，标签空间被分成两个不相交的子集，为了设置小样本学习设置： $C_{base}$ 表示有大量数据样本的类的标签； $C_{novel}$ 表示数据量不足的类别，每个类别只有几个实例是可获得的。注意，两个子集都会耗尽标签空间 $C$ ，即 $C=C_{base} \bigcup C_{novel}$ 。可以进一步假设：一般来说， $|C_{novel}|< |C_{base}|$ 。为了能够学习强大的表示，这是必要的。此外，数据集 $S$ 的组织如下：训练数据 $S_{train}$ 应该由元组 ${\{(x_i,y_i) \}}_{i=1}^n$ 组成，元组取自整个数据集， $y_i \in C_{base} \bigcup C_{novel}$ 。

因此，训练数据由 $S_{train}=S_{train}^{novel}\bigcup S_{train}^{base}$ ， $S_{train}^{novel} = {\{(x_i,y_i):(x_i,y_i) \in S_{train}, y_i \in C_{novel}\} }_{i=1}^k \subset S_{train}$ ，而 $S_{train}^{base} = {\{(x_i,y_i):(x_i,y_i) \in S_{train}, y_i \in C_{base}\} }_{i=1}^k \subset S_{train}$ 。而为了符合小样本的场景， $|S_{train}^{novel}|<< |S_{train}^{base}|$ 。与定义的基准方法Hariharan等人[5]和其他流行的小样本学习任务不同，我们的场景在训练阶段中是多模态的（见表1）。然而，测试阶段是单模态的图像数据 $C_{novel}$ 。也就是说，分类器是根据图像数据进行评估的,最终目标只是为了训练一个视觉分类器。

image.png

3.1

4. 方法

该方法的总体框架可以分为两个阶段：1）表示学习：训练一个有辨别力的文本条件GAN,根据提供的文本描述产生假图像（Hallucination Image）；2）微调阶段：我们学会用自配速样本选择策略（a self-paced sample selection strategy）从生成的数据中选择最具辨别力的图像。最后，我们训练一个通用分类器。

4.1 具有判别力的文本条件GAN（Discriminative TextConditional GAN）

受到论文[27]的启发，我们遵循元学习（meta-learning）框架，和利用 $C_{base}$ 中大量可用的数据学习一个生成模型（generative model），然后利用它来学习一个与 $C_{novel}$ 相关的有限样本的分类器。因此，我们构建了文本条件GAN（tcGAN）（例如[13，18，30]）区学习一个映射 $\tau\rightarrow I$ ，这样生成器 $G$ 被训练产生无法被一个训练有素的鉴别器 $D$ 从“真实”的图像中区分的输出，判别器 $D$ 被训练去尽可能的检测生成器产生的假数据。这允许跨模态的样本生成，通过补偿 $C_{base}$ 的缺乏数据促进小样本学习。

文本 $T$ 和图像 $I$ 的tcGAN目标函数可以简明扼要地表达为：

image.png

表示随机噪声向量，和图像表示文本和图像的嵌入向量。

在实践中，我们在张等人提出的StackGAN[30]框架的基础上构建了我们的方法。tcGAN是一个变种,具有强大的管道以从细粒度的文字描述中生成真实的图像。

然而，仅优化tcGAN的损失 $L_{tcGAN}$ ，缺乏类的判别性。因此我们增加 $L_{tcGAN}$ 通过添加一个类判别项 $L_{class}$ ，定义如下：

image.png

以一种另类的方式优化，产生 $D^*$ 和 $G^*$ 。应该注意的是，鉴于 $L_{tcGAN}$ 是用 $C_{base}$ 中的样本训练，复合损失仅在 $C_{novel}$ 中n个训练样本的（子）集上训练。这为我们提供了一种用元学习的方式训练tcGAN的方法，其中跨模态的表示学习在基础类上，后来应用于类辨别性（class-discriminative，细粒度）的小样本学习任务。

4.2 Self-paced Sample Selection(自定步调样本选择)

训练文本条件GAN潜在上能用 $G^*$ 根据提供的文本描述生成无限多的样本。然而，挑战是从生成的样本池中选取足够的样本允许在细粒度小样本场景中构建更好的分类器。这样的图像子集应该不仅要现实（realistic），而且要有类判别性（class-discriminative）。为了这个最后，我们按照自定步调策略选择一个子集与生成器所在的图像相对应的图像最自信的是他们的“现实”，判别器对他们的“类判别性”最有信心。具体来说，我们使用 $D^*$ 对每个类别计算分数，并依据这些分数按降序对生成的图像进行排序。然后我们选择最前面的m个元素。直观地说，我们选择生成的样本的子集根据实际数据训练的分类器最有信心，如图2所示。最后，一个卷积神经网络（CNN）被训练用一系列真实图像和那些被选为生成的最佳的类判别性（class-discriminative）图像。

image.png

5.实验

image.png

参考资料

[1] Cross-modal Hallucination for Few-shot Fine-grained Recognition

论文阅读（28）Cross-modal Hallucination for Few-shot Fine-grained Recognition

论文阅读（28）Cross-modal Hallucination for Few-shot Fine-grained Recognition

1. 论文相关

2.摘要

3. 思想

3.1

4. 方法

4.1 具有判别力的文本条件GAN（Discriminative TextConditional GAN）

4.2 Self-paced Sample Selection(自定步调样本选择)

5.实验

参考资料

相关论文

推荐阅读更多精彩内容