关于小样本生成

-paper1:Matching Networks for One Shot Learning （谷歌DeepMind的一篇论文）
-paper2:DATA AUGMENTATION GENERATIVE ADVERSARIAL NET
-paper3:MetaGAN: An Adversarial Approach to Few-Shot Learning（NIPS2018）

Matching Networks for One Shot Learning

附上我觉得总结的不错的一篇链接

Abstract

In this work, we employ ideas from metric learning based on deep neural features and from recent advances that augment neural networks with external memories. Our framework learns a network that maps a small labelled support set and an unlabelled example to its label, obviating the need for fine-tuning to adapt to new class types.

Matching Networks基于小样本学习归类，使得训练好的模型不需要经过调整也可以用在对训练过程中未出现过的类别进行归类。

Introduction

Deep Learning：Learning slow and based on large datasets（many weight updates using stochastic gradient descent.) This is mostly due to the parametric aspect of the model, in which training examples need to be slowly learnt by the model into its parameters。且样本用完即弃。
Non-parametric Model:作者此处对比nearest neighbor分类器，对NN而言，样本是什么输入就是什么并且会被保存，无需训练。从而可以快速学习。
本文目的融合parametric model和non-parametric model。
本文的两个创新点：提出Matching Net(对样本学习一个样本的表示，把他们编码一下)&& 提出新的训练测试方式（task based)。
Main novelty：We propose Matching Nets (MN), a neural network which uses recent advances in attention and memory that enable rapid learning.

Model

Model Architecture

Contribution: one-shot learning within the set-to-set framework
Simplest form of model:
$\hat{y}=\sum_{i=1}^ka(\hat{x},x_i)y_i\tag{1}$

其中， $x_i,y_i$ 来自support set $S=\{(x_i,y_i)\}_{i=1}^k ,a$ 可以看作一个attention kernel。
该模型用函数可表示为 $prediction=f(support\_set, test\_example)$ ，用概率可表示为 $P(\hat{y}|\hat{x},S)$ 。For a given input unseen example $\hat{x}$ ,our predicted output class would be $\arg \max_yP(y|\hat{x},S)$ .其中P为parametric neural network。

Attention Kernel

use the softmax over the cosine distance（Euclidean distance + softmax as weight ）

其中f,g是两个嵌入对编码函数，如figure1所示。

Full Context Embeddings

（内部结构没太看懂，得对LSTM结构有深入对了解才行，这里是宏观上理解）
Full Context Embeddings f

其中

可以参照模型图来理解。K为LSTM的timestep，等于support set中图片的个数，每个图片产生一个embedding，要与每个embedding计算cos距离，这样就是K次（不断地对测试样本自身进行K次迭代编码）。其余参数是LSTM内部结构函数。
Full Context Embeddings g

关于fully-conditional embedding的理解：支持集的样本除了能优化 g 网络，也应该可以优化用于编码测试样本的 f 网络，嵌入函数同时考虑support set和test set可以消除随机选择造成的差异性。为使支持集样本之间信息互通具体操作为：

双向LSTM：学习训练集的embedding，使得每个训练样本的embedding是其它训练样本的函数；
基于attention-LSTM来对测试样本embedding，使得每个测试样本的embeding是训练集embedding的函数。

Training Strategy

a task T as distribution over possible label sets L.（各种label集的可能组合）
$L \sim T$ : a label set L sampled from a task T
$S \sim L ，B \sim L$ : use L to sample the support set S and a batch B
一个B含多个task，一个task有一个S和一个test example。对one-shot来说，support set中有且只有一个样本与test example同类。
The Matching Net is then trained to minimise the error predicting the labels in the batch B conditioned on the support set S. 换句话解释：form of meta-learning: learn to learn from a given support set to minimize a loss over batch.

DAGAN

Introduction

Figure1的意思大致为：从源域学习好的manifold可以用于实现和有效地改进匹配网络的few-shot目标域。通过DAGAN可以增加匹配网络和相关模型中的数据（从DAGAN生成的每个类的最相关的比较点来实现）这涉及切线距离的概念。DAGAN以学习到流形之间的距离为目标关键。
Figure2的意思大致介绍了data shift的概念：协变量移位对多个域之间的变化情况。（对于one shot学习，类分布有一个极端的变化——两个分布没有共同支持。因此需要假设类条件分布具有一些共性，信息才可以从源域转换到one-shot目标域，生成新的数据。）
介绍了典型的数据增强技术的思想：在数据类间转换去挖掘其中的已知不变性。引出DAGAN的思想就差不多是在不同的源域训练GAN，从而学得更大的不变空间模型。训练出来的DAGAN不依赖于类本身，能捕获跨类转换，将数据点移动到相同类的其他点。

Controbution

Using GAN to learn a representation and process for a data
augmentation.
用单个新数据点生成了数据增强样本。
在数据量少的情况下也保证了任务的泛化性。
DAGAN在元学习空间中的应用，表现出比以往所有通用的元学习(meta-learning )模型更好的表现。
在元学习空间中的应用比以往所有通用的元学习(meta-learning )模型有更好的表现。
To our knowledge, this is the first paper to demonstrate state-of-the-art performance on meta-learning via novel data augmentation strategies.

Background

Transfer Learning and Dataset Shift:The term dataset shift (Storkey, 2009) generalises the concept of covariate shift (讲了协变量转移的概念)
Data Augmentation:Almost all cases of data augmentation are from a priori known invariance.（先验已知不变性）

Models

这里的 g 为generative model，f 为neural network takes the representation r and the random z as inputs.(这里感觉文中的描述和模型图片有点矛盾，个人觉得还是主要看图片描述，把g当成一个encoder，f当成一个decoder) 这时给出一个任意的，我们可以

主要模型如下：

Learning

这里要强调向D提供原始数据的重要性，防止GAN简单地对当前数据点进行自动编码。

Architecture

G: a combination of a UNet and ResNet (UResNet)

D:a DenseNet discriminator, using layer normalization instead of batch
normalization(the latter would break the assumptions of the WGAN objective function.)

Conclusions

DAGANS improve performance of classifiers even after standard data-augmentation.
数据增强在所有模型和方法上的一般性意味着DAGAN could be a valuable addition to any low data setting.

MetaGAN

网上搜不到对这篇文章的分析，就我个人理解整篇文章偏理论，提出了把GAN应用到元学习领域。文章借用元学习训练的方式，整体来看很像半监督学习GAN。

核心思想

通过对抗训练的方式使得鉴别器 learn sharper decision boundary.

Introduction

Problem：Adapt to new tasks within a few numbers of steps and scarce data.
Solve：MetaLearning：Train a adaptation strategy to a distribution of similar tasks, trying to extract transferable patterns useful for many tasks.
目前小样本学习方法建议阅读当小样本遇上机器学习 fewshot learning
目前许多few-shot learning models考虑如何用少量样本进行监督学习，而本文MetaGAN框架将监督和半监督学习结合，通过对抗学习的方式使用G生成的假数据学习到更清晰的决策边界，for both sample-level and task-level。
关于sharper decision boundary的理解可以参考文中的这张图：

BACKGROUND

Few-Shot Learning Def

Approch

Increase the dimension of the classifier output from N to N + 1, to model the probability that input data is fake.（通过给classifier增加一个额外的输出，这就是我说的其实想法类似于 semi-supervised GANs）

Basic Algorithm

Discriminator的选择
理论上选择是没有限制的，本文使用

MAML：representing learning to fast fine-tune based models
Relation Networks： learning shared embedding and metric based models

文章最后附录部分还给出了基于MAML的伪代码。
Generative的选择
Conditional generative model

G和D具体选择详见原文，不多做分析

WHY DOES METAGAN WORK?

最后作者分析了MetaGAN work的原因。直观的理解就是那幅图，当然作者没有那么随意，用了许多数学知识来证明，于我而言晦涩难懂，这里就不班门弄斧了。

实验

Sample-level
Task-level
效果都不错。

特别感谢@ewanlee

最后编辑于：2019.05.16 10:23:18

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 204,053评论 6赞 478
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 85,527评论 2赞 381
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 150,779评论 0赞 337
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,685评论 1赞 276
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,699评论 5赞 366
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,609评论 1赞 281
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 37,989评论 3赞 396
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,654评论 0赞 258
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 40,890评论 1赞 298
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,634评论 2赞 321
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,716评论 1赞 330
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,394评论 4赞 319
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 38,976评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,950评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,191评论 1赞 260
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 44,849评论 2赞 349
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,458评论 2赞 342

关于小样本生成

Matching Networks for One Shot Learning

Abstract

Introduction

Model

Model Architecture

Attention Kernel

Full Context Embeddings

Training Strategy

DAGAN

Introduction

Controbution

Background

Models

Learning

Architecture

Conclusions

MetaGAN

核心思想

Introduction

BACKGROUND

Approch

Basic Algorithm

WHY DOES METAGAN WORK?

实验

特别感谢@ewanlee

推荐阅读更多精彩内容