Learning from Simulated and Unsupervised Images through Adversarial Training 简介

reference: https://arxiv.org/abs/1612.07828

作者 Ashish Shrivastava, Tomas Pfister, Oncel Tuzel, Josh Susskind, Wenda Wang, Russ Webb

Abstract

随着图像领域的进步，用生成的图像训练机器学习模型的可行性越来越高，大有避免人工标注真实图像的潜力。但是，由于生成的图像和真实图像的分布有所区别，用生成的图像训练的模型可能没有用真实图像训练的表现那么好。为了缩小这种差距，论文中提出了一种模拟+无监督的学习方式，其中的任务就是学习到一个模型，它能够用无标注的真实数据提高模拟器生成的图片的真实性，同时还能够保留模拟器生成的图片的标注信息。论文中构建了一个类似于 GANs 的对抗性网络来进行这种模拟+无监督学习，只不过论文中网络的输入是图像而不是随机向量。为了保留标注信息、避免图像瑕疵、稳定训练过程，论文中对标准 GAN 算法进行了几个关键的修改，分别对应“自我正则化”项、局部对抗性失真损失、用过往的美化后图像更新鉴别器。论文中表明这些措施可以让网络生成逼真的图像，并用定性的方法和用户实验的方法进行了演示；定量测试则是用生成的数据训练模型估计目光注视方向、估计手部姿态。结果表明，经过模型美化后的生成图像可以为模型表现带来显著提升，在 MGIIGaze 数据集中不依靠任何有标注的真实数据就可以取得超过以往的表现。

image.png

Introduction

现在网络容量越来越大，对大型标注数据集的需求也在增长。但是给数据集进行标注是一个很贵且耗时的事。所以，使用合成图像进行训练变得有吸引力。但是通过合成图像训练出的网络会学到合成图片的特征，与实际图片会有差别。
所以本文使用了一个S+U(Simulated+Unsupervised)方法来将合成图片变得更真实。
方法概要如下图

image.png

本文贡献：
1、提出S+U学习来用未标记的真实数据修正合成图像
2、用了对抗损失和自正则化损失来帮助修正网络改善合成图片
3、对GAN进行了几处修改来稳定训练过程以及防止修正网络生成人工痕迹
4、通过大量有效实验验证了方法，取得了很好的结果

Related Work

基本都是GAN相关文章

S+U Learning with SimGAN

S+U学习的目的是用一系列未经标注的真实数据 $y_i\in y$ 来学习一个修正器 $R_\theta(x)$ ，以此修正合成图片x，其中 $\theta$ 是函数参数。设修正后的图片为 $\widetilde{x}$ ，那么 $\widetilde{x}:=R_\theta(x)$ 。为了学习 $\theta$ ，本文提出了以下损失公式：

$L_R(\theta)=\sum\limits_{i} l_{real}(\theta;x_i,y)+\lambda l_{reg}(\theta;x_i)$

其中 $x_i$ 是第i个合成训练图像。损失函数的第一部分 $l_{real}$ 将现实因素加入合成图像，而第二部分 $l_{reg}$ 保留了标注信息。

Adversarial Loss with Self-Regularization

为了使合成图片变得真实，一个理想的修正器需要对抗鉴别器 $D_\Phi$ 来辨别真实图片和修正过的图片，其中 $\Phi$ 是鉴别器的参数。鉴别器通过最小化以下损失来更新参数。
$L_D(\Phi)=-\sum\limits_i log(D_\Phi(\widetilde{x}_i))-\sum\limits_j log(1-D_\Phi(y_j))$
本文将 $D_\Phi$ 的输出当作输入图片是合成的还是真实图片的概率。输入是随机采样的，且通过SGD进行收敛。在本文的实现中，现实损失函数 $l_{real}$ 的公式如下：
$l_{real}(\theta;x_i,y)=-log(1-D_\Phi(R_\theta(x_i)))$
通过对损失函数的最小化，就能渐渐让鉴别器区分不出真实和修正图片。
为了生成真实图片，修正网络要保留模拟器中的标注信息。比如，视线估计中，转换不能修改视线方向；在手势估计中，关节的位置不能改变。这是确保修正后的图片还能使用模拟器的标注的核心要素。
为了达到这个目标，本文提出了通过使用自正则化损失来最小化合成与修正图片的特征迁移中单个像素的差距。
$l_{reg}=\|\Psi(\widetilde{x})-x\|_1$
其中 $\Psi$ 是从图片空间到特征空间的映射， $\|.\|_1$ 是L1正则。特征迁移可以是恒等映射，比如
$\Psi(x)=x$ ，或者通道平均，或者卷积神经网络。在本文中用的是恒等映射。所以完整的损失函数如下：
$L_R(\theta)=-\sum\limits_i log(1-D_\Phi(R_\theta(x_i)))+\lambda\|\Psi(R_\theta(x_i))-\Psi(x_i)\|_1$

本文使用不带步幅和池化的全卷积神经网络，这样就能在保持保持图片全局结构和标注不变的情况下进行像素级的修改。本文通过最小化 $L_R(\theta)$ 和 $L_D(\Phi)$ 来训练修正器和鉴别器，当更新 $R_\theta$ 的参数时，固定 $\Phi$ 的值，反之亦然。整个训练过程如算法1所示

image.png

Local Adversarial Loss

另一个修正器的关键要求是它应当在不引入任何人为因素的情况下对真实图片建模。当在训练一个单独的鉴别器网络时，修正器往往过分强调一些图片特征来欺骗鉴别器，导致引入了漂移和人工因素。一个关键点是任何修正过的图片中的局域斑点和真实图片中的斑点应当有相似的统计信息。本文中将鉴别器设计成输出为w*h维概率图的全卷积网络。w*h是图片中局部斑点的数量。当训练修正器时，对所有概率图中的块算交叉熵损失函数。如图3所示

image.png

Updating Discriminator using a History of Refined Images

另一个问题是鉴别器的训练过程仅仅针对最近的修正图片。这就会导致
1、对抗训练的分歧
2、修正器再度引入了鉴别器忘记的人为因素
为了增加鉴别器的稳定性，本文会使用历史的修正图片，而不是仅仅在当前批次中的。所以设置了一个大小为B的缓冲区保存之前的训练图片。在鉴别器的每次训练中，当前批次的b张图取一半，另外在缓冲区中取b/2张。缓冲区的大小是不变的，在每次训练之后，随机将当前训练批次中的一半替换缓冲区中的图。整个过程如下图所示

image.png

Experiment

使用MPIIGaze数据集，

Qualitative Results

如图5所示，学会了纹理和虹膜

image.png

Self-regularization in Feature Space

如果将恒等映射换成RGB通道平均，那么还能学到真实的颜色，如图6所示

image.png

‘Visual Turing Test’

找人来看，表示区分不出，结果表1所示

image.png

Quantitative Results

用合成图片及修正图片来训练视觉定向CNN，确实结果有差距，有22.3%的增长。如果使用更多图片，比如全部的训练集，那么还会有更大的增长。数据如表2所示

image.png

在修正图片上训练的CNN在MPIIGaze数据集上相比其他模型有21%的提升，如表3所示

image.png

Preserving Ground Truth

对合成图片的修正没有到改变标注信息的程度

Implementation Details

主要介绍了网络的构造

Hand Pose Estimation from Depth Images

另一个测试数据集

Ablation Study

本文表示使用历史数据和使用局部对抗损失来修正图片会更真实
如下图所示

image.png

Conclusions and Future Work

未来准备对噪声分布建模来针对同个合成图片生成几张修正图片。也会把目光放在视频的修正上。

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 204,293评论 6赞 478
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 85,604评论 2赞 381
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 150,958评论 0赞 337
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,729评论 1赞 277
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,719评论 5赞 366
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,630评论 1赞 281
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 38,000评论 3赞 397
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,665评论 0赞 258
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 40,909评论 1赞 299
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,646评论 2赞 321
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,726评论 1赞 330
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,400评论 4赞 321
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 38,986评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,959评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,197评论 1赞 260
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 44,996评论 2赞 349
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,481评论 2赞 342

Learning from Simulated and Unsupervised Images through Adversarial Training 简介

Abstract

Introduction

Related Work

S+U Learning with SimGAN

Adversarial Loss with Self-Regularization

Local Adversarial Loss

Updating Discriminator using a History of Refined Images

Experiment

Qualitative Results

Self-regularization in Feature Space

‘Visual Turing Test’

Quantitative Results

Preserving Ground Truth

Implementation Details

Hand Pose Estimation from Depth Images

Ablation Study

Conclusions and Future Work

推荐阅读更多精彩内容