提升合成图像的真实性

很多的模型的训练都是基于监督训练,然而,为了保证高准确度,训练集必须数量巨大,多样而且是具有清楚地标签,这些的消耗是非常巨大的。针对此种问题,一种有效的解决方案是通过模拟器中合成的图像的方式来给大量的数据来添加标签,这种方法几乎没有什么消耗,但是合成的图像会不够真实,导致在真实的图像上也推论出一个错误的结果,这种方案的解决方式是提炼合成的图像使他们变得更加真实。

概览

直接在合成图像上训练神经网络模型可能会导致问题,因为合成图像是不够真实的,模型只在合成图像上学习细节,移到真实的图像上进行识别就可能会出现问题。这种真实性的缺失可能导致模型对合成图像上的一些“不真实的”细节进行过拟合。通过一种提取算法,可以将合成图像变得更加真实。

合成图像通过提取器将合成图像变得更加真实,同时保护的图像的注释信息

为了训练一个提取神经网络,需要一些真正的图像。需要确定真实图像和合成图像上的像素级别的相似之处,或者是使用真实的带有注释的图像,比如眼神在凝视时的信息。这可以被认为是一个容易的问题,但是与之相关的数据却是非常难收集的。为了去创建像素级别相似度,要么是渲染一张合成图像来和真实图像进行对比,要么是采集一张和渲染的合成图像匹配的真实图像,能不能既不用学习相似度又不用任何图像标签?如果不用的话,只需要生成一串合成图像,采集真正的眼部图像,不需要给任何真实图像添加标签,学习这样的图谱可以使训练的成本降到最低。

为了无监督的训练提取神经网络,需要利用一个辨别神经网络来将真实图像和合成的图像进行分类,提取网络会使辨别网络混淆,让它误以为合成图像就是真实图像。两个网络的训练是交替进行的,训练直到辨别神经网络无法将真假图像分别出来为止,这个辨别网络类似于生成式对抗网络(GAN)【1】。最终的目标是训练一个提取网络,更像是一个生成器,将一个合成图像映射成为一个真实的图像。

算法总览

如何保护注释信息

为了生成趋近真实的图像,提取网络必须保存来自模拟器的注释信息。这个限制是利用模拟器的注释信息来提取图像的必不可少的因素。为了保护合成图像的注释信息,我们利用生成式对抗的损失和将合成图像变成真实图像中产生的自正则化L1范数损失进行互补。

在本地进行改变

本地对抗损失。辨别网络输出一个宽*高的带有可能性信息的映像。总的对抗损失函数是是各个本地对抗损失的和

利用生成历史来提升辨别网络的识别效果

前面说过,提取网络的目标是用来欺骗识别网络的,提取网络生成一个新的图像,在训练到识别网络能识别出这张新图像之前,欺骗都是有效果的。提取网络欺骗识别网络的有效的方式朝着我们的目标的方向进行生成。

两种方式。简单的一种是生成一个新的输出,然后利用这个输出来观察识别网络和辨别网络进行对抗。另一种方式利用生成过的图像在此基础上再进一步生成,然后交给识别网络去辨别。如下图,两种识别速度一目了然。

训练过程

首先,只对提取网络进行自正则化损失训练,然后引入识别网络,产生模糊的输入合成图像。起初,它输出一个模糊的图像,随着训练的进行变得越来越逼真。将辨别网络和生成器的损失带入再进行不同的迭代训练。请注意,辨别网络的损耗在开始时是低的,这意味着它可以很容易地分辨出真正的和精细的区别。慢慢地,随着训练过程的增加,辨别网络的损失增加,生成器损失减小,从而产生更加真实图像。

越来越真实

【1】说到GAN第一篇要看的paper当然是Ian Goodfellow大牛的Generative Adversarial Networks,这篇paper算是这个领域的开山之作。

GAN的基本原理其实非常简单,这里以生成图片为例进行说明。假设我们有两个网络,G(Generator)和D(Discriminator)。正如它的名字所暗示的那样,它们的功能分别是:

G是一个生成图片的网络,它接收一个随机的噪声z,通过这个噪声生成图片,记做G(z)。

D是一个判别网络,判别一张图片是不是“真实的”。它的输入参数是x,x代表一张图片,输出D(x)代表x为真实图片的概率,如果为1,就代表100%是真实的图片,而输出为0,就代表不可能是真实的图片。

在训练过程中,生成网络G的目标就是尽量生成真实的图片去欺骗判别网络D。而D的目标就是尽量把G生成的图片和真实的图片分别开来。这样,G和D构成了一个动态的“博弈过程”。

最后博弈的结果是什么?在最理想的状态下,G可以生成足以“以假乱真”的图片G(z)。对于D来说,它难以判定G生成的图片究竟是不是真实的,因此D(G(z)) = 0.5。

这样我们的目的就达成了:我们得到了一个生成式的模型G,它可以用来生成图片。

以上只是大致说了一下GAN的核心原理,如何用数学语言描述呢?这里直接摘录论文里的公式:

简单分析一下这个公式:

整个式子由两项构成。x表示真实图片,z表示输入G网络的噪声,而G(z)表示G网络生成的图片。

D(x)表示D网络判断真实图片是否真实的概率(因为x就是真实的,所以对于D来说,这个值越接近1越好)。而D(G(z))是D网络判断G生成的图片的是否真实的概率。

G的目的:上面提到过,D(G(z))是D网络判断G生成的图片是否真实的概率,G应该希望自己生成的图片“越接近真实越好”。也就是说,G希望D(G(z))尽可能得大,这时V(D, G)会变小。因此我们看到式子的最前面的记号是min_G。

D的目的:D的能力越强,D(x)应该越大,D(G(x))应该越小。这时V(D,G)会变大。因此式子对于D来说是求最大(max_D)

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 206,723评论 6 481
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 88,485评论 2 382
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 152,998评论 0 344
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 55,323评论 1 279
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 64,355评论 5 374
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,079评论 1 285
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,389评论 3 400
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,019评论 0 259
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 43,519评论 1 300
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,971评论 2 325
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,100评论 1 333
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,738评论 4 324
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,293评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,289评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,517评论 1 262
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,547评论 2 354
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,834评论 2 345

推荐阅读更多精彩内容