CVPR 2019 | 微软文字转图像技术又进化，提出两种 GAN 的升级模型

文章发布于公号【数智物语】（ID：decision_engine），关注公号不错过每一篇干货。

来源 | AI科技评论

能显著提高生成图像的质量~

编者按：目前基于描述的绘图机器人在图像生成质量以及包含多个目标和丰富关系的更复杂场景中生成图像仍然存在较大挑战。来自微软人工智能研究院、JD 人工智能研究院及纽约州立大学奥尔巴尼分校的众多相关学者正在开发一项新的人工智能技术，相关机器人可以从类似于说明的日常场景描述文本中生成图像，其显著提高了生成图像的质量，相关成果发表在微软官网博客上。

如果你被要求画这样一张图片——几个穿着滑雪服的人站在雪地里，你很可能会先在画布中间合理位置画出三四个人的轮廓，然后继续画他们脚下的滑雪板。虽然没有具体说明，但你可能会决定给每个滑雪者都增加一个背包，以配合他们预期的运动。最后，你会仔细地填充细节，也许把他们的衣服涂成蓝色，围巾涂成粉色，把所有的背景都涂成白色，让这些人看起来更真实，并确保他们周围的环境符合描述。最后，为了使场景更加生动，你甚至可以用一些棕色的石头与白雪对比突出表示这些滑雪者在山里。

现在有一个机器人可以做到这一切。

微软研究院正在开发的新的人工智能技术可以理解自然语言描述，绘制图像布局草图，合成图像，然后根据提供的布局和单个词汇细化细节。换句话说，这个机器人可以从类似于说明的日常场景描述文本中生成图像。根据于加利福利亚州长滩市举行的 CVPR 2019 上发表的文章「Object-driven Text-to-Image Synthesis via Adversarial Training」所述，标准测试结果表明，相对于前一代最先进的复杂日常场景文本转图像技术，上述机器人有成熟的机制，可显著提高生成图像的质量。该论文是微软人工智能研究院 Pengchuan Zhang、 Qiuyuan Huang、 Jianfeng Gao，微软的 Lei Zhang，JD 人工智能研究院的 Xiaodong He，以及纽约州立大学奥尔巴尼分校 Wenbo Li、Siwei Lyu（Wenbo Li 曾在微软人工智能研究院实习）合作的成果。

基于描述的绘图机器人面临两个主要挑战。第一个挑战是在日常场景中会出现很多种类的物体，机器人应该能理解所有种类的物体并将其画出来。前述文本转图像生成方法使用图像—说明对，这些方法仅为生成单个目标提供非常粗粒度的监督信号，限制了它们对物体的图像生成质量。在这项新技术中，研究人员使用了 COCO 数据集，该数据集包含 80 个常见目标分类里面 150 万个目标实例的标签和分割图，使得机器人能够学习这些目标的概念和外观。这种用于目标生成的细粒度监督信号显著提高了这些常见目标类型的生成质量。

第二个挑战是理解和生成一个场景中多个目标之间的关系。在几个特定领域，例如人脸、鸟类和常见目标，在生成只包含一个主要目标的图像方面已经取得了巨大的成功。然而，在文本转图像的生成技术中，在包含多个目标和丰富关系的更复杂场景中生成图像仍然是一个重大的挑战。这个新的绘图机器人从 COCO 数据集共现模式中学会了生成目标的布局，然后根据预先生成的布局生成图像。

目标驱动的专注图像生成

微软人工智能研究院的绘图机器人核心是一种被称为生成式对抗网络（ GAN）的技术。GAN 由两个机器学习模型组成：一个是根据文本描述生成图像的生成器，另一个是根据文本描述判断生成图像可靠性的鉴别器。生成器试图让假照片通过鉴别器，而鉴别器不希望被愚弄。两者共同工作，鉴别器推动生成器趋向完美。

绘图机器人在一个包含 10 万幅图像的数据集上进行训练，每个图像都有突出的目标标签和分割图，以及五个不同的标题，允许模型构思单个目标和目标之间的语义关系。例如，GAN 在比较有狗和没有狗的描述的图像时，学习狗应该是什么样子。

GANs 在生成只包含一个突出目标，例如人脸、鸟类或狗的图像时表现很好，但是在生成更复杂的日常场景时，图像生成的质量就会停滞不前，比如描述为「一个戴头盔的女人正在骑马」的场景（参见图 1）。这是因为这类场景包含了多个目标（女人、头盔、马），这些目标之间有着丰富的语义关系（女人戴头盔、女人骑马）。机器人首先必须理解这些概念，并将它们放在具有意义的布局的图像中。然后，需要一个更强的监督信号来教 GANs 进行目标生成和布局生成，从而完成语言理解与图像生成任务。

图 1：具有多个目标和关系的复杂场景

当人类绘制这些复杂的场景时，我们首先决定绘制的主要目标，并通过在画布上为这些目标设置边框来进行布局。然后，通过反复检查该目标相应的描述来实现对每个目标的聚焦。为了捕捉人类的上述特点，研究人员创造了一种被他们称为目标驱动的专注 GAN，或 ObjGAN，来对人类以目标为注意力中心的行为进行数学建模。ObjGAN 通过将输入文本分解成单独的单词并将这些单词与图像中的特定目标进行匹配，从而实现上述人类的特点。

人类通常会从两个方面来改进绘图：单个目标的真实感和图像补丁的质量。ObjGAN 通过引入两个鉴别器来模拟这种行为---智能目标鉴别器和智能补丁鉴别器。智能目标鉴别器试图确定生成的目标是否真实，以及该目标是否与语句描述一致。智能补丁鉴别器试图判断这个补丁是否真实，以及这个补丁是否与语句描述一致。

相关工作：故事可视化

最先进的文本转图像模型能够基于单一语句描述生成真实的鸟类图像。然而，文本转图像生成技术可以远远不止基于单一语句合成单一图像。由微软研究院 Jianfeng Gao，微软动态 365 人工智能研究员 Zhe Gan、Jingjing Liu 和 Yu Cheng，杜克大学 Yitong Li、David Carlson 和 Lawrence Carin，腾讯人工智能研究院 Yelong Shen，以及卡耐基梅隆大学 Yuexin Wu 所著的论文「StoryGAN: A Sequential Conditional GAN for Story Visualization」中更进一步的提出了一个称之为故事可视化的新任务。给定一个多语句段落，该段落构成的完整故事可以被可视化，即生成一系列的图像，且每个语句对应一个图像。这是一个具有挑战性的任务，因为绘图机器人不仅需要想象一个适合故事的场景，为故事中出现的不同角色之间的交互建模，而且还必须能够在动态场景和角色之间保持全局一致性。这一挑战还没有任何单一图像或视频生成方法能够解决。

研究人员提出了一种基于序列条件 GAN 框架新的故事-图像-序列生成模型，称之为 StoryGAN。该模型的独特之处在于，它由一个可以动态跟踪故事流的深层上下文编码器和两个故事与图像层级的鉴别器组成，从而增强图像质量和生成序列的一致性。StoryGAN 还可以自然地扩展为交互式图像编辑，其可以根据文本指令按顺序编辑输入的图像。在这种情况下，一系列用户指令将作为「故事」输入。因此，研究人员修改了现有的数据集，创建了 CLEVR-SV 和 Pororo-SV 数据集，如图 2 所示。

图 2：简单图像生成 VS 故事可视化

实际应用 —— 一个真实的故事

在实际应用中，文本转图像生成技术可以作为画家和室内设计师的素描助手，也可以作为声控照片编辑工具。随着计算能力的提高，研究人员设想了一种基于剧本生成动画电影的技术，能使动画制作者的工作产量变大，同时省去一些手工劳动。

目前，生成的图像与照片的真实感相差甚远。生成的图像中单个物体几乎都会暴露出缺陷，比如模糊的人脸或变形的公交车。这些缺陷清楚地表明，该图像是电脑生成而非人类创造。尽管如此，ObjGAN 图像的质量明显好于以前同类中最好的 GAN 图像，并且在通往通用人工智能的道路上起到了里程碑作用。

人工智能和人类要共享同一个世界，就必须要有一种与他人互动的方式。语言和视觉是人类和机器相互作用最重要的两种方式。文本转图像生成技术是语言视觉多模态智能研究的重要内容之一。

ObjGAN 和 StoryGAN 的开源代码请在 GitHub 上查看。

via：Microsoft blog

ObjGAN：https://arxiv.org/pdf/1902.10740.pdf

StoryGAN：https://arxiv.org/abs/1812.02784

AI 科技评论编译整理。

星标我，每天多一点智慧

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 204,684评论 6赞 478
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 87,143评论 2赞 381
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 151,214评论 0赞 337
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,788评论 1赞 277
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,796评论 5赞 368
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,665评论 1赞 281
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 38,027评论 3赞 399
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,679评论 0赞 258
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 41,346评论 1赞 299
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,664评论 2赞 321
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,766评论 1赞 331
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,412评论 4赞 321
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 39,015评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,974评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,203评论 1赞 260
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 45,073评论 2赞 350
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,501评论 2赞 343

CVPR 2019 | 微软文字转图像技术又进化，提出两种 GAN 的升级模型

推荐阅读更多精彩内容