[读] Wide-Context Semantic Image Extrapolation

本文任务：Image Extrapolation 图像外推

研究发现：提出的semantic regeneration network语义再生网络和多种空间相关的损失函数可以解决size expansion尺寸扩张和one-side constraints单边约束问题。

论文贡献：提出深度生成模型Semantic Regeneration Network(SRN)；提出实用的上下文归一化(CN)模块和相对空间变体损失(RSV)；方法可用于多种应用。

Abstract

用可能的结构(structure)和细节(detail)外推视觉上下文(visual context)和图像边界(image borders)，存在两个主要问题，即尺寸扩展size expansion和单边约束one-side constraints。

本文提出具有特殊贡献的语义再生网络(semantic regeneration network)和多种空间相关(spatial related)的损失，结果包含一致的结构和高质量的纹理。

Introduction

人类与生俱来能够基于有限的视觉内容(limited visual content)感知看不见的周围环境(unseen surroundings)。本文专注于推断图像边界外看不见的内容，生成语义上有意义semantically meaningful且一致的结构和纹理consistent structure and texture。

目前现有的方法应用于内容生成时存在各自局限性(respective limitations)，基于外部图像(External-image-based)的算法需要大量或结构非常相似的参考图像，而基于内部像素/补丁(internal pixels/patches-based)的方法通常会产生明显相似或重复的图案(similar or repeated patterns)。

本文方法可以从一小部分人脸生成带有头发和背景的完整肖像(full portrait)，可以预测未知像素数量是已知像素的3倍。但是应用于这个上下文生成任务，仍需要考虑图像尺寸改变(Image Size Change)和单边约束(One-sided Constraints)问题。

Method

3.1 Feature Expansion
Semantic Regeneration Network(SRN)可以生成超出图像边界的任意大小的语义结构，而无需训练多个模型。它直接从小尺寸输入中学习语义特征，通过避免常见填充和上采样过程中的偏差。

SRN包含特征扩展网络Feature Expansion Network (FEN)和上下文预测网络Context Prediction Network (CPN)的两部分。 FEN将小尺寸图像作为输入并提取特征。这样的特征和外推指示符被馈送到CPN以重建最终的扩展结果。随着特征提取和图像重建的分离，我们网络的学习和推理变得适当而高效。

此外，设计的损失和其他处理模块使我们的网络适应单边约束，从而生成语义上有意义的结构和自然纹理。

Feature Expansion类似encoder-decoder结构，
$s(F)_{i,j,k}=F_{\lfloor i/r1 \rfloor,\lfloor j/r2 \rfloor,c\prime r_2 \cdot \mod(i,r_1),c\prime \cdot \mod(j,r_2)}$
与原始的子像素卷积(sub-pixel convolution)相比，提出的变体放宽了 $r_1 = r_2$ 的约束，能够解决 $r_1 \neq r_2$ 场景。

特征扩展网络（FEN）用于学习潜在的上下文特征。实验结果表明，早期批处理中填充的像素可以作为后期生成的先验。直接以可用像素为条件的计算在保真度和视觉自然度方面都可以产生更好的性能[33、40、26]。因此，我们的模型无需预先定义就可以直接推断给定的视觉数据。

3.2 Context Prediction
Context Prediction Network(CPN)上下文预测网络也使用类似编码器/解码器的网络。输入是f(X)和填充指示符（即二值掩码）的串联，其中0表示已知像素，1表示未知像素，用M表示。输出是大小为r1h×r2w×c的 $\hat{Y}$ 。开发了上下文归一化模块(context normalization module)以协调填充区域与已知区域之间的特征分布。

上下文预测网络(CPN)背后的基本原理是双重的，而不是从粗到精框架中通常使用的简单优化阶段。首先，它包含填充余量(FEN中未包括)以指示预测的位置。其次，除了填充余量，网络输入还包括FEN学习的上下文特征，而不是粗略的预测。这些功能可以通过编码器-解码器和我们设计的上下文归一化模块通过压缩正确处理。

最近的研究表明图像风格是以图像特征统计量为特征的。为提高生成图像的风格一致性，本文受instance normalization和AdaIN启发，提出了一个上下文归一化Context Prediction(CN)模块。本质上，它将均值和方差从已知特征转移到未知区域，这使生成的内容超出了一侧的限制，并增强了输入区域和预测区域之间的颜色/纹理一致性。
$t(f(X),\rho)=[\rho \cdot n(f(X_{\Omega},X_{\bar{\Omega}})+(1-\rho)f(X_{\Omega})]\odot M\downarrow + f(X_{\bar{\Omega}})\odot(1-M\downarrow)$
$n(x_1,x_2)=\frac{x_1-\mu(x_1)}{\sigma(x_1)}\cdot \sigma(x_2)+\mu(x_2)$
在CN中并入了融合(blend)步骤。由于对于面部和身体等语义敏感目标，来自已知和未知区域的特征统计信息可能会有所不同，因此融合对于本文方法至关重要。

3.3 损失设计
优化目标包括重构损失reconstruction loss、纹理一致性损失texture consistency loss和对抗损失adversarial loss。

相对空间变体损失Relative Spatial Variant Loss(RSV)
$M_{\omega}=M_{\omega}^{c-1}/\max(M_{\omega}^c,\epsilon)$

重建损失Reconstruction Loss
$\mathcal{L}_s=||(Y-G(X,m;\theta))\odot M_{\omega}||_1$

隐式多元化MRF损失Implicit Diversified MRF Loss
$\mathcal{L}_M(L)=-\log(\frac{1}{Z}\sum_{s\in Y^L}\max_{v\in\hat{Y}}\bar{RS}(v,s))$
在实验中计算的是 $G(X,m; \theta)$ 和Y在预训练VGG19的conv3_2和conv4_2的 $\mathcal{L}_{mrf}$ 之和。

与其他损失，例如style loss及其变体，侧重于纹理或风格的恢复相比，ID-MRF loss通过参考真值中它们最相似的patch来增强局部图像细节。

上下文对抗损失Contextual Adversarial Loss
$D_{context}(\hat{Y})=\frac{\sum_{p\in P(\hat{Y})P}}{\sum_{q\in M\downarrow}q}$
$\mathcal{L}_{adv}^{n}=-E_{x\sim P_x}[D_n(G(X;\theta))]+ \lambda_{gp}E_{\hat{X}\sim P_{\hat{x}}}[(||\triangledown_{\hat{x}}D_n(\hat{x})\odot M_{\omega}||_2-1)^2]$
$\mathcal{L}_{adv}=(\mathcal{L}_{adv}^{context}+\mathcal{L}_{adv}^{global})/2$

总的损失函数
$\mathcal{L}=\lambda_s \mathcal{L}_s + \lambda_{mrf} \mathcal{L}_{mrf} + \lambda_{adv} \mathcal{L}_{adv}$

Experiments

三种实验设置：
CelebA-HQ/ETHZ/CUB200 128×128->256×256
Paris StreetView/Places2/Cityscapes 256×256->256×512
Deepfashion 64×128->256×128

评价指标：
PSNR/SSIM/blind user study
每个问卷包括40个成对比较，涉及两种基于相同输入的不同方法的结果。有40位参与者被邀请参加用户研究。他们需要在每对中选择更逼真的图像。图像均以相同的分辨率（256×128、256×256或256×512）显示。比较是通过不同方法以及左右顺序随机进行的。参与者有无限的时间来决定。在表2给出的所有条件下，本文方法均优于对比方法。

本文方法可以从有限视角的输入中推断出具有精细的细节。与基准CA相比，本文方法在语义结构、纹理和边界一致性方面表现更好。此外，由于模型的填充余量是任意的，因此SRN可以从不同位置推断视觉上下文。

SRN-HR是SRN变体，将FE替换为普通卷积。图8显示了给定架构之间的比较。说明SRN和SRN- HR比CA和ED在创建更自然的头发和脸型和更少的视觉假象方面提供了更好的预测，这验证了SRN设计的有效性。与SRN- HR相比，SRN产生的头发纹理更真实，推理时间更短。

在亚像素级sub-pixel level上使用SRN的结果比使用deconv和展开unfold的结果具有更好的视觉效果。图9展示了面部结构和纹理的细节。

CN在数量和质量上改善了SRN。在图10中，CN在训练前和训练完成阶段协调了颜色和边框的一致性。

与仅具有对抗性的损失相比，具有上下文对抗性损失的SRN可以预测更清晰的头发细节。

与常见的l1损失(l1 loss)相比，具有相对空间变体损失的SRN预训练(relative spatial variant loss)具有可比的保真度。但是，它产生的语义边界（图12中的发际线和面部形状）比
置信驱动的损失(confidence-driven )和常见的l1损失(l1 loss)。

Conclusion

除了对图片进行内容外推，SRN还发现了纹理合成和变形的应用。关于局限性，现在每个训练过的模型都有特定的扩展比率(例如，一个基于输入预测三倍以上像素的模型只会在相同的设置下产生结果)。此外，像Places2这样拥有上千种场景类型的庞大数据集，生成模型很难与之匹配。随着GAN模型研究的新突破，这一问题可能得到缓解。

本文探索了一种深度学习模型来对语义敏感对象进行图像外推。总结说，挑战在于尺寸扩展和单边限制，并通过提出新的网络模块和损失函数设计来解决这些问题。本文方法达到了不错的语义扩展效果。

最后编辑于：2020.12.10 22:41:15

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 204,732评论 6赞 478
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 87,496评论 2赞 381
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 151,264评论 0赞 338
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,807评论 1赞 277
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,806评论 5赞 368
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,675评论 1赞 281
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 38,029评论 3赞 399
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,683评论 0赞 258
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 41,704评论 1赞 299
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,666评论 2赞 321
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,773评论 1赞 332
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,413评论 4赞 321
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 39,016评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,978评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,204评论 1赞 260
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 45,083评论 2赞 350
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,503评论 2赞 343

[读] Wide-Context Semantic Image Extrapolation

推荐阅读更多精彩内容