结构在单图像超分辨率(SISR)中很重要。受益于生成对抗网络(GAN)的最新研究通过恢复照片级逼真的图像促进了SISR的发展。但是,在恢复的图像中总是存在不希望的结构变形。在本文中,我们提出了一种保留结构的超分辨率方法,以缓解上述问题,同时保留基于GAN的方法的优点,以产生令人愉悦的细节。具体来说,我们利用图像的梯度图从两个方面指导恢复。一方面,我们通过梯度分支还原高分辨率梯度图,从而为SR过程提供了其他结构先验。另一方面,我们提出了一种梯度损失,该梯度损失对超分辨图像施加了二阶限制。与以前的图像空间损失函数一起,梯度空间物镜有助于生成网络将更多的精力集中在几何结构上。而且,我们的方法与模型无关,可以潜在地用于现成的SR网络。实验结果表明,与最先进的感知驱动SR方法相比,我们可以获得最佳的PI和LPIPS性能,同时具有可比的PSNR和SSIM。视觉结果证明了我们在生成自然SR图像时恢复结构的优越性。
1.简介
单图像超分辨率(SISR)旨在从低分辨率(LR)副本中恢复高分辨率(HR)图像。 SISR是计算机视觉社区中的一个基本问题,可以应用于许多图像分析任务,包括监视和卫星图像。这是一个广为人知的不适问题,因为每个LR输入可能具有多个HR解决方案。随着深度学习的发展,已经提出了许多SR方法[8,35]。它们中的大多数通过均方误差(MSE)进行了优化,该均方根测量SR图像和HR图像之间的像素方向距离。然而,这样的优化目标促使深度模型产生图像,该图像可能是针对一对多问题的可能HR解决方案的统计平均值。结果,这些方法通常会生成具有高峰值信噪比(PSNR)的模糊图像。
因此,最近有几种旨在恢复照片级逼真的图像的方法已利用生成对抗网络(GAN)[15],例如SRGAN [27],EnhancedNet [34],ESRGAN [42]和NatSR [37]。虽然基于GAN的方法可以生成高保真度的SR结果,但始终会出现几何失真以及尖锐的边缘和精细的纹理。图1给出了一些SR示例。我们可以看到RCAN [51]恢复了砖的模糊但笔直的边缘,而通过感知驱动的方法恢复的边缘更锐利但扭曲了。实际上,基于GAN的方法通常会遭受结构不一致的问题,因为区分因素可能会在优化过程中引入不稳定因素。已经提出了一些方法来平衡两种SR方法的优点之间的权衡。例如,可控特征空间网络(CFSNet)[40]设计了一个交互式框架,以在感知质量和减少失真的两个目标之间连续转换。但是,由于无法同时实现两个目标,因此无法解决内在问题。因此,有必要明确地指导感知驱动的SR方法,以保留结构以进一步增强SR性能。
在本文中,我们提出了一种保留结构的超分辨率方法来缓解上述问题。由于梯度图揭示了图像中每个局部区域的清晰度,因此我们利用此功能强大的工具来指导图像恢复。一方面,我们设计了一个梯度分支,将LR图像的梯度图转换为HR图像的梯度图,作为辅助SR问题。可以将恢复的梯度整合到SR分支中,以提供SR之前的结构。此外,渐变可以突出显示应更加关注锐度和结构的区域,以便明确地指导高质量的生成。这种想法是由以下观察激发的:一旦以高保真度恢复了边缘,就可以将SR任务视为具有LR图像所提供的强大线索的色彩填充问题。另一方面,我们提出了一个梯度损失,以明确地监督所记录图像的梯度图。与现有方法中的图像空间损失函数一起,梯度损失限制了相邻像素的二阶关系。因此,在这种引导下可以更好地保留结构构造,并且可以获得具有高感知质量和较少几何变形的SR结果。而且,我们的方法与模型无关,可以潜在地用于现成的SR网络。据我们所知,我们是第一个明确考虑在基于GAN的SR方法中保留几何结构的人。在基准数据集上的实验结果表明,我们的方法通过减少结构变形成功地增强了SR保真度。
2.相关工作
在这里,我们回顾一下SISR方法[7、10、12、13、14、19、22、25、38、44、46、47],它们可以分为两类:面向PSNR的方法和基于感知驱动的方法。我们还研究了与梯度有关的方法。
面向PSNR的方法:大多数以前的方法都针对高PSNR。作为先驱,Dong等。 [8]提出了SRCNN,它首先通过三层CNN将LR图像映射到HR图像。 Kim等人进一步提出了DRCN [24]和VDSR [23]。改善SR性能。此外,Ledig等人。 [27]通过采用ResNet [17]的想法提出SRResNet。张等。 [52]通过利用SR框架中的剩余密集块来提出RDN。他们进一步介绍了RCAN [51],并在PSNR上实现了卓越的性能。 Li等。 [28]提出了一个反馈框架,逐步完善超分辨结果。
感知驱动方法:上面提到的方法都集中在实现高PSNR上,因此将MSE损耗或L1损耗用作损耗函数。但是,这些方法通常会产生模糊的图像。约翰逊等。 [20]提出感知损失以改善恢复图像的视觉质量。 Ledig等。 [27]利用对抗性损失[15]来构建SRGAN,这成为了第一个能够生成照片级的HR图像的框架。此外,Sajjadi等人。 [34]通过纹理损失恢复高保真纹理。 Wang等。 [42]通过在拟议的ESRGAN中引入残差密集块(RRDB)来增强以前的框架。 Wang等。 [41]利用语义分割图作为先验来为特定类别生成更多的自然纹理。 Rad等。 [32]基于对象,背景和边界的标签提出了有针对性的感知损失。尽管这些现有的感知驱动方法确实改善了超分辨图像的整体视觉质量,但是在恢复细节时,它们有时会生成不自然的伪像,包括几何失真。
梯度相关方法:梯度信息已在以前的工作中使用[2,29]。对于SR方法,Fattal [11]通过学习不同分辨率的先验依赖性,提出了一种基于图像梯度边缘统计的方法。 Sun等。 [39]提出了代表图像梯度之前的梯度分布图和梯度场变换,以增强超分辨图像的清晰度。严等。 [45]提出了一种基于梯度轮廓锐度的SR方法,该方法是从梯度描述模型中提取的。在这些方法中,根据在LR图像中观察到的参数,通过估计与HR边缘相关的参数来建模统计依存关系。但是,建模过程是逐点完成的,既复杂又不灵活。实际上,深度学习在处理像素分布上的概率转换方面非常出色。但是,很少有方法在与梯度相关的SR方法中利用其强大的功能。此外,朱等。 [53]提出了一种基于梯度的SR方法,该方法通过收集梯度模式的字典并对可变形的梯度组成进行建模。杨等。 [48]提出了一种递归残差网络,以重建由边缘引导的精细细节,这些边缘由现成的边缘检测器提取。尽管在某些方法中利用了边缘重构和梯度场约束,但其目的主要是为面向PSNR的SR方法恢复高频分量。与这些方法不同,我们旨在减少基于GAN的方法所产生的几何变形,并利用梯度图作为SR的结构指导。对于深度对抗网络,梯度空间约束可能会提供其他监督,以实现更好的图像重建。据我们所知,还没有基于GAN的SR方法利用梯度空间指导来保留纹理结构。在这项工作中,我们旨在利用梯度信息进一步改善基于GAN的SR方法。
3.方法
在本节中,我们首先介绍整个框架。然后,我们相应地介绍了梯度分支,注意力融合模块和最终目标函数的详细信息。
3.1。总览
在SISR中,我们的目标是将LR图像ILR作为输入,并在其HR对应物IHR作为地面真相的情况下生成SR图像ISR。我们将生成器表示为G,将其参数表示为θG,然后将ISR = G(ILR;θG)。 ISR应该与I H R尽可能相似。如果通过损耗函数L优化了参数,则我们具有以下公式:
θG∗ = arg min EISR L(G(ILR;θG),IHR)。 (1)θG
整个框架如图2所示。生成器由两个分支组成,其中一个是保留结构的SR分支,另一个是梯度分支。 SR分支将ILR作为输入,并旨在根据SR梯度图从梯度分支提供的指导来恢复SR输出ISR。
3.2。建筑细节
3.2.1梯度分支
梯度分支的目标是估计梯度图从LR模式到HR模式的转换。通过计算相邻像素之间的差异获得图像I的梯度图:
Ix(x)= I(x + 1,y)-I(x-1,y),
Iy(x)= I(x,y + 1)-I(x,y-1),∇I(x)=(Ix(x),Iy(x)),
M(I)=∥∇I∥2,(2)
其中M(·)代表提取梯度图的操作,其元素是坐标x =(x,y)的像素的梯度长度。通过具有固定内核的卷积层可以轻松实现获取梯度的操作。实际上,我们不考虑梯度方向信息,因为梯度强度足以揭示恢复图像中局部区域的清晰度。因此,我们采用强度图作为梯度图。这种梯度图可以看作是另一种图像,因此可以利用图像到图像转换的技术来学习两种模态之间的映射。转换过程等效于从LR边缘清晰度到HR边缘清晰度的空间分布转换。由于梯度图的大多数区域都接近于零,因此卷积神经网络可以将更多的注意力集中在轮廓的空间关系上。因此,网络可能更容易捕获结构依赖性并因此为SR图像生成近似梯度图。
如图2所示,梯度分支合并了SR分支的几个中间层表示。这种方案的动机是,精心设计的SR分支能够携带丰富的结构信息,这对于梯度图的恢复至关重要。因此,我们将这些功能用作增强梯度分支性能的先决条件,在这种情况下可以大大降低其参数。在每个两个中间特征之间,有一个渐变块,该梯度块可以是提取高级特征的任何基本块。一旦通过梯度分支获得了SR梯度图,我们便能够将获得的梯度特征整合到SR分支中,从而依次指导SR重建。梯度图的大小可以隐式反映恢复区域是尖锐还是平滑。实际上,我们将由梯度分支的倒数第二层生成的特征图馈送到SR分支。同时,我们通过1×1卷积层生成输出梯度图,并将这些特征图作为输入。
3.2.2保留结构的SR分支
我们设计了一个保留结构的SR分支,以获取最终的SR输出。该分支由两部分组成。第一部分是一个规则的SR网络,其中包括多个可以为任何体系结构的生成神经块。在这里,我们介绍了在ESRGAN [42]中提出的残差密集块(RRDB)中的残差。原始模型中有23个RRDB块。因此,我们合并了从第5、10、15、20个块到梯度分支的特征图。由于常规SR模型仅产生3个通道的图像,因此我们删除了最后的卷积重建层,并将输出特征馈送到连续部分。 SR分支的第二部分连接了从梯度分支获得的SR梯度特征图,如上所述。我们通过融合块融合结构信息,融合块将来自两个分支的特征融合在一起。具体来说,我们将两个特征串联起来,然后使用另一个RRDB块和卷积层来重构最终的SR特征。值得注意的是,我们仅将一个RRDB块添加到SR分支中。因此,与具有23个块的原始模型相比,参数增量很小。
3.3。目标函数
常规损耗:大多数SR方法通过常见的逐像素损耗来优化精心设计的网络,这对于通过PSNR测量的超分辨率任务非常有效。该度量可以减少恢复的图像和地面真实图像之间的平均像素差,但是结果可能太平滑而无法保持清晰的边缘以产生视觉效果。但是,这种损耗仍被广泛用于加速收敛和改善SR性能:
LP ixI =EISR∥G(ILR)−IHR∥1。 (3)SR
在[20]中提出了感知损失来提高恢复图像的感知质量。包含语义信息的特征是通过预先训练的VGG网络提取的[36]。 HR图像特征与SR图像特征之间的欧几里得距离在知觉损失方面达到最小:
LPer = ESR∥φ(G(ILR))−φ(IHR)∥,(4)SR I i i 1
其中φi(。)表示VGG模型的第i层输出。基于生成对抗网络(GAN)[3、4、15、16、21、33]的方法[27、42]在SR问题中也起着重要作用。鉴别器DI和生成器G通过两人游戏进行如下优化:
[21,42]之后,我们进行相对论平均GAN(RaGAN),以在实践中实现更好的优化。由上述目标函数监督的模型仅考虑图像的图像空间约束,而忽略了梯度空间提供的语义结构信息。尽管生成的结果看起来像照片一样逼真,但也存在许多不希望的几何变形。因此,我们引入了梯度损失来缓解这一问题。
梯度损失:图3可以清楚地说明我们的动机。在这里,我们仅考虑一个简单的一维情况。如果仅通过L1损失在图像空间中对模型进行优化,则通常给定输入测试序列的SR序列如图3(b)所示,其真实性如图3(a)所示。该模型无法恢复锐利边缘,原因是该模型倾向于从训练数据中给出可能的HR解决方案的统计平均值。在这种情况下,如果我们计算并显示两个序列的梯度幅度,则可以观察到SR梯度低值平坦,而HR梯度高值尖峰。他们彼此相距遥远。这启发我们,如果将二阶梯度约束添加到优化目标,则该模型可能会从梯度空间中学到更多。它有助于模型将注意力集中在邻近的配置上,以便可以更适当地推断出清晰度的局部强度。因此,如果捕获到如图3(f)所示的梯度信息,则恢复图3(c)的可能性将大大增加。 SR方法可从此类指导中受益,从而避免过度平滑或过度锐化的恢复。此外,更容易提取梯度空间中的几何特征。因此,还可以很好地保留几何结构,从而获得更具照片感的SR图像。
在这里,我们提出了一种梯度损耗来实现上述目标。由于我们已经提到了梯度图是反映图像结构信息的理想工具,因此它也可以用作二阶约束来为生成器提供监督。我们通过减小从SR图像提取的梯度图与从相应HR图像提取的梯度图之间的距离来公式化梯度损失。通过在图像和渐变域中的监视,生成器不仅可以学习精美的外观,而且还可以避免产生详细的几何失真。因此,我们设计了两个损失项,以补偿SR和HR图像的梯度图(GM)中的差异。一种是基于像素损失,如下所示:
LPixGM = ESR∥M(G(ILR))-M(IHR)∥。 (7)SRI 1
另一个是从HR梯度图中辨别梯度补丁。我们设计了另一个梯度鉴别器网络来实现此目标:
梯度鉴别器还可以通过对抗性学习来监督SR结果的生成:
请注意,运算M(·)中的每个步骤都是可区分的。因此,可以以端到端的方式训练具有梯度损失的模型。此外,由于简明的公式和强大的可传递性,在任何生成模型中采用梯度损失作为附加指导很方便。
总体目标:总而言之,我们有两个判别器DI和DGM,分别由LDisI和LDisGM优化。对于发电机,使用两个损耗项来同时提供监控信号。一种是保留在保留结构的SR分支上,另一种是通过最小化梯度分支GB(GB)中的像素损失LP ixGM来重建高质量的梯度图。总体目标定义如下:
4.实验
4.1。实施细节
数据集和评估指标:我们评估提出的SPSR方法的SR性能。我们利用DIV2K [1]作为训练数据集和五个常用的测试基准:Set5 [5],Set14 [49],BSD100 [30],Urban100 [18]和General100 [9]。我们通过双三次插值对HR图像进行下采样以获得LR输入,并且在我们的实验中仅考虑4倍的缩放系数。我们选择感知指数(PI)[6],学习的感知图像补丁相似度(LPIPS)[50],PSNR和结构相似度(SSIM)[43]作为评估指标。较低的PI和LPIPS值表示较高的感知质量。
培训细节:我们使用ESR-GAN [42]的体系结构作为SR分支的主干,并使用RRDB块[42]作为梯度块。对于每个输入的小批量,我们从LR图像中随机采样15个32×32色块。因此,真实的HR补丁大小为128×128。我们使用面向PSNR的预训练模型的参数初始化发生器。逐像素损失,知觉损失,对抗损失和梯度损失被用作优化目标。预训练的19层VGG网络[36]用于计算感知损失中的特征距离。我们还使用VGG样式的网络来执行区分。 β= 0.9,β= 0.999和ε= 1×10-8的ADAM优化器[26]用于优化。我们将生成器和鉴别器的学习速率都设置为1×10−4,并在50k,100k,200k,300k迭代时将其降低到一半。至于损失的权衡参数,我们遵循[42]中的设置,并相应地将βISR和γI设置为0.01和0.005。然后,我们将梯度损失的SR权重设置为等于图像空间损失的SR权重。因此,βGM= 0.01,γGM= 0.005。就βGM而言,SR SR GB
我们将其设置为0.5,以获得更好的梯度平移性能。所有实验均由PyTorch [31]在NVIDIA GTX 1080Ti GPU上实现。
4.2。结果与分析
定量比较:我们将我们的方法与包括SFTGAN [41],SRGAN [27],ESR-GAN [42]和NatSR [37]的最新知觉驱动SR方法进行定量比较。表1列出了PI,LPIPS,PSNR和SSIM值的结果。在每一行中,最佳结果用红色突出显示,次佳结果用蓝色突出显示。我们可以在所有测试数据集中看到SPSR实现了最佳的PI和LPIPS性能。同时,我们在大多数数据集中获得次佳的PSNR和SSIM值。值得注意的是,尽管NatSR在所有数据集中获得最高的PSNR和SSIM值,但就PI和LPIPS而言,我们的方法大大超过了NatSR。此外,在任何测试集中,NatSR均无法获得次佳的PI和LPIPS值。因此,NatSR更像是面向PSNR的SR方法,与其他感知驱动方法相比,它倾向于在PSNR高的情况下产生相对模糊的结果。此外,在SR分支中,网络参数仅增加了一点,我们获得了比ESRGAN更好的性能。因此,结果证明了我们的SPSR方法具有出色的能力,可同时获得出色的感知质量和较小的失真。
定性比较:我们还对感知驱动的SR方法进行视觉比较。从图4中可以看出,我们的结果比其他方法更为自然和现实。对于第一个图像,SPSR可以正确推断出砖的锋利边缘,这表明我们的方法能够捕获图像中对象的结构特征。在其他行中,我们的方法也比比较的SR方法恢复了更好的纹理。我们的结果结构清晰,没有严重的变形,而其他方法则无法显示出令人满意的外观。最后一行的梯度图如图5所示。我们可以看到其他方法的梯度图通常值较小或包含结构退化,而我们的方法则为粗体和自然。定性比较证明,我们提出的SPSR方法可以从梯度空间中学习更多的结构信息,这有助于通过保留几何结构来生成逼真的SR图像。
用户研究:我们进一步进行用户研究,以评估不同SR方法的视觉质量。详细的设置和结果显示在补充材料中。
消融研究:我们在不同的模型上进行了更多的实验,以验证我们提出的框架中每个部分的必要性。由于我们在SR分支中采用了ESRGAN [42]的体系结构,因此我们将ESRGAN用作基准。我们将三个模型进行比较。第一个具有与ESRGAN相同的体系结构,但没有梯度分支(GB),并且受到图像空间和梯度空间损失的训练。第二个训练没有梯度损失(GL),但在网络中具有梯度分支。第三是我们提出的SPSR模型,它同时利用了梯度损失和梯度分支。表2给出了定量比较。观察到,不带GB的SPSR可以显着提高PI性能
在ESRGAN上的验证,证明了拟议的梯度损失在改善感知质量方面的有效性。此外,不带GL的SPSR结果还表明,梯度分支可以显着帮助改善PI或PSNR,同时相对保留另一个。在完整模型方面,我们可以看到在所有测试集中的所有测量中,SPSR都超过了ESRGAN。因此,我们的方法的有效性得到了明确验证。
梯度分支的效果:为了验证梯度分支的有效性,我们还可视化了输出梯度图,如图6所示。给定具有清晰边缘的HR图像,所提取的HR梯度图可能具有细而清晰的对象轮廓在图像中。但是,从LR对应项提取的梯度图在三次三次上采样后通常具有粗线。我们的梯度分支将LR梯度图作为输入并生成HR梯度图,以便为SR分支提供明确的结构信息。通过将梯度生成视为图像转换问题,我们可以利用深度模型的强大生成能力。从图6(d)的输出梯度图中,我们可以看到我们的梯度分支成功地恢复了薄且结构令人满意的梯度图。
我们进行了另一个实验来评估梯度分支的有效性。对于完整的SPSR模型,我们通过将特征设置为0来将其从梯度分支中删除,并且仅将SR分支用于推理。可视化结果如图7所示。从补丁中,我们可以看到仅由SR分支超分辨的毛皮和胡须比由完整模型所恢复的毛皮和胡须更加模糊。详细纹理的变化表明,梯度分支可以帮助产生锋利的边缘,以实现更好的感知保真度。
5.结论
在本文中,我们提出了一种带有梯度引导的保结构超分辨率方法(SPSR),以缓解感知驱动方法的SR结果中普遍存在的几何畸变问题。我们从两个方面保留了几何结构。首先,我们建立了一个梯度分支,旨在从LR梯度图中恢复高分辨率梯度图,并将梯度信息提供给SR分支作为明确的结构指导。其次,我们提出了一种新的梯度损失来对恢复的图像施加二阶限制。通过图像空间和梯度空间监视,可以更好地捕获几何关系。在五个流行的基准测试集上进行的定量和定性实验结果表明了我们提出的方法的有效性。