超分辨率概述
超分辨率(Super-Resolution,SR)技术是数字图像处理中的一项技术,旨在提高图像的分辨率。直白的说,超分辨率技术可以把低分辨率图像转换为相应的高分辨率图像。
众所周知,图像的分辨率又可看作是像素点的尺寸,例如,对于1080P的图像,在16:9的图像比例下,长宽像素点之比为1920:1080,而在相应的2K分辨率下为2160:1440。那么显然地,低分辨率图像在相同的尺寸下,像素点的个数少于高分辨率图像,而超分辨率所做的工作就是重建低分辨率图像中缺失的像素点。
由数字图像处理的知识可知,在频域下,低频信号对应于图像中的轮廓部分,高频信号对应于图像中的细节(边缘、纹理等)部分。那么对于低分辨率图像,其具有丰富的低频信号,而只有少量的高频信号;高分辨率图像则低频、高频信号均有。从这个角度,超分辨率技术就是要恢复低分辨率图像中缺失的高频信号。
从以上两个角度可以发现,超分辨率是为了生成以像素点为单位的信息,因此该技术是一个低阶(low-level)的视觉问题。又由于超分辨率所生成的是原低分辨率图像所不具有的,因此超分辨率又是一个不适定(ill-posed)问题,即对于同一张低分辨率图像,其可以对应多张高分辨率图像。
基于卷积神经网络的超分辨率
后文均不考虑基于GAN的超分辨率模型
从2012年提出AlexNet起,利用卷积神经网络解决图像问题逐渐流行,并成为主流。对于超分辨率这种经典的图像处理问题而言,自然会引来各路学者利用卷积神经网络解决超分辨率问题。
在深度学习未流行之前,常见的超分辨率方法均是采取经典的数字图像处理方法,例如插值法、频域法、空域法等。这些方法的优点是具备完备的数学理论推导,而其缺点则在于图像重建后的效果不佳,另外对于较新的方法,其计算量也较大,计算机处理时间长。
卷积神经网络应用于超分辨率的开山之作是2014年由Dong等人在计算机视觉顶会之一ECCV上发表的SRCNN模型。这篇文章论证了此前的基于稀疏编码表示的超分辨率方法能够利用卷积神经网络表示,并且性能较之前传统方法有明显的提升。现在再来看这个模型,其实存在较多的不足,例如,在损失函数选择的是L2,整个网络仅有3层卷积层构成。但是尽管存在这些明显的不足,但是不可否认SRCNN使后续所有的基于卷积神经网络的超分辨率方法成为可能,其创新性远大于实用性。
针对仅有3层卷积层的不足,其原因是在于基于当时的技术,深层次的网络会导致网络性能下降,并且难以训练。得益于He Kaiming的残差网络(ResNet),使得深层的卷积神经网络成为可能。在超分辨率领域,具有代表性的是2016年提出的VDSR,使得网络深度从原来的3层,提升到20层,并且网络性能也得到了显著的提升。此后,也有极具代表性的EDSR模型的提出,该模型所具有的网络结构成为后续大量相关工作所参考的baseline。至此,基于深度卷积神经网络的超分辨率方法已发展至一个较成熟的水平,相较于传统方法、SRCNN已有长足的进步。
相关文献
[1] SRCNN
[2] ResNet
[3] VDSR
[4] EDSR