https://arxiv.org/pdf/1802.06474.pdf
NVIDIA的一篇关于图像风格迁移的文章,论文里的效果看起来很好,也开源了代码。先放个论文里的效果图压压惊
1、Introduction
本文提出的方法主要包括两个步骤:stylization step和smoothing step, 而且每个step都有closed-form solution。其中stylization step是基于WCT(whitening and coloring transform)算法改进后的PhotoWCT,主要解决了WCT算法的输出中存在structral artifacts的问题。同时,仅仅是PhotoWCT并不能保证结果的空间一致性,这一问题在smoothing step中作为流行规划问题解决。
2、 Photorealistic Image Stylization
整体流程图如下图所示:
可以看出整体的映射函数可以表示为:
在stylization step中,与WCT算法相比,PhotoWCT的改进主要在于用unpooling代替了upsampling,将特征提取层中的pooling位置信息引入到了对称的层中。
WCT中,在max-pooling过程使特征图中的空间信息收到了损失,简单的upsampling无法重建输入图像中的详细结构。所以需要把pooling中损失的空间信息传递到decoder中。
在smoothing step中主要目标有两个。一是在局部邻域中具有相似内容的像素应该被相似的风格化,二是平滑的结果不能显著的远离PhotoWCT的结果(听起来就是正则化啦)。为了实现这两个目标,文中首先建立了一个affinity matrix
然后建立了下述优化问题来获得同时满足这两个条件的解:
其中dii是W的度矩阵(degree matrix)D的对角元素,另附度矩阵示意:
整个smoothing step可表示为:
关于affinity matrix的问题,文中采用了matting affinity的方法,具体没有描述,还得去论文里看一下。
3、Conclusion
作者找了一些人来对几种方法的结果进行了评价,结果当然是本文的效果最好了,不过看起来效果确实是有明显的差距的,不是那种强行找优势的感觉。Gaty的那个工作我又复现过,确实是很不平滑,效果很GAN。不过这个工作感觉对于content和style内容的对应也还是挺有要求的,不是随意的c和s都对得上,给出的结果里面的图也是看起来比较相关的内容。总之还是要跑一下再看看有没有什么改法了。