- PSGAN: Pose and Expression Robust Spatial-Aware GAN for Customizable Makeup Transfer
- Cross-domain Correspondence Learning for Exemplar-based Image Translation
- Convolutional neural network architecture for geometric matching
相关性矩阵(correlation matrix)是一个简单的范式,矩阵中的每个元素 Cij 用来表示一个特征图(feature map)中的第 i 个局部特征向量和另一个特征图中的第 j 个局部特征向量之间的相关性,通常是由两个局部特征向量的点积来表示(包含一个 L2 归一化)。两个尺寸为 H * W * d 的特征图的相关性矩阵的尺寸即为(H * W)*(H * W)。相关性是衡量特征匹配程度的依据,特征则会根据不同的任务有着不同的表示,通常是基于形状、颜色、纹理的语义特征。
语义特征相关性
语义特征与结构位置信息结合
PSGAN 在妆容迁移(makeup transfer)时会对人脸中相应位置进行妆容迁移,为此 PSGAN 使用了 Attentive Matrix 来衡量两个人脸局部位置之间的语义信息和人脸空间结构位置的相似性,并引入了 Attentive Makeup Morphing(AMM)模块来围绕 Attentive Matrix 进行妆容的迁移。
在计算 Attentive Matrix 时,使用到的不仅是局部的特征向量,还有基于当前局部位置到以68个人脸关键点(landmark)作为锚点(anchor)的坐标位置的偏差信息。特征图与坐标偏差合并(concat)成一个张量进行 Attentive Matrix 的计算。
从生成的 Attention Map 上看,相应的人脸位置区域有着很好的响应,对关注对应的人脸位置也使得 PSGAN 相对于其他妆容迁移算法对姿态变化更为鲁棒。
跨域语义对应
CoCosNet 是基于范例(exemplar-based)的图像翻译(image translation)技术,网络在接受输入域图片的同时,也接受一张目标域的范例图片,该范例图片与输入图有相似的语义且具有用户期望的目标风格。CoCosNet 提出建立两个域图片之间的密集语义对应(dense correspondence),进而依赖这样的对应,定位输入图在范例中相应位置的颜色、纹理信息,使得生成图片风格精细匹配范例中相同语义的物体。
于是,CoCosNet 的生成任务归结于,如何精准地找到输入及范例之间的语义对应。这里有两大挑战:一是输入图和范例来自不同的域,它们的图像块(image patch)有着巨大的图片域差异(domain gap);另一方面,不同域图片之间的语义对应的标注信息很难取得,并拿来作为网络训练的监督信息。如上图,建立自然人脸与油画人像之间的密集对应,事实上是困难的,而这样的跨域语义对应(cross-domain semantic correspondence)问题也是首次被提出。
CoCosNet 联合训练跨域对应和图像生成,其中跨域对应通过弱监督学习(weakly supervised learning)的方式建立。整个网络由两个子网络构成。第一部分为跨域对应(cross-domain correspondence)子网络,其用于找到来自于不同的域的输入图 x_A 与范例图 y_B 之间的密集对应。两个域的特征提取器 (F_(A→B) 和 F_(B→A))利用训练集中 x_A 和它在目标域的配对 x_B 来训练,使它们提取到的特征可以适应到一个对齐的隐空间,这里的域自适应损失函数定义为:
之后,再用处于共同域上的特征进行相关性矩阵的计算,进行语义匹配。相关性矩阵中的元素为对应特征的向量的余弦相似度。
几何特征匹配
在 Convolutional neural network architecture for geometric matching 这篇论文中提出了一个用于几何匹配的 CNN 架构
几何匹配的过程是将两张图像A、B输入进CNN模型后得到一个变换参数 theta,然后图A根据参数 theta 进行变换后即和图B的几何特征相匹。
在该 CNN 模型中,ImageA 和 ImageB 两张图像输入到同一个特征提取的 CNN 里得到 feature map A 和 feature map B。之后两个 feature map 进行相关性匹配(matching)得到 feature map AB,再经过一个 CNN 回归得到用以几何匹配的仿射变换参数 theta。
输入图像经过CNN提取特征后得到的 feature map 的尺寸是 w * h * d,相当于是由 w * h 个 d 维的局部特征向量组成的。
在相关性匹配时,两个 feature 中的任意两个局部特征向量的点积用来表示这两个局部特征之间的相关性。最后可以看作是产生了一个(w * h)*(w * h)的相关性矩阵 cAB,cAB实际表示为一个 w * h *(w * h)的三维张量相关性图。cAB 中某个位置的向量中的第 k 个元素表示的是 feature map B 中对应位置的向量和 feature map A 中的第 k 个向量的相似度。
这个相关性图(correlation map)中的其中一个向量表示为 feature map A 中的所有特征向量与 feature map B 中的某个向量的相关程度。最后,相关性图中的每个向量还会进行 L2 归一化得到归一化的相关性图,即为 feature map AB。
feature map AB 再经过一个回归 CNN 得到变换参数 theta。
考虑到复杂的几何对齐可能会难以一步到位的实现,论文中还提出了一个两阶段的匹配流程:先在第一个阶段使用仿射变换进行粗略匹配,然后在此基础上,第二阶段再使用 tps 变化进行一个精细的匹配。
两阶段中回归 CNN 的输出维度需要根据变换的自由度进行调整。
简单的仿射变换。
复杂的 tps 变换。
由于缺少公开数据,训练数据将从公开数据中生成。
生成随机的 theta GT
损失函数定义为,在gird上衡量
在gird上衡量
该自监督模型作为weakalign的预训练模型。