一、简介
图像蒙版(image matting)是通过alpha通道控制透明度将图像分为前景图和背景图的技术,以用于后续前景图和新背景图的图像合成,在在线会议、虚拟舞台和视频会议等场景下具有广泛的应用需求。
图像蒙版数学定义如下,输入原始图像I(x,y,z),输出为透明度alpha、前景图F(x,y,z)、背景图B(x,y,z)。
I = alpha * F + (1-alpha) *B
上述公式将问题表示为颜色线性组合的方式,需要从3个观测数值推断7个未知量,因此该问题是“病态”。现有方法大多借助额外辅助信息Trimap(确定的前景区域,确定的背景区域和未知区域)
当前景和背景颜色分布存在重叠时,传统图像处理方法的结果容易出现低频"smearing" 或者高频"chunky" artifacts现象。随着自动合成数据集的出现,深度学习技术在图像蒙版中取得SOTA效果。本文主要汇总最近几篇基于深度学习的图像蒙蔽技术。
二、技术介绍
基于深度学习的图像蒙版方法主要分为三大类,第一类为Trimap-based方法,精度高,需要同时输入图像和人工精确标注的Trimap,比如DIM; 第二类为Trimap-free方法,只需要单张图像输入,精度较低,比如MODNET;第三类为背景蒙版方法,去除标注费时的精确标注的Trimap依赖,改为容易获取的“轻微随机”的背景,取得不错的效果。
1.Deep image Matting
DIM将深度学习技术应用到Trimap-based方法上。主要贡献为提出图像蒙版数据集的自动合成方法,并验证通过深度学习网络学习结构化和语义特征,以提升图像蒙版的效果。
1) 数据集构建
从视频中采取400张图,用PS人工抠出前景图(Adobe Matting Dataset),然后将每一张图分别融合到100个不同的背景里,最后得到49300个训练样本。其中Adobe Matting Datasets广泛应用于后续基于深度学习的图像蒙蔽训练中。
2)方法
方法:分为两部分,第一部分使用encoder-decoder网络,以原始图像和trimap作为输入,输出初始蒙版和前景图;第二部分使用小神经网络精修alpha蒙版
loss: aplha loss和合成图像loss, alpha loss为每个像素位置预测值和真值loss的绝对误差,只回传trimap中unknown区域位置的alpha loss;合成Loss为每个像素位置合成图像和真值的RGB数值的差值;
数据增强:随机crop; flip; 多尺度;trimap随机膨胀
3)
code:https://github.com/Joker316701882/Deep-Image-Matting
4)相关改进文章
Context-Aware Image Matting for Simultaneous Foreground and alpha estimation
总结:从网络架构和Loss入手优化,提出融合上下文信息的网络架构和同时估计前景图和背景图。
2.MODNet
Is a Green Screen Really Necessary for Real-Time Portrait Matting
MODNET提出一种轻量级的图像蒙版多目标解耦预测网络,同时显式预测图像分割区域、边界、蒙版,在GPU上单张图像速度达到实时预测。
此外进一步提出基于子任务之间一致性自监督训练方式,提升真实场景数据效果;视频帧间结果平滑融合提升视频蒙版质量。
1)Motivation
现有蒙版方法需要预先定义精确的Trimap;但是Trimap获取需要额外人工标注;基于深度相机获取Triamp的不精确性导致性能下降;另一方面多模型预先生成方法增加推理耗时。
BackGround Matting 不需要依赖精确的Trimap,仍需要"随机"的背景信息,效果受限于两者信息对齐。
2)方法
整体流程为
第一步:在Adobe Matting数据集上做监督训练
网络分别预测语义区域、边缘信息和蒙版,三个子任务同时监督;主干网络使用(Person Segmentation)下预训练模型
第二步:在真实场景下数据基于SOC做自监督训练
SOC指语义区域和蒙版结果,边界和蒙版结果尽可能保持一致性
第三步:视频使用OFD策略平滑结果
OFD利用视频时序帧相似性,提升视频蒙版性能
3)效果
性能显著由于Trimap-free方法,仍低于Trimap-based方法
4)code
https://github.com/ZHKKKe/MODNet
5)思考
测试几张真实场景下图像蒙版效果,确实挺不错的。真实场景下效果,Person Human预训练模型和SOC自训练策略分别有多大贡献?
3.Background Matting: the world is your Green Screen
提出一种使用“随机捕获”的背景作为真实背景的估计,求解图像蒙版问题,去除精细的人工标注Trimap的依赖;同时提出基于背景合成图像的对抗方式训练方式,提升实际场景下的效果。
1) Motivation:
分割相当于蒙版的特例,即将连续alpha数值转换为0/1离散值,这种简化方案会导致harsh boundary, 视觉上出现伪影(artifacts)
现有方法需要额外信息辅助解决蒙版问题。目前方法大多使用Trimap,人工标注的前景区域、背景区域和未知区域。这种方式对图像是可行的,但是由于标注费时,不适用视频领域。
因此提出一种使用“随机捕获”的背景作为真实背景的估计,“随机”体现在色差、轻微运动、阴影等差异。适应场景主要是适合在静态、室内场景背景,同时无运动物体和阴影等干扰。
2) 方法
网络分为两部分,第一部分在Adobe合成数据集上,训练以图像、背景图和soft 分割结果作为输入的有监督deepmatting netwok;
第二部分在无标注的真实数据上使用生成对抗式的无监督训练方式,缩小合成数据和现实数据的域差异;生成器预测蒙版,判别器对新背景的合成图像判断真假。
2.1)Adobe Dataset 监督方法训练
4个输入源在特征层面融合,提出context switching block模块进行有选择的特征融合,然后通过Decoder分别预测前景区域和蒙版区域
数据增强、训练方式和deep image matting中差不多
2.2)无标注的真实数据下对抗训练
现实数据中仍存在失败情形。观察发现,蒙版的显著错误带来合成图像中明显的视觉瑕疵,因此可以通过生产对抗训练方式区分合成图像和真实图像,提高性能
直接训练方式容易导致生成网络全部输出alpha为1, 导致训练失败;组合Gadobe结合teacher-student learning和GAN联合训练。
4)
code:https://github.com/senguptaumd/Background-Matting
应用:微软Kinect相机构造虚拟舞台:https://github.com/microsoft/ailab/tree/master/VirtualStage
三、总结
随着大量自动合成背景蒙版数据集的出现,深度学习技术在Trimap-based方法取得state-of-art效果。进一步为了去除人工精确标注的Trimap需求,Trimap-free的方法和背景蒙版方法逐渐兴起。
四、参考文献
1. Xu N , Price B , Cohen S , et al. Deep Image Matting[C]// IEEE Conference on Computer Vision & Pattern Recognition. IEEE Computer Society, 2017:311-320.
2.Hou Q , Liu F . Context-Aware Image Matting for Simultaneous Foreground and Alpha Estimation[C]// 2019 IEEE/CVF International Conference on Computer Vision (ICCV). IEEE, 2020.
3.Sengupta S , Jayaram V , Curless B , et al. Background Matting: The World is Your Green Screen[J]. 2020.
4.MODNet:https://arxiv.org/pdf/2011.11961.pdf