基于深度学习的图像蒙版

一、简介

图像蒙版(image matting)是通过alpha通道控制透明度将图像分为前景图和背景图的技术，以用于后续前景图和新背景图的图像合成，在在线会议、虚拟舞台和视频会议等场景下具有广泛的应用需求。

图像蒙版数学定义如下，输入原始图像I（x,y,z），输出为透明度alpha、前景图F(x,y,z)、背景图B（x,y,z）。

I = alpha * F + (1-alpha) *B

上述公式将问题表示为颜色线性组合的方式，需要从3个观测数值推断7个未知量，因此该问题是“病态”。现有方法大多借助额外辅助信息Trimap(确定的前景区域，确定的背景区域和未知区域)

当前景和背景颜色分布存在重叠时，传统图像处理方法的结果容易出现低频"smearing" 或者高频"chunky" artifacts现象。随着自动合成数据集的出现，深度学习技术在图像蒙版中取得SOTA效果。本文主要汇总最近几篇基于深度学习的图像蒙蔽技术。

二、技术介绍

图1 图像蒙版技术汇总

基于深度学习的图像蒙版方法主要分为三大类，第一类为Trimap-based方法，精度高，需要同时输入图像和人工精确标注的Trimap，比如DIM; 第二类为Trimap-free方法，只需要单张图像输入，精度较低，比如MODNET；第三类为背景蒙版方法，去除标注费时的精确标注的Trimap依赖，改为容易获取的“轻微随机”的背景，取得不错的效果。

1.Deep image Matting

DIM将深度学习技术应用到Trimap-based方法上。主要贡献为提出图像蒙版数据集的自动合成方法，并验证通过深度学习网络学习结构化和语义特征，以提升图像蒙版的效果。

1) 数据集构建

从视频中采取400张图，用PS人工抠出前景图（Adobe Matting Dataset），然后将每一张图分别融合到100个不同的背景里，最后得到49300个训练样本。其中Adobe Matting Datasets广泛应用于后续基于深度学习的图像蒙蔽训练中。

2）方法

图2 DIM网络架构

方法：分为两部分，第一部分使用encoder-decoder网络，以原始图像和trimap作为输入，输出初始蒙版和前景图；第二部分使用小神经网络精修alpha蒙版

loss: aplha loss和合成图像loss, alpha loss为每个像素位置预测值和真值loss的绝对误差，只回传trimap中unknown区域位置的alpha loss；合成Loss为每个像素位置合成图像和真值的RGB数值的差值；

数据增强：随机crop; flip; 多尺度；trimap随机膨胀

3）

code:https://github.com/Joker316701882/Deep-Image-Matting

blog:http://blog.leanote.com/post/calebge/Deep-Image-Matting%E5%A4%8D%E7%8E%B0%E8%BF%87%E7%A8%8B%E6%80%BB%E7%BB%93

4）相关改进文章

Context-Aware Image Matting for Simultaneous Foreground and alpha estimation

总结：从网络架构和Loss入手优化，提出融合上下文信息的网络架构和同时估计前景图和背景图。

2.MODNet

Is a Green Screen Really Necessary for Real-Time Portrait Matting

MODNET提出一种轻量级的图像蒙版多目标解耦预测网络，同时显式预测图像分割区域、边界、蒙版，在GPU上单张图像速度达到实时预测。

此外进一步提出基于子任务之间一致性自监督训练方式，提升真实场景数据效果；视频帧间结果平滑融合提升视频蒙版质量。

1）Motivation

现有蒙版方法需要预先定义精确的Trimap；但是Trimap获取需要额外人工标注；基于深度相机获取Triamp的不精确性导致性能下降；另一方面多模型预先生成方法增加推理耗时。

BackGround Matting 不需要依赖精确的Trimap，仍需要"随机"的背景信息，效果受限于两者信息对齐。

2）方法

整体流程为

图3：MODNET整体训练框架

第一步：在Adobe Matting数据集上做监督训练

网络分别预测语义区域、边缘信息和蒙版，三个子任务同时监督；主干网络使用（Person Segmentation)下预训练模型

图4. MODNET网络架构

第二步：在真实场景下数据基于SOC做自监督训练

SOC指语义区域和蒙版结果，边界和蒙版结果尽可能保持一致性

第三步：视频使用OFD策略平滑结果

OFD利用视频时序帧相似性，提升视频蒙版性能

3）效果

性能显著由于Trimap-free方法，仍低于Trimap-based方法

4)code

https://github.com/ZHKKKe/MODNet

5）思考

测试几张真实场景下图像蒙版效果，确实挺不错的。真实场景下效果，Person Human预训练模型和SOC自训练策略分别有多大贡献？

3.Background Matting: the world is your Green Screen

提出一种使用“随机捕获”的背景作为真实背景的估计，求解图像蒙版问题，去除精细的人工标注Trimap的依赖；同时提出基于背景合成图像的对抗方式训练方式，提升实际场景下的效果。

1) Motivation:

分割相当于蒙版的特例，即将连续alpha数值转换为0/1离散值，这种简化方案会导致harsh boundary, 视觉上出现伪影（artifacts）

现有方法需要额外信息辅助解决蒙版问题。目前方法大多使用Trimap，人工标注的前景区域、背景区域和未知区域。这种方式对图像是可行的，但是由于标注费时，不适用视频领域。

因此提出一种使用“随机捕获”的背景作为真实背景的估计，“随机”体现在色差、轻微运动、阴影等差异。适应场景主要是适合在静态、室内场景背景，同时无运动物体和阴影等干扰。

2) 方法

网络分为两部分，第一部分在Adobe合成数据集上，训练以图像、背景图和soft 分割结果作为输入的有监督deepmatting netwok；

第二部分在无标注的真实数据上使用生成对抗式的无监督训练方式，缩小合成数据和现实数据的域差异；生成器预测蒙版，判别器对新背景的合成图像判断真假。

图5 BackGround Matting

2.1）Adobe Dataset 监督方法训练

4个输入源在特征层面融合，提出context switching block模块进行有选择的特征融合，然后通过Decoder分别预测前景区域和蒙版区域

数据增强、训练方式和deep image matting中差不多

2.2）无标注的真实数据下对抗训练

现实数据中仍存在失败情形。观察发现，蒙版的显著错误带来合成图像中明显的视觉瑕疵，因此可以通过生产对抗训练方式区分合成图像和真实图像，提高性能

直接训练方式容易导致生成网络全部输出alpha为1, 导致训练失败；组合Gadobe结合teacher-student learning和GAN联合训练。

code:https://github.com/senguptaumd/Background-Matting

应用：微软Kinect相机构造虚拟舞台：https://github.com/microsoft/ailab/tree/master/VirtualStage

三、总结

随着大量自动合成背景蒙版数据集的出现，深度学习技术在Trimap-based方法取得state-of-art效果。进一步为了去除人工精确标注的Trimap需求，Trimap-free的方法和背景蒙版方法逐渐兴起。

四、参考文献

1. Xu N , Price B , Cohen S , et al. Deep Image Matting[C]// IEEE Conference on Computer Vision & Pattern Recognition. IEEE Computer Society, 2017:311-320.

2.Hou Q , Liu F . Context-Aware Image Matting for Simultaneous Foreground and Alpha Estimation[C]// 2019 IEEE/CVF International Conference on Computer Vision (ICCV). IEEE, 2020.

3.Sengupta S , Jayaram V , Curless B , et al. Background Matting: The World is Your Green Screen[J]. 2020.

4.MODNet:https://arxiv.org/pdf/2011.11961.pdf

最后编辑于：2020.12.19 16:35:44

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 199,271评论 5赞 466
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 83,725评论 2赞 376
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 146,252评论 0赞 328
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 53,634评论 1赞 270
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 62,549评论 5赞 359
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 47,985评论 1赞 275
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 37,471评论 3赞 390
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,128评论 0赞 254
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 40,257评论 1赞 294
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,233评论 2赞 317
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,235评论 1赞 328
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 32,940评论 3赞 316
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 38,528评论 3赞 302
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,623评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 30,858评论 1赞 255
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 42,245评论 2赞 344
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 41,790评论 2赞 339

基于深度学习的图像蒙版

一、简介

二、技术介绍

三、总结

四、参考文献

推荐阅读更多精彩内容