基于深度学习的图像蒙版

一、简介

        图像蒙版(image matting)是通过alpha通道控制透明度将图像分为前景图和背景图的技术,以用于后续前景图和新背景图的图像合成,在在线会议、虚拟舞台和视频会议等场景下具有广泛的应用需求。

        图像蒙版数学定义如下,输入原始图像I(x,y,z),输出为透明度alpha、前景图F(x,y,z)、背景图B(x,y,z)。

        I = alpha * F + (1-alpha) *B

        上述公式将问题表示为颜色线性组合的方式,需要从3个观测数值推断7个未知量,因此该问题是“病态”。现有方法大多借助额外辅助信息Trimap(确定的前景区域,确定的背景区域和未知区域)

        当前景和背景颜色分布存在重叠时,传统图像处理方法的结果容易出现低频"smearing" 或者高频"chunky" artifacts现象。随着自动合成数据集的出现,深度学习技术在图像蒙版中取得SOTA效果。本文主要汇总最近几篇基于深度学习的图像蒙蔽技术。

二、技术介绍


图1 图像蒙版技术汇总

        基于深度学习的图像蒙版方法主要分为三大类,第一类为Trimap-based方法,精度高,需要同时输入图像和人工精确标注的Trimap,比如DIM; 第二类为Trimap-free方法,只需要单张图像输入,精度较低,比如MODNET;第三类为背景蒙版方法,去除标注费时的精确标注的Trimap依赖,改为容易获取的“轻微随机”的背景,取得不错的效果。

1.Deep image Matting

        DIM将深度学习技术应用到Trimap-based方法上。主要贡献为提出图像蒙版数据集的自动合成方法,并验证通过深度学习网络学习结构化和语义特征,以提升图像蒙版的效果。

1) 数据集构建

        从视频中采取400张图,用PS人工抠出前景图(Adobe Matting Dataset),然后将每一张图分别融合到100个不同的背景里,最后得到49300个训练样本。其中Adobe Matting Datasets广泛应用于后续基于深度学习的图像蒙蔽训练中。

2)方法


图2 DIM网络架构

方法:分为两部分,第一部分使用encoder-decoder网络,以原始图像和trimap作为输入,输出初始蒙版和前景图;第二部分使用小神经网络精修alpha蒙版

loss: aplha loss和合成图像loss, alpha loss为每个像素位置预测值和真值loss的绝对误差,只回传trimap中unknown区域位置的alpha loss;合成Loss为每个像素位置合成图像和真值的RGB数值的差值;

数据增强:随机crop; flip; 多尺度;trimap随机膨胀

3)

code:https://github.com/Joker316701882/Deep-Image-Matting

blog:http://blog.leanote.com/post/calebge/Deep-Image-Matting%E5%A4%8D%E7%8E%B0%E8%BF%87%E7%A8%8B%E6%80%BB%E7%BB%93

4)相关改进文章

Context-Aware Image Matting for Simultaneous Foreground and alpha estimation

总结:从网络架构和Loss入手优化,提出融合上下文信息的网络架构和同时估计前景图和背景图。

2.MODNet

Is a Green Screen Really Necessary for Real-Time Portrait Matting

        MODNET提出一种轻量级的图像蒙版多目标解耦预测网络,同时显式预测图像分割区域、边界、蒙版,在GPU上单张图像速度达到实时预测。

        此外进一步提出基于子任务之间一致性自监督训练方式,提升真实场景数据效果;视频帧间结果平滑融合提升视频蒙版质量。

1)Motivation

        现有蒙版方法需要预先定义精确的Trimap;但是Trimap获取需要额外人工标注;基于深度相机获取Triamp的不精确性导致性能下降;另一方面多模型预先生成方法增加推理耗时。

        BackGround Matting 不需要依赖精确的Trimap,仍需要"随机"的背景信息,效果受限于两者信息对齐。

2)方法

整体流程为


图3:MODNET整体训练框架

第一步:在Adobe Matting数据集上做监督训练

    网络分别预测语义区域、边缘信息和蒙版,三个子任务同时监督;主干网络使用(Person Segmentation)下预训练模型


图4. MODNET网络架构

第二步:在真实场景下数据基于SOC做自监督训练

 SOC指语义区域和蒙版结果,边界和蒙版结果尽可能保持一致性

第三步:视频使用OFD策略平滑结果

OFD利用视频时序帧相似性,提升视频蒙版性能

3)效果

性能显著由于Trimap-free方法,仍低于Trimap-based方法


4)code

https://github.com/ZHKKKe/MODNet

5)思考

测试几张真实场景下图像蒙版效果,确实挺不错的。真实场景下效果,Person Human预训练模型和SOC自训练策略分别有多大贡献?

3.Background Matting: the world is your Green Screen

        提出一种使用“随机捕获”的背景作为真实背景的估计,求解图像蒙版问题,去除精细的人工标注Trimap的依赖;同时提出基于背景合成图像的对抗方式训练方式,提升实际场景下的效果。

1) Motivation:

        分割相当于蒙版的特例,即将连续alpha数值转换为0/1离散值,这种简化方案会导致harsh boundary, 视觉上出现伪影(artifacts)

        现有方法需要额外信息辅助解决蒙版问题。目前方法大多使用Trimap,人工标注的前景区域、背景区域和未知区域。这种方式对图像是可行的,但是由于标注费时,不适用视频领域。

            因此提出一种使用“随机捕获”的背景作为真实背景的估计,“随机”体现在色差、轻微运动、阴影等差异。适应场景主要是适合在静态、室内场景背景,同时无运动物体和阴影等干扰。

2) 方法

        网络分为两部分,第一部分在Adobe合成数据集上,训练以图像、背景图和soft 分割结果作为输入的有监督deepmatting netwok;

第二部分在无标注的真实数据上使用生成对抗式的无监督训练方式,缩小合成数据和现实数据的域差异;生成器预测蒙版,判别器对新背景的合成图像判断真假。


图5 BackGround Matting

2.1)Adobe Dataset 监督方法训练

4个输入源在特征层面融合,提出context switching block模块进行有选择的特征融合,然后通过Decoder分别预测前景区域和蒙版区域

数据增强、训练方式和deep image matting中差不多

2.2)无标注的真实数据下对抗训练

现实数据中仍存在失败情形。观察发现,蒙版的显著错误带来合成图像中明显的视觉瑕疵,因此可以通过生产对抗训练方式区分合成图像和真实图像,提高性能

直接训练方式容易导致生成网络全部输出alpha为1, 导致训练失败;组合Gadobe结合teacher-student learning和GAN联合训练。

4)

code:https://github.com/senguptaumd/Background-Matting

应用:微软Kinect相机构造虚拟舞台:https://github.com/microsoft/ailab/tree/master/VirtualStage

三、总结


        随着大量自动合成背景蒙版数据集的出现,深度学习技术在Trimap-based方法取得state-of-art效果。进一步为了去除人工精确标注的Trimap需求,Trimap-free的方法和背景蒙版方法逐渐兴起。

四、参考文献

1. Xu N , Price B , Cohen S , et al. Deep Image Matting[C]// IEEE Conference on Computer Vision & Pattern Recognition. IEEE Computer Society, 2017:311-320.

2.Hou Q , Liu F . Context-Aware Image Matting for Simultaneous Foreground and Alpha Estimation[C]// 2019 IEEE/CVF International Conference on Computer Vision (ICCV). IEEE, 2020.

3.Sengupta S , Jayaram V , Curless B , et al. Background Matting: The World is Your Green Screen[J]. 2020.

4.MODNet:https://arxiv.org/pdf/2011.11961.pdf

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 199,271评论 5 466
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 83,725评论 2 376
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 146,252评论 0 328
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 53,634评论 1 270
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 62,549评论 5 359
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 47,985评论 1 275
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,471评论 3 390
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,128评论 0 254
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,257评论 1 294
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,233评论 2 317
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,235评论 1 328
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 32,940评论 3 316
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,528评论 3 302
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,623评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 30,858评论 1 255
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 42,245评论 2 344
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 41,790评论 2 339

推荐阅读更多精彩内容