一篇文章了解视频对象分割

姓名:郭金  学号:17101223407

转载自:http://mp.weixin.qq.com/s/Md2kll2FGlU-3qWTtZV4gg

【嵌牛导读】:计算机视觉中有三个传统经典的任务:分类、检测和分割。Visualead 将在接下来的几周发布 GyGO,GyGO 是一个数据集,主要关注于视频对象分割的特定、简单的应用实例如电子商务。其中包括的短视频大约有 150 个。本文还描述了 DAVIS-2016 视频对象分割挑战赛的挑战。

【嵌牛鼻子】:视频分割、AI、计算机视觉

【嵌牛提问】:如何对视频进行分割,利用什么技术?

【嵌牛正文】:

图片发自简书App

DAVIS-2016 视频对象分割数据集中带注释的真值帧本篇文章是关于视频对象分割算法技术发展水平的两篇系列文章中的第一篇。第一部分介绍视频对象分割算法中的一系列问题和“经典的”解决方案。这篇文章将简要介绍:

问题、数据集、挑战赛

我们今天要将一个新的数据集公布给大家!

DAVIS-2016 的两种主要方法:MaskTrack 和 OSVOS。所有其它视频分割算法也都以此算法为基础。

在第二部分,笔者提出了一个比较所有现有的用来应对 DAVIS-2017 视频对象分割挑战赛的方法的表格,总结和突出叙述一些精品算法,并指出新的趋势和方向。文中假定研究人员熟悉计算机视觉和深度学习中的一些概念,这些概念很容易理解。笔者希望能将此计算机视觉挑战赛介绍给大家,并让新手能快速地熟悉它。

引言

计算机视觉中有三个传统经典的任务:分类、检测和分割。分类可以回答“是什么”之类的问题,检测和分割可以回答“在何处”的问题,分割的目的在于使其准精度可达到象素级。

图片发自简书App

经典的计算机视觉任务(选自斯坦福大学 cs231n 课程幻灯片图像)

2016 年,我们观察到语义分割已经发展成熟,甚至现有的数据集可能开始饱和。同时,2017 年可以说是视频对象分割相关对象如动作分类、动作(时间)分割、语义分割取得突破性成就的一年。在这些文章中,我们将重点讨论视频对象分割。

问题、数据集、挑战赛

假设读者熟悉语义分割,视频对象分割的任务基本上多了两个差异:

我们要对一般的非语义对象进行分割。

增加了一个时间因素:我们的任务是在视频的每个连续帧中找到相关的对象相对应的像素。

这也可以被看作是一个像素级的对象跟踪问题。

图片发自简书App

分割:即空间的子分区。对图中的每一叶节点均给出了一个示例数据集。

在视频制作中,我们可以将问题分为两类:

非监督式任务(又名视频显著性检测):任务是在视频中找到并分割主要对象。也就是说算法本身应该决定“主要”对象是什么。

半监督任务: 第一帧的给定真值分割掩膜(只)作为输入,在每个连续帧中分割带注释的对象。

在半监督的情况下,可将其扩展到多目标分割中,正如在 DAVIS-2017 挑战赛中看到的那样。

图片发自简书App

DAVIS-2016 (左) 和 DAVIS-2017 (右) 的主要区别:多实例分割

正如您所看到的,DAVIS 是一个具有优质像素的数据集,并且该数据集带有注释性的真值。它的目的是重现真实的视频场景:如相机抖动、背景杂波、闭塞和其他复杂情形。

图片发自简书App

DAVIS-2016 复杂性属性

衡量分割成功与否有两个主要指标:

区域相似度是掩码 M 与真值 G 之间的交集

区域相似性: 即预估分割与地面真值掩模的交并比。轮廓精度是轮廓的 F 值,该值以查全率和查准率为基础

图片发自简书App

轮廓精度: 它把掩码作为一组封闭的轮廓,计算轮廓的 F 值,了解查全率和查准率。

图片发自简书App

直观-区域相似性测量误标记像素的数量,而轮廓精度测量分割边界的精度。

公布一个新的数据集!GyGO:Visualead 提出的电子商务视频对象分割

图片发自简书App

我们将在接下来的几周发布 GyGO,GyGO 是一个数据集,主要关注于视频对象分割的特定、简单的应用实例如电子商务。其中包括的短视频大约有 150 个。

https://github.com/ilchemla/gygo-dataset

一方面,一组镜头的处理非常简单,因为它们几乎没有被遮挡、快速运动或发生上面提到的许多其他复杂的情形。另一方面,与 DAVIS-2016 数据集相比,这些视频对象有更多不同的类别,其中许多组镜头包含已知的语义类别(人、车等)。GyGO 数据集专门应用于智能手机捕获的视频,它的帧相对稀疏(带标注的视频速度是~5 fps))。

https://youtu.be/4RQff9bfJsk

GyGO 电子商务视频对象分割数据集:Teaser

我们公开发布主要有两个目标:

解决目前视频对象分割数据严重缺乏的问题。虽然只有几百个带注释的视频,但我们相信每一次贡献都有可能提高其性能。在分析中,我们已经表明,GyGO 和 DAVIS 数据集的联合训练能完善推理结果。

促进更开放、共享的文化,鼓励其他研究人员加入我们一起努力:)DAVIS 数据集和研究生态系统给了我们很大帮助。我们希望社区也能发现我们的数据集非常有用。

DAVIS-2016 的两种主要方法

随着单个对象视频分割 DAVIS-2016 数据集的发布,两个主流方法出现了:MaskTrack 和 OSVOS. 观察一下 DAVIS-2017 挑战赛的竞争者,似乎每一个团队的解决方案中都用到了其中一个方法,这使它们立即成为了经典。 让我们看看这两种方法的工作原理:

一次视频对象分割


OSVOS 背后的概念简单但有效:

OSVOS 训练流水线

以在 imagenet 上预先训练的网络 (如 VGG-16) 分类为例。

首先,将它转换成一个完全的卷积网络,如 FCN,以保存空间信息:

图片发自简书App

删除底端的 FC 层。

插入一个新的损失:像素 sigmoid 均衡的交叉熵(HED 以前使用过)。现在每个像素分别被分为前景和背景。

在 DAVIS-2016 训练集上训练该完全卷积网络训练。

一次训练:在推理期间,给定一个用于分割的新的输入视频,和给第一帧的真值标注(记住,这是一个半监督的问题),创建一个新的模型,用 [ 3 ] 中训练的权重将其初始化,并在第一帧上进行微调。

这个过程将生成一个独特的模型,每一个新视频都只使用一次该模型,根据第一帧注释,该模型对于每个视频都是过度拟合的。因为对于大多数视频来说,对象和背景的外观并没有完全改变,这个模型产生了很好的效果。当然,这种模型对其他随机视频镜头来说效果较差。

注:OSVOS 方法分类的帧是独立的,它没有使用视频中的时间信息。

MaskTrack(从静态图像中学习视频对象分割)

OSVOS 独立地对视频的每一帧进行改进,MaskTrack 亦考虑到了其中包含的时间信息:

MaskTrack 掩模传播模块

每个帧都将前一帧的预测掩码作为附加信息输入到网络中,输入现在有 4 个路径(RGB 加以前的掩码)。用第一帧给出的真值注释初始化此过程。

该网络最初是以 DeepLab VGG-16(模块)为基础的,对其进行的训练是从语义分割和图像显著性数据集两个方面开始的。前一个掩模路径的输入是由每个静止图像的真值注释转换人工合成的。

添加相同的第二个以光流输入为基础的流网络。模型的权重与 RGB 流相同。取两个流的结果的平均值。

线上训练:使用第一帧真值注释合成额外的特定的视频的训练数据。

注意:这两种方法都依赖于静止图像训练(与视频相反,数据集数据集小且稀少)。

总之,在这篇介绍性的文章中,我们已经描述了视频对象分割的问题,并在 2016 年提出了解决这个问题的主要方法。有了这方面的知识,我们准备好进行二次改进,以便在 2017 年提出最先进的算法。

我想对 DAVIS 数据集和挑战赛背后的出色团队以及他们所付出的辛勤劳动表示感谢。没有你们,这一切都不会存在。

参考文献

本文中所描述和分析的主要文件如下所述。

视频对象分割的基准数据集与评价方法:F. Perazzi, J. Pont-Tuset, B. McWilliams, L. Van Gool, M. Gross, and A. Sorkine-Hornung, Computer Vision and Pattern Recognition (CVPR) 2016

2017 DAVIS 视频对象分割挑战赛:J. Pont-Tuset, F. Perazzi, S. Caelles, P. Arbeláez, A. Sorkine-Hornung, and L. Van Gool, arXiv:1704.00675, 2017

从静态图像中研究视频对象分割:F. Perazzi, A. Khoreva, R. Benenson, B. Schiele, A. Sorkine-HornungCVPR 2017, Honolulu, USA.

一次视频对象分割:S. Caelles, K.K. Maninis, J. Pont-Tuset, L. Leal-Taixé, D. Cremers, and L. Van Gool, Computer Vision and Pattern Recognition (CVPR), 2017

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 199,175评论 5 466
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 83,674评论 2 376
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 146,151评论 0 328
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 53,597评论 1 269
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 62,505评论 5 359
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 47,969评论 1 275
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,455评论 3 390
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,118评论 0 254
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,227评论 1 294
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,213评论 2 317
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,214评论 1 328
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 32,928评论 3 316
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,512评论 3 302
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,616评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 30,848评论 1 255
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 42,228评论 2 344
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 41,772评论 2 339

推荐阅读更多精彩内容

  • 国家电网公司企业标准(Q/GDW)- 面向对象的用电信息数据交换协议 - 报批稿:20170802 前言: 排版 ...
    庭说阅读 10,827评论 6 13
  • Spring Cloud为开发人员提供了快速构建分布式系统中一些常见模式的工具(例如配置管理,服务发现,断路器,智...
    卡卡罗2017阅读 134,555评论 18 139
  • 私家车在美国是出行的必备交通工具,现在Uber也是很热的,填补了这种大乡下看不见一辆出租车的窘境。湾区的公共交通也...
    xoit阅读 12,002评论 0 51
  • 是在进入40不惑之后,才对理财产生了极大的兴趣。现在因为儿子上大学了,本职工作以外时间充裕了很多。这两年一直在尝试...
    玲珑理财人阅读 376评论 0 6