自动驾驶入门日记-5-视频语义分割

相比于图像语义分割,视频语义分割具有高帧数(15-30帧/s),前后帧之间高相关性的特点。并且在自动驾驶任务中,对RGB摄像头传入的视频帧信号处理具有很高的实时性要求,因此针对视频语义分割任务来讲,需要在图像语义分割的任务上做进一步的工作。

如何有效利用视频帧之间的时序相关性将对视频分割结果产生很大影响,目前主流分为两派,一类是利用时间连续性增强语义分割结果的准确性,另一种则关注如何降低计算成本,以达到实时性要求。接下来的文章内容就根据近几年针对视频语义分割所进行的优秀工作进行简单阐述。

Improve the accuracy

1.STFCN: Spatio-Temporal FCN for Semantic Video Segmentation

本篇论文是在FCN的基础上进行改进的,利用LSTM将FCNs并联成为一个叫做时空卷积网络的结构(spatio-temporal CNNs)。

论文主要贡献:

1.该方法提升了原有的语义分割结果。

2.提出一种结合时间特征与空间特征的端到端架构。


网络结构

论文想法比较简单,对于时序特征的处理也选择了经典的LSTM,整篇论文写的中规中矩,个人觉得没什么亮眼的地方(或者我没看出来)。

论文不足:

1.没有充分利用帧与帧之间的相关性,由于摄像机采样频率很高的话,会导致相邻帧之间差异很小,所以对每一帧都进行处理会浪费计算资源。

2.模型过于复杂,无法达到实时的要求。

2.Semantic Video Segmentation by Gated Recurrent Flow Propagation(基于门控递归流传播的语义视频分割 )

在视频语义分割问题当中,还有一个无法避免的问题就是确少高质量的标注数据,因为视频任务数据量大(假设一秒30帧,一分钟的数据就是1800帧)而语义分割的数据标注极为繁琐耗时(大约30分钟可以标注一张)。因此,如何有效利用视频语义分割任务中少量高质量标注数据集达到好的分割效果也是一个很好的研究方向。针对少量标注样本问题,主要解决方案就是进行弱监督或者半监督学习,弱监督学习方法不适用完整标注数据集进行训练,而是使用大量的分类或者检测数据集进行训练,从而减少标注成本提高分割准确率;半监督学习则是使用少量标注数据集训练网络以求得到一个较好的泛化模型,在视频语义分割任务当中就是关键帧提取,只针对视频中少量关键帧的标注数据进行训练,使模型适用于整个视频流。

在本篇论文中,作者设计了一个叫做Spatio-Temporal Transformer Gated Recurrent Unit(不会翻译)的单元来融合各帧信息,作者认为相邻两帧之间包含大量冗余信息,但是两帧之间差异较大(漂移形变)的区域包含的信息将十分有意义,作者使用了光流来衡量漂移形变比较明显的区域。


STGRU


GRFP

该网络使用标注帧的前后相邻几帧的特征对当前帧的特征进行修正,具体训练方法可以细读论文。

3.Video scene parsing with predictive feature learning(PEARL)


约束特征学习

这篇文章是融合了单帧的信息与temporal context信息得到更好的测试结果。作者开篇酒就用三行结果把论文思想讲的很清楚了,四行图片中,第一行为输入的四帧相邻图片。

第二行为单独对每一帧进行语义分割得到的结果,可见红框标示的区域用很多不一致的内容。

为了利用temporal信息的连续性改善分割结果,作者共进行了三个部分的主要工作:

1.Predictive Feature Learning: 在这部分中,作者利用时序信息进行了unsupervised pre-training,即输入连续的4帧图片,去预测接下来一帧的内容。通过这样的预测,可以使这样的网络学习到时序上的连续性,并使用这样的信息进行预测。网络结构上标准的GAN做法,唯一区别在于generator其实是一个conditional generator,即需要输入前4帧图片。所以genetator基于现有常见网络结构,只是在其上增加一个输出层。在loss设计方面,一方面是要求输出的图像和下一帧l2距离接近,另一方面训练了一个discriminator来判断当前图像是真实的还是网络预测的。优化目标即要最小化l2距离,并迷惑discriminator真假。

2.Predictive Parsing: 在这部分中,作者使用在前面步骤中学到的Encoder预测下一帧的特征来预测下一帧的分割结果。所以在原网络结构上去掉了discriminator,加上了新的decoder输出分割结果(上图第三行)。可见,单纯通过预测得到的结果可以保持良好的一致性,但是和单帧预测比起来会失去节信息。所以需要将这两种方法结合。

3.将预测结果和当前帧分割结果结合起来,得到最终的分割结果。


网络框架

上图中的第四行。

虽然本文需要用到GAN网络进行特征预测,但考虑到GAN网络可以离线训练,因此实际应用当中并不需要消耗大量计算资源,根据作者的描述,处理一张1024*2048的图片只需要0.8s,但还远远达不到实时的要求。

启发:

1.使用GAN进行数据增强可以得到较好的效果,或者利用GAN做一些出色的工作。

2.如何更高效的利用相邻视频帧之间的一致性还值得深入思考。


4.Semantic Video CNNs through Representation Warping

也是一篇利用相邻帧之间的光流场来进行模型优化的工作,以较小的计算量增加为代价来提升性能,适用于许多基于CNN的网络架构。作者把这项技术称为NetWarp,用来对CNN网络中的中间层进行进行优化。


NetWarp


计算过程

启发:

1.传统的计算机视觉发放(光流、角点检测、边缘检测方法等)可能会对深度学习方法有帮助,如何结合经典方法与深度学习是一个值得思考的方向。

2.深度学习模型中,相邻帧之间的特征在模型中的表达相差并不大,尤其是高层特征,如何利用这个特点减少计算量?

关于利用帧间相关性信息进行语义分割的优秀文章还有很多,但其实在自动驾驶任务中,对实时性的要求可能更高一些,因此接下来介绍几篇解决实时性问题的文章。

祝好!愿与诸君一起进步。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 204,684评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 87,143评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 151,214评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,788评论 1 277
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,796评论 5 368
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,665评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,027评论 3 399
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,679评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 41,346评论 1 299
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,664评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,766评论 1 331
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,412评论 4 321
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,015评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,974评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,203评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,073评论 2 350
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,501评论 2 343

推荐阅读更多精彩内容

  • (本文转自雷锋网,转载已获取授权,未经允许禁止转载)原文链接:http://www.leiphone.com/ne...
    zhwhong阅读 38,494评论 1 89
  • 接着介绍图像语义分割中解决分割精细度的另一种解决方案--多尺度特征融合。在基于FCNs的语义分割架构中,如何有效的...
    我爱大头老婆阅读 3,721评论 0 0
  • 落入座位的红头巾,仿佛看见昨夜的欢愉,你在跳着恰恰,透着拉丁风情,冒泡的香槟,吐着浓郁的香气,抱着棕色的头,昏昏欲...
    青云剑客阅读 379评论 1 4
  • 2018-4-25 晴 星期三 亲子日记第214篇 (一)第一天晨跑 生命在于运动。前天就计划好了,早上起来和儿子...
    敏文妈咪阅读 581评论 2 4
  • 卧室有四壁,还有家具电器。想象一下,如果卧室只有四壁,而无其他,会是什么样子的呢?走进卧室,一扇窗户,没有窗帘,屋...
    李一十八阅读 561评论 0 2