MIST: Multiple Instance Self-Training Framework for Video Anomaly Detection

Abstract

    MIST多实例自训练框架来有效提炼仅具有视频级注释的特定人物区别性表示。MIST由两部分组成(1)多实例伪标签生成器,该生成器采用稀疏连续采样策略产生更可靠的clip-level伪标签。(2)self-attention feature encoder,该encoder目的是自动关注帧中的异常区域,同时提取特定的任务表示。作者采用自训练方案优化两个组件,最终获得任务特定的特征encoder。

1、Introduction

视频异常检测VAD目标是对视频中的异常进行时间或空间定位。    弱监督异常检测WS-VAD,获得video-level标签更容易,并且产生可靠的结果。现有的WS-VAD分为两类:encoder-agnostic(与编码器无关) and encoder-based methods(基于编码器方法)。

弱监督方法分类:

(1)与编码器无关的方法。encoder-agnostic方法使用比如C3D或I3D这样的编码器来提取视频的任务无关特征,从而估计异常得分。这类方法只训练分类器。Sultani[23]等人提出了一个深度MIL排序框架来检测异常,Zhang[32]等人使inner-bag score gap regularization。Wan[27]引入了动态MIL loss和center-guided regularization。

(2)基于编码器的方法。encoder-based 方法同时训练feature encoder和classifier。最先进的encoder-based method是label noise clearner,从由label noise cleaner network过滤的noisy label中进行学习。然而,label noise是在一开始的videl-level标签分配给每一个clip时产生的,所以,模型一开始会被这些label noise所影响。Zhu[38]等人提出了基于注意力的MIL模型与基于光流的auto-encoder结合来编码运动感知特征。Zhong[35]等人将弱监督VAD作为标签噪声学习任务,提出使用GCN过滤标签噪声来迭代模型训练,但迭代效率低,进展缓慢。有些工作侧重以离线方式[26,29]或粗粒度方式[23,26,29,32,38]检测异常,这不符合现实监控应用。

    作者发现现有方法没有充分考虑训练task-specific feature encoder来为事件提供可区分的表示。为克服这一难题,作者开发了一个两阶段的自训练网络,目的是训练一个只有video-level的弱标签的特定任务的encoder。这是一个多实例自训练框架,包含多实例伪标签生成器和self-attention的 feature encoder Esga。

(1)伪标签生成器。基于多实例的方法可以比哪些简单的将video-level标签分给每个clip的方法更好地生成伪标签。采用稀疏连续采样策略(sparse continuous sampling strategy)来使network将注意力关注在异常发生地方的上下文。(2)self-attention引导的feature encoder。监控视频中的异常可能发生在任何地方,任何大小,而在动作识别的视频中,动作经常以大的运动出现。因此,作者利用提出的self-guided attention module来强调异常区域而没有外部注释,而是正常视频的clip-level注释和异常视频的clip-level伪标签。这里也采用一个深度MIL排序损失来训练多实例伪标签生成器。这里与noise cleaner的区别是,采用稀疏-连续采样的策略来更加关注异常实例的上下文。

    作者使用生成器G为异常视频生成对应的clip-level伪标签,采用这些伪标签和对应的异常视频以及正常视频来refine特征编码器ESGA。因此,可以得到一个基于特定任务的特征任务编码器,伪监控视频提供有区别的表示。这是什么意思?为什么就是特定任务了???????还有稀疏连续采样策略和self-guided attention module是怎么工作的??

    作者使用了两种encoder,C3D和I3D。基于encoder来做,而且使用学习到的伪标签来优化特征编码器Esga。设计了一个两阶段的自训练方法来优化Esga和伪标签生成器G,而不是迭代优化。

Multiple Instance Learning

    MIL使一种流行的弱监督方法,在与视频相关的任务中,MIL将 a video视为一个bag,把clips in the video as instances,通过特定的特征/分数聚合功能,video-level标签可以用于间接监督instance-level learning。聚合函数有很多,例如max pooling,attention pooling、作者在这里的多实例伪标签生成器中采用稀疏连续采样策略,以迫使网络更加关注最异常部分周围的上下文。????什么意思。

Self-training

    自训练方法通过在未标记数据上生成伪标签来增加标记数据,从而利用标记和未标记数据上的信息。

    作者提出一个多实例自训练框架,通过一个多实例伪标签生成器为异常视频中的所有clip分配clip-level伪标签。作者利用所有视频中的信息来微调一个self-guided attention feature encoder。

2、Approach

    VAD依赖于清晰的表示场景中事件的区别性表示,而动作识别数据集预处理的特征编码器对于监控视频来说并不完美,因为存在domain gap的问题。为解决这一问题,作者引入一种自训练策略来改进所提出的特征编码器Esga。


流程图

    MIST在伪标签生成器G的作用下为异常视频里的每个实例分配一个clip-level label。之后,MIST会利用所有的视频信息来微调encoder Esga。

2.1 Overview

    a video V=\left\{ v_{i}  \right\} _{i=1}^N 
 with N clips,video-level label Y \in \left\{ 1,0 \right\} 表示异常事件是否发生在视频中。

V是一个bag,clip vi是一个instance。a negative bag(Y=0)表示 B^n = \left\{ v_{i}^n  \right\} _{i=1}^N
里没有任何异常实例。positive bag(Y=1)表示B^a = \left\{ v_{i}^n  \right\} _{i=1}^N里至少有一个异常实例。

(1)针对两个包B^a,B^n提取特征,为\left\{ f_{i}^a  \right\} _{i=1}^N\left\{ f_{i}^n  \right\} _{i=1}^N。这里feature encoder可以使用C3D或I3D,是预训练好的E。

(2)把提取的特征放入伪标签生成器G中,得到每个clip的异常得分\left\{ s_{i}^a  \right\} _{i=1}^N\left\{ s_{i}^n  \right\} _{i=1}^N

(3)对估计的得分使用smoothing和normalization来产生用于异常视频的伪标签\hat{Y^a } = \left\{ \hat{y^a } \right\} _{i=1}^N  。注意到这里G只是为仅具有video-level标签的异常视频生成clip-level标签。而伪标签生成器G的参数通过深度MIL排序损失来更新。

(4)伪标签用来监督self-guided attention feature encoder的学习,从而形成两阶段的自训练方案。这个Esga是通过添加self-guided attention module从I3D或C3D改编来的。

MIST Overview
MIST Algorithm

    主要有一下几个问题:(1)self-guided attention module是怎么帮助feature encoder来更关注视频中的异常区域,从而产生有区别性的表示。(2)伪标签生成器G中引入稀疏连续采样策略,以强制网络更关注最异常部分周围的上下文。这是怎么做到的?(3)引入MIL排序损失来优化生成器G(4)交叉熵损失函数来训练作者提出的由异常视频的伪标签和正常视频的clip-level label监督的特征编码器。

2.2 Pseudo Label Generation via Multiple Instance Learning

    Zhong[35],label noise cleaner中,只是简单的把video-level label分配给每一个clip,之后在最开始训练一个普通的feature encoder。作者引入了基于MLP的伪标签生成器生成伪标签来微调Esga。

    现有的方法大多以粗粒度的方式把视频分割为固定片段,不管片段的持续时间如何,都倾向于将异常模式隐藏为通常构成大多数的正常帧,即使是在异常视频中。然而,通过以细粒度的方式以较小的时间尺度进行采样,网络可能会过分强调最异常的部分,而忽略周围的上下文。事实上,异常通常会持续一段时间。在假设异常持续时间最短的情况下,MIL网络被迫更加关注最异常部分的上下文。

    为适应未修剪视频持续时间和类别数量的不平衡,作者引入了一个稀疏连续采样策略:

从E提取的\left\{ f_{i}  \right\} _{i=1}^N ,从视频clip中采样L个子集,每个子集包含T个连续clip,L个子包表示为:B =\left\{ f_{l,t}  \right\} _{l=1,t=1}^{L,T}  。T是一个超参数,也即是异常最小持续时间的一个假设。为每个子包打分,结果是T个连续clip的平均值,S_{l} = \frac{1}{T}  \sum_{t=1}^T s_{l,t}

    经训练的G为所有异常视频的clip打分,异常视频标记为:S^a = \left\{ s_{i}^a  \right\} _{i=1}^N ,减小异常得分的抖动:s_{i}^a = \frac{1}{2k}\sum_{j=i-k}^{i+k}s_{j}^ay_{i}^a = (s_{i}^a -minS^a )/(maxS^a-minS^a),i\in [1,N]之后,{V,Y}作为标签去微调Esga。

2.3 Self-Guided Attention in Feature Encoder

    

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 199,711评论 5 468
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 83,932评论 2 376
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 146,770评论 0 330
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 53,799评论 1 271
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 62,697评论 5 359
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,069评论 1 276
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,535评论 3 390
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,200评论 0 254
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,353评论 1 294
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,290评论 2 317
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,331评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,020评论 3 315
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,610评论 3 303
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,694评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 30,927评论 1 255
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 42,330评论 2 346
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 41,904评论 2 341

推荐阅读更多精彩内容