TALL: Temporal Activity Localization via Language Query

Introduction

这篇论文讲的是输入文本和未处理的视频，定位到文本所描述的视频片段（开始结束时间）。

image

Model

image

这里主要分为四大部分:

1.Visual Encoder:

处理过程

以固定帧（64、128）窗口去框视频作为一个clip，并将周围前后2n个clip作为context信息参与编码，每次从一个clip中采样nf帧，通过clip-level extractor输出一个视频编码。周围context还要进过一个pooling层计算平均值，最后线性映射为一个ds维的fv。

image

Clip-level extractor

这里用的片段级别级别的编码器用的C3D 卷积神经网络，不同于二维卷积神经网络对图像处理，只能获得空间信息，三维还保存了时间序列的信息，便于进行视频动作分类等。

image

这里通过输入一个7帧的连续视频片段，先经过handwired处理之后得到五个通道的clip,分别是灰度、x、y方向上的梯度，x、y方向上optical flow（这个表示图像上的像素在连续两帧的位移矢量，便于判断物体运动情况）的梯度。之后在c2卷积层为了增加feature map信息，用了两个不同的kernel，不断进行卷积降采样最后极大程度压缩了时间信息，得到一个128维向量用来表示这个7帧的clip。

image

video clips with a size of c × l × h × w (c:通道数，l维帧数)
kernel size by d×k ×k（d:时序深度）

Sententce Encoder:

1.word2vec+LSTM

word2vec是一种将单词表示成向量的编码器。不同于独立热编码用所有单词数长度的向量来表示单词，它根据一种分布相似性概念来训练这个模型，就是单词可以近似用出现这个单词的上下文文本来表示。

image

用一种深层向量表示词汇，使得语义相似的向量来自于语义信息相似的上下文信息。
他用一种固定滑窗的方式去训练语料库中每个单词，每个单词作为中心词汇去预测周围2w个单词出现的概率，最后将这些概率分布求似然估计，找打最大theta。

image

Multi-modal Processing Module

对两个模态的向量进行向量点积和加，以及直接连接（2ds维）后全连接变为ds维后的三种向量拼接之后再全连接输入fsv。

image

4.Temporal Localization Regression Networks：这个回归网络用语对不与语句匹配的视频时间点进行回归更接近ground truth（这个ground truth就是满足正训练样本的clip-sententce对）。它输出的是：clip中点以及长度的偏移。

image

Training

Loss

image

N为batch-size大小，csi,i为匹配对值为正，csi,j为不匹配对值为负

image

t*是和groundtruth的偏差，x表示中点，y为长度。
R为smooth L1（x）损失函数。

Sample

图片.png

train:以滑动窗口(64、128、256、512帧的滑窗)的形式采集训练样本，满足一定条件才作为train样本。一个匹配的groud truth片段被割成多个匹配对，新的匹配对计算与ground truth的偏差进入回归训练和匹配得分训练网络。

test：输入句子和视频，以固定的滑窗（128、256帧采样），计算每个句子窗口对的匹配分数。最终得到n个匹配分数最高的clip，取最高的作为输出预测起始时间，如果与ground truth Iou>m视作匹配成功。

Baseline

评价指标：
R@n,IoU=m ：输出与一个句子最匹配的前n个时间片段，经过回归之后至少有一个片段与句子匹配IoU>m的概率

最后编辑于：2018.12.17 11:45:30

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 204,921评论 6赞 478
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 87,635评论 2赞 381
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 151,393评论 0赞 338
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,836评论 1赞 277
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,833评论 5赞 368
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,685评论 1赞 281
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 38,043评论 3赞 399
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,694评论 0赞 258
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 42,671评论 1赞 300
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,670评论 2赞 321
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,779评论 1赞 332
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,424评论 4赞 321
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 39,027评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,984评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,214评论 1赞 260
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 45,108评论 2赞 351
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,517评论 2赞 343

TALL: Temporal Activity Localization via Language Query

Introduction

Model

1.Visual Encoder:

处理过程

Clip-level extractor

Sententce Encoder:

1.word2vec+LSTM

Multi-modal Processing Module

Training

Loss

Sample

Baseline

推荐阅读更多精彩内容