我对于Fisher Vector的理解主要来自对论文Fisher Kernels on Visual Vocabularies for Image Categorization的阅读。之所以想要了解下FV是因为之前做YouTube 8M短视频理解时查看他人的论文发现这个方法。那篇论文主要是对VLAD和FV进行了,其中对VLAD的改进进行了详细的讲解,但是并没有对FV进行清晰的阐述。因此我并不太清楚那篇文章是如何对FV进行改进。所以我选择这篇文章来了解下FV的思路,希望能更好的理解那篇文章是如何将FV和神经网络结合的。
所有的讲Fisher Vector的资料都先讲了下Fisher kernel,我的理解是Fisher kernels对输入向量进行了编码,以一个新的梯度向量来表示原输入向量,这个新的梯度向量就是Fisher Vector,编码方式如下:
这样编码的好处在于可以将任意长度的输入向量转换成定长向量。这个梯度向量就可以作为分类器的输入,完成图像分类等任务。但是对于用到内积的判别分类器来说,输入变量的标准化是很有必要的,因此引进了一个新的概念——Fisher information matrix,定义如下:
那么标准化后的梯度向量就可以表示为
这个公式就可以认为是Fisher Vector了。
首先我们假设visual word vocabulary(这里我是这样理解visual word vocabulary的,比如在短视频理解中label就是一个vocabulary)是由一个GMM(高斯混合模型)表征的。假设vocabulary中的单词数量为N,也就是一个N分类问题,那么GMM中高斯模型的数量也可以设置为N个。假设输入向量,将似然函数作为模型的损失函数,即,而每个特征的似然函数是,其中有。然后定义一个新的变量——占有概率(occupancy probability),表示特征属于第i个高斯模型的概率。利用目标损失函数对模型参数求导就有
计算完损失函数关于参数的梯度后就需要对这些梯度值进行标准化了,中间的推导过程我不会,直接贴上论文推出的最后结果:
对于每个高斯模型而言,可得到1个与权重相关的值,D个与高斯模型均值相关的值和D个与高斯模型方差相关的值。而一个GMM有N个高斯模型,所以得到的向量维度是,但是由于所有权重之和为1,所以只需要知道N-1个权重就可以了,所以最终的Fisher Vector的维度是。
讲了FV,顺便讲讲BOV,全称是bag of visual word,是受到自然语言处理中BOW的启发。前面不是提出了占有概率,表示特征属于第i个高斯模型的概率,在BOV表示中,第i个高斯模型出现次数(可以理解为T个特征属于第i个高斯模型的概率之和)可以表示为
每个高斯模型对应一个值,那么BOV表示就可以将输入向量变成一个新的基于出现次数的N维向量。
BOV和FV的对比:
BOV得到的是个极其稀疏的向量,因为BOV只关注了关键词(理解为单个的高斯模型)的数量信息,这是个0阶的统计信息;
但是FV并不稀疏,除了0阶信息,FV还包括1阶(期望)信息和2阶(方差)信息。
2018.12.18补充:
最初是看这篇文章Learnable pooling with Context Gating for video classification才直到Fisher Vector这个概念,为了更好地理解NetFV,所以我将传统的FV好好的学了下,但是经过对比发现,NetFV其实和FV还是有很大不同的,NetFV的编码方式如下:
其中,需要学习的参数是,和。相当于原始FV中的1阶(期望)信息,而相当于原始FV中的2阶(方差)信息。这跟上文最终得到公式还是有一定差别的,文中也很明确地说了NetFV中的参数和GMM是没有联系的,相反是一种判别的方式进行训练。我的理解就是除了是FC层的输出,和就是直接随机初始化2个参数表,然后在后续的训练中不断更新这2个表中的参数值。NetFV最终得到的编码特征就是将和拼接起来。