When I read the paper3,I get the contention of the features descriptor of bag of visual words of the recognition framework.Then I attempt to know its theory.
Here,I'd like to put the blog which I think is great to give the informations primary-learners want to know.http://blog.csdn.net/wsj998689aa/article/details/47089153
Notes:Bag-of words是SIFT算法在目标识别方面的应用
对于图像处理而言,关键在于找出“视觉词汇”构建出图片的检索字典,然后对图片进行编码。虽然同类图片不同实例之间存在差异,但其局部的一些特征时基本相似的,故由此可以利用SIFT算法提取图像中局部不变特征来构建图像的视觉词典,然后对图像进行编码。其具体步骤如下:
于是便可用一个相对较少维度的数值向量来描述一幅图像,相比于用SIFT来描述一幅图像(每个SIFT矢量为128维,且每幅图像通常包含成百上千个SIFT矢量),用Bag-of-words来描述使得在进行图像间相似度计算时效率能大大提高。然后将用bag of words表示的图片用于进行分类器的训练。
博文最后还说明了如何实现BOW来表示一幅图像,稍晚点试试~