什么是图像检索算法?
图像检索是从图片检索数据库中检索出满足条件的图片,图片检索技术的研究根据描述图像内容方式的不同可以分成两类:1)基于文本的图像检索技术,简称TBIR; 2) 基于内容的图像检索技术,简称CBIR。 TBIR技术是利用文本描述的方式来检索图片;CBIR技术是利用图片的颜色,纹理以及图片包含的物体,类别等信息检索图片,它分为检索同一个物体地不同图片和检索同一个类别地图片。
图像检索技术的步骤
图像检索技术主要包含几个步骤:输入图片,特征提取,度量学习,重排序
特征提取: 即将图片数据进行降维,提取数据的判别性信息,一般将一张图片降维成一个向量;
度量学习:利用度量函数,计算图片特征之间的距离,作为loss, 训练特征提取网络,使得相似图片提取的特征相似,不同类的图片提取的特征差异性较大。
重排序:利用数据间的流形关系,对度量结果进行重新排序,从而得到更好的检索结果。
现存问题
相同物体图像检索
相同物体图像检索是指对查询图像中的某一个物体,从图像库中找出包含有该物体的图像。对于相同物体图像检索,在检索相同物体或者目标时,易受拍摄环境的影响,比如关照的变化,尺度变化,视角变化,遮挡以及背景的杂乱等都会对检索结果造成较大点的影响。
相同类别图像检索
相似图像检索的目标是从图像库中查找出那些与给定查询图像属于同一类别的图像。对于相同类别图像检索,面临的主要问题是属于同一类别的图像类内变化巨大,而不同类的图像类间差异小。
提升检索性能的一些思考
检索目标背景杂乱
- 在实例检索中,复杂的背景噪声直接影响了最终的搜索性能。很多队伍首先尝试使用目标检测(faster-rcnn) RPN定位感兴趣的区域。 然后在进一步地学习特征,比较相似度。 2. 预处理:自动定位用户感兴趣的商品,去除背景,多主体等因素的影响,也有利于抽取的语义特征的对齐。
类内差异行性与类间相似性(高层语义和底层特征融合)
很多方法都是用最后一个卷积层或全连接层的特征进行检索,而由于高层特征已经损失了很多细节信息。对于更深的网络,损失更严重。高层语义和底层特征融合很重要。不同feature map 进行融合,这不仅利用了高层特征的语义信息,还考虑了低层特征的细节纹理信息,使得实例搜索更加精准。
提升速度
- 特征聚类 2.通过识别目标主体的品类。使得在检索时可以在该类别的数据子库进行搜索,提升检索的效果和效率
其他技术
- 将图像相关文字描述与图像的低层特征融入到一个CBIR系统中 2. 反馈技术,强化学习。 3. 一阶池化特征和二阶池化特征融合。二阶池化方法通过捕捉图像二阶统计变量,如协方差等 4.联合特征学习和属性预测。 同时学习特征和预测图像的属性(多任务训练),从而得到更区分性的特征。loss函数为softmax loss 和 度量学习loss相加。