introduction
用dl的方法去预测人的attribute,这是一种local的方法,在这篇文章中是对global方法的一种补充(两者同时作用)。以下图为例,一个只捕获global特征的reID system是无法辨别下面的人的,但是人眼可以,因为人眼在无法从全局信息分辨的时候,还能更进一步的仔细观察特征,即attribute。
这篇文章和以往用attribute来做reID的方法不同之处在于,以往的文章用的都是image pair 或者是 triplet (loss),原因是以往的dataset对于每一个ID只提供一对图片,而现在的dataset能提供更多的训练样本,所以用classification(loss)的方法会更好一些。
然后我们需要理解两个概念,一个是ID-level attributes,意思是属于某个人的具体的特征,比如性别,带没带帽子等,另一个是Instance-level attribute,比如在打电话,在骑自行车等,这篇文章关注的是前者。
作者提出一个网络结构(w attribute-person recognition (APR) network),类似于我前一篇解读的paper,分成两个branch,一个branch就是提取全局特征做reID,另一个branch用于提取attribute信息。结构图如下
此外,作者还做了件好事,就是因为他们要用attribute信息,所以他们人工标注了一部分信息。
related work
基于CNN的前人的工作分成两种,一种是deep metric learning, 另一种是deep representation learning,前者在训练小数据集上有优势。但是后者目前更受欢迎。本文的工作是基于后者的。