MegaAge数据集采集方法
1. 将FG-NET中的带年龄标签的人脸作为reference image
2. MegaFace及YFCC100M中random选择的图像作为目标集
3. 首先用gender classification进行性别识别
4. 然后用一个existing model trained on MORPH来粗略估计年龄
5. 在MegaFace及YFCC100M 中选择3个比估计年龄大的图片及3个比估计年龄小的图片
6. 根据这六个图像,依次与图片对比,获得age posterior
7. 90%几率大于15岁的interval的样本被抛弃。
8.最终获得的megaAge一共有41,941个image
从年龄comparison到age posterior
age posterior就是各个age comparison的相乘,最后得到一个凸函数。
deep learning from Age Posterior
cost sensitive loss 用作矫正ordinal hyperplane module; ordinal hyperplane module仅仅收集了年龄label的ordinal信息;缺失了年龄的estimated range信息。
sigmoid layer把ordinal classification转化成一个能作为age posterior distribution module的输入。第k个分类器的输出可以被看作一个随机事件的概率。如果assume这k个分类器是independent的,那么age posterior则可以计算为多个分类器的乘积。
如果将整个系统进行end to end training。则可以用KL-divergence来计算loss。对于标注了真实年龄的数据集,将groundtruth设定为sharp Gaussian distribution with sigma =2。对于category base的database,将每个category作为一个distribution的interval。3,对于MegaAge,则把age posterior作为ground truth