摘要
使用合成图像来训练深度网络的能力是非常有价值的,因为很容易用这种图像创建一个几乎无限的训练集,而捕捉和标注真实图像可能非常麻烦。然而,合成图像与真实图像并不完全相似,将其用于训练会导致性能不佳。
在本文中,首先计算真实图像的特征,将其映射到合成图像的特征空间,然后将生成的特征作为另一个网络的输入,例如预测三维手势的网络。由于使用合成图像可以非常有效地训练该网络,因此它在实践中表现得非常好。在NYU数据集用于从深度地图进行三维手姿态估计,取得目前最好的效果。
关键
- 网络结构
训练
使用合成图片训练网络
-
使用姿势相同的真实-合成图片对训练映射网络, 与真实图片相同姿势的合成图片经的到的特征与真实图片经得到的特征作Loss
使用真实图片训练完整网络
-
损失函数
其中
-
为用合成图片训练的预测的3D坐标误差
-
为用真实图片训练的完整网络预测的3D坐标误差
-
为真实图片相同姿势的合成图片经的到的特征与真实图片经得到的特征作Loss
-
映射网络g的作用
- 手势预测
预测网络结构类似参考DeepPrior++
结果
Geforce TITAN X - 110fps