摘要
用于学习三维手部姿势估计模型的数据标记是一项巨大的工作。由于合成数据和真实数据存在'domain gap',直接使用现成的、准确的模拟合成数据效果不好。然而,要成功地利用合成数据,目前最先进的方法仍然需要大量标记的真实数据结合训练。本文通过学习从真实数据的特征映射到合成数据的特征来消除'domain gap',并使用大量的同手势双视角未标记的真实数据训练网络,改善性能。
关键
-
手势预测
使用大量合成数据训练
-
特征提取模块
-
手势回归模块
-
损失函数
-
-
从无标注数据学习真实合成映射
-
学习特定于手势的隐藏(潜在)特征表示
使用同手势双视角图片训练其中, 为图片经提取的特征,为预测的另一视角的图片
所以,损失函数为
通过此方法,使学习提取特定于手势的特征
-
对齐真实数据和合成数据在隐藏空间的分布
基于上一步,我们能学到特定于手势的潜在特征,将其看作分类问题看待,即相当于相似的手势在潜在空间上会聚集,形成一个个簇。而考虑到真实数据和合成数据的差异性,虽然它们经过训练都形成各自的簇(即手势的离散分布),但是这些簇在隐藏空间上的分布位置是不同的。本文提出对齐二者的分布来解决真实特征到合成特征的映射问题。
传统方法都是使用对应的真实-合成图片对来训练此映射,本文提出一个新颖的方法:使用对抗网络的方法,设计一个生成器(映射函数),使真实图片的潜在特征映射为合成图片潜在特征。同时设计一个分类器,输入为前一步提取的隐藏特征,判断输入的图片是否真实图片,以此强迫网络对齐真实数据和合成数据在隐藏空间的分布。
令表示输入为真实图片,为合成图片
则,分类器的损失即所有预测错的图片数:
R为真实图片集,S为合成图片集
生成器的损失即所有被检测为真实的图片数:
-
-
网络结构