摘要
若已知手部一系列参数(骨骼、尺寸、外形等),那么给定某个手势一个视角的图片,是可以推测该手势另一个视角的图片的。反之,基于两个视角的图片,可以推理出手部的一系列参数。论文基于这一观点,设计网络,使用同手势双视角图片对来训练网络,网络接收一个视角图片为输入,预测一组隐藏参数,再基于这组参数预测输出另一个视角的图片作Loss。这组隐藏参数相当于对手部参数化,并且这组参数是特定于手势的。而全过程无需标注关节点数据。
介绍
-
表示某个手势的参数,给定i(j)视角的手势图片()存在一个映射,使得:
虽然是不同视角的图片,但是同手势,所以手势参数是相同的。
-
反之,基于一组手势参数,也应存在逆映射,使得:
-
所以基于同手势双视角图片对,有:
如果i和j相同(即同一图片),那么上述就是一个自编码器,这在当前情况下很难学习手势信息,所以在本文中
关键
-
编码-解码结构
本文仍然使用了基于CNN的编码-解码器结构,为编码器,为解码器。接收为输入,输出隐藏参数。接收为输入,生成另一个视角的图片
损失函数
其中即距离
- 网络结构
需要使用3D关节点标注数据训练,完成手势隐藏参数到3D坐标的映射。
- 半监督训练
用有标注和无标注同时训练网路。当使用标注数据时,置为0
其中