摘要
- 实验展示使用3D姿势先验能很提高预测精度和可靠性
- 提出使用上下文信息解决手指模糊问题
- 输入单深度图,将其看作2D图片使用2D卷积网络提取特征预测手势
介绍
- 使用瓶颈层方式添加约束(先验)
- 不同于之前的许多修正网络,本文取以初始预测点为中心的多个周边区域用于修正,并考虑了区域的大小使用不同的尺度提取特征
关键
-
问题描述
输入单深度图,假设手部是距离摄像机最近的物体裁剪手部区域,归一化, 输入网络,预测3D关节点坐标
-
网络结构
-
两个简单网络
-
多尺度网络结构
类似Hourglass采用多个下采样生层多尺度图片改善预测准确率
-
-
3D姿势先验
不同关节点之间具有强相关性,若有k个关节点,每个关节点共3k个自变量。但由于关节点之间的相关性,可能用更小的维度便可以表示这些关节点。所以本文通过插入瓶颈层,低维表示这些关节点相当于作为先验变相引入约束,而这些约束关系交由网络训练得到。最终在从这些低维表示回归重建3D坐标。
其中该瓶颈层参数使用PCA初始化。
-
修正网络
上下文信息对于修正预测来说至关重要。本文使用以初始预测点为中心的多个尺度区域输入修正网络,其中修正网络结构与上述多尺度结构(c)大致相同。
其中根据区域大小选择合适的卷积/池化核尺寸
最终的网络如下所示,
基于上一次的预测不断修正,迭代数次后输出最终的结果。