Paper Reading | From Synthetic to Real: Unsupervised Domain Adaptation for Animal Pose Estimation

原文链接：https://openaccess.thecvf.com/content/CVPR2021/html/Li_From_Synthetic_to_Real_Unsupervised_Domain_Adaptation_for_Animal_Pose_CVPR_2021_paper.html

这篇paper来自CVPR2021，针对动物的姿态估计来做跨域的迁移学习。
（PS：文章不是直译，部分地方加入笔者自己的理解，有错误烦请指出共同学习~）

1 Introduction

动物姿态估计是近年来越来越受到关注的一个重要领域。(感觉蛮新颖的，之前看到过的工作都是人体的姿态估计) 这项任务的主要挑战是缺乏标记数据，个人认为这也是迁移学习要解决的一个主要问题。现有的工作的基本方法都是利用源域数据来生成一个pseudo label（伪标签）来解决这个问题。但是问题在于，即便使用了consistency check策略或者基于confidence值的过滤方法，这个pseudo label也很有可能是noisy的，会对后面的任务产生影响。所以文章提出一种多尺度的域自适应模块(MDAM)，以减少合成数据和真实数据之间的域的差距，基于这个pipeline，文章的贡献我认为主要在于对这个pseudo label的更新，文章称之为在线粗到细的标签更新策略（online coarse-to-fine label updating strategy）。具体来讲，在coarse更新循环中引入自蒸馏（self-distillation）模块，在fine更新循环中引入mean-teacher模块，生成新的伪标签，逐步取代旧的伪标签。就是逐步的更新这个pseudo label，使整个方法的效果更好。文章在TigDog和VisDA2019数据集上评估了方法，并有大幅度改进。文章还通过对unseen的领域和动物类别进行泛化性测试，证明了我们的模型的泛化能力。

我们根据深度网络的记忆效应（memorization effect）[3,42]设计了伪标签更新策略，即深度网络在早期从干净的样本学习，然后最终记忆(即overfit)嘈杂的样本。(这里不知道是不是过拟合的相同说法？感觉文章的伪标签更新能够提升效果也是在一定程度上在解决网络过拟合的问题。)为了避免记忆效应，我们在自蒸馏模块和mean-teacher训练还处于初级阶段时，更多地依赖于初始的伪标签。当自蒸馏模块和mean-teacher获得了足够的能力来生成更可靠的伪标签时，我们的粗到细的伪标签更新策略逐渐取代了有噪声的初始标签。

可以通过这种更新策略，解决图中马的后蹄预测不准的情况。

2 相关工作

Human Pose Estimation

不展开了，这篇文章的任务也是类似的，只不过人变成动物了。

Animal Pose Estimation

和人体数据的不同之处就是数据的欠缺。Mu等人[23]使用从CAD模型生成的合成动物数据来训练他们的模型，然后用于为未标记的真实动物图像生成伪标签。随后，基于三个一致性检验标准，逐步将生成的伪标签纳入训练中。Cao等人[6]提出了一种跨域自适应方案来学习人类和动物图像之间的共享特征空间，这样他们的网络就可以从现有的人类姿态数据集中学习。他们还根据置信度分数在训练中选择伪标签。【感觉这篇也是结合这两篇文章来做改进】

此外，还有一些作品主要关注三维动物的姿势和形状估计[48、47、46、5、18、4、48]通过玩具动物扫描学习建立一个统计三维形状模型SMAL，为了恢复更详细的动物的三维形状，[47]从Smal中规范了网格的变形，以约束最终的形状。[46]在一个数字生成的数据集上训练一个神经网络，以预测Smal模型的三维姿态、形状和纹理。

Unsupervised Domain Adaptation

无监督域适应的目标是从标记源域学习在未标记目标域上表现良好的模型。一种主流的方法是基于对抗学习[11,16,33,36]，其中特征提取器试图学习域不变的特征，以fool domain识别器。与对抗性学习的alignment可以促进标签从源域转移到目标领域。除了特征级对齐，其他工作还尝试减少输入[16]或输出级别[32,40]的域位移（domain shift）。在这项工作中，我们将一个域分类器应用到多个尺度的特征映射中，这样全局特征和局部特征都可以对齐。

Learning from Noisy Data

从噪声标签中学习是一个重要的研究课题，特别是对深度学习来说。这是因为深度学习算法严重依赖于收集成本昂贵的大规模标记训练数据。
方法：

为了减少噪声标签的负面影响，一些方法集中通过设计鲁棒损失[12,34,44]或用transition matrix[27,13,37]校正损失来训练噪声鲁棒模型。
基于样本选择的方法[22,17,14,41]尝试在每次迭代中选择可能干净的样本进行训练。最具代表性的方法之一是Co-Teaching联合教学[14,41]，它在开始时对所有样本进行训练，并逐渐丢弃具有较大损失值的样本。

这种基于深度网络的记忆效应[3,42]，也采用了其他作品[17,30]来选择更可靠的标签。给定有噪声的伪标签，我们也进行了类似于联合教学的样本选择。此外，我们利用自蒸馏模块和教师网络的知识逐步更新伪标签。

3 Method

我们提出了一种无监督的域自适应方法的动物姿态估计。标记源域S由合成动物图像Is和CAD模型生成的相应姿态标签YS组成，未标记目标域T由无姿态标签的野生动物图像组成。其目标是学习一个能够很好地适应未标记目标域的姿态估计模型。

Pipeline

3.1. Multi-scale Domain Adaptation Module

MDAM模块由两部分组成，一个是姿态估计，一个是域分类器D。

姿态估计：

Animal pose estimation loss in the source domain：

在关节点级别上计算源域上heatmap的loss

在目标域上，使用伪标签Ht计算loss：

目标域上的loss计算，由于缺少标签，所以使用伪标签。

这些伪标签˜HT及其相应的置信分数CT是由我们的姿态估计模块根据[23]的训练过程在源域数据上预训练后生成的。

又设计了一个交叉熵损失，用于计算分类效果：

image.png

对抗学习就是特征提取器试图通过最大化Ld来欺骗域分类器。