CVPR2021 AGORA: Avatars in Geography Optimized for Regression Analysis

0、关键词

synthetic dataset, 3D human pose and shape estimation, SMPL-X

1、链接

该论文来自德国图宾根大学（University of Tübingen）的马克斯普朗克智能系统研究所（Max Planck Institute for Intelligent Systems），所长是著名CV教授Michael Black。MPII在CV领域十分高产，自是不用多提，论文中使用的大量baseline，同样来自这个研究所已经发布的研究成果。

论文链接：https://arxiv.org/pdf/2104.14643.pdf

论文主页：https://agora.is.tue.mpg.de/index.html

论文代码：https://github.com/pixelite1201/agora_evaluation

论文提供了一个全新的人工合成数据集AGORA。该数据集由逼真的3D场景和人体模型合成，包含有3D/2D人体关键点、3D人体模型、2D人体分割掩码等丰富的标注，主要用于3D人体姿态与形状（3D human pose and shape，3DHPS）估计任务。更多细节请访问论文主页。

AGORA数据集样例展示

2、主要内容概述

※ Introduction

首先，论文在Introduction中重述了现在已公开的用于3DHPS任务的benchmarks的缺陷，例如，limited clothing, focus on single subjects, have limited occlusion, are captured in laboratory environments, or have a limited range of ages and ethnicities.，基于这些有“缺陷”的数据集，评价标准只能是3D joints，而不是更精确的body shapes，所以还有与AGORA数据集相关的新的评价标准evaluation protocol；

然后，作者开始介绍构建AGORA的思路，其中有两点最为重要。1）购买高质量的带有纹理的人体扫描模型（包括四个商业付费网站3DPeople、AXYZ、Human Alloy、Renderpeople），再依赖合成数据与图形学渲染（rely on synthetic data and a graphics rendering pipeline），基于丰富的背景（HDRI panoramas and 3D environments），用Unreal游戏引擎合成了大量逼真的图像。2）对于每一个3D人体扫描模型（一系列三维点），作者使用SMPL-X人体参数模型（由大量顶点和相互连接的三角形组成，CG中的常用3D模型）来精准地匹配它的身体形状，包括三个主要部分：整体（body）、手部（hand）、面部（facial）。【值得一提的是，论文使用的模型SMPL-X，以及相关的fit方法SMPLify均来自它们自己的实验室，研究传承相当紧密~】

※ Related Work

因为是发布数据集类的文章，作者主要强调了现有的人体相关数据集的“缺陷”。

Datasets with real images. 包括使用multiple synchronized cameras + optical markers构建的数据集HumanEva, Human3.6M, and TotalCapture，他们的缺陷包括lack of background variation in lab scenarios, only one subject in each image, no scene occlusions, and little clothing variety due to the attachment of markers；另外，Alternatively，也有一些数据集构建方法使用了marker-less motion capture，包括MuPoTS-3D, PanopticStudio, MPIINF-3DHP-Test, and HUMBI。这类方法则存在精度较marker-based方法更低的缺陷（due to yaw drift）。AGORA认为这样得到的标签只能算是参考数据（reference data），不能用来作为GTs，作为比较，他们提出了的SMPL-X meshes具有高保真度（fidelity），可以作为伪标签（pseudo ground truth）。最后，上述数据集中，只有PanopticStudio和HUMBI两个数据集包含了身体（bodies）标签的同时，还包括人脸（face）和手（hands）的标签。

Synthetic datasets. 首先提到合成数据集需要足够真实（sufficiently realistic），并指出了具体的衡量点，包括body shape, ethnicity, motion, cloth deformation, texture, and interaction with environments. 数据集MHOF, LTSH, 3DPeople, and SURREAL直接在背景图像中放置3D人体模型（如SMPL, MakeHuman, or Mixamo），而数据集MPI-INF-3DHPTrain and MuCo-3DHP则直接将分割得到的真人图像作为前景粘贴到2D背景图像中。作者认为这些方法生成的图像都不够真实，Such composition does not faithfully reflect the local statistics of pixel intensity in real images and does not support methods that learn how humans interact with scenes。唯一与AGORA比较相近的工作是SimPose，其构建思路与作者类似，但作者认为其场景简单、人体类别单一，且该数据集未公开。还有一些基于GAN方法的数据集如Human synthesis and scene compositing（AAAI2020）和Generating 3D people in scenes without people（CVPR2020），但生成模型得到的结果总会存在人工瑕疵（images artifacts），合成图像不适合（unsuitable）用来作为GTs。

Other human-related datasets. 还有一些数据集不包括3D人体标注，但是包含2D人体关节点或人体分割掩码标注（如OCHuman，LSP-Extended, COCO, and MPII），或者使用真实图像+拟合的人体模型作为GTs（如EFT（arxiv2020）, STRAPS（BMVC2020） and 3DOH50K（CVPR2020）），更进一步的，有些方法使用motion或multi-view matching来获得视频中复杂场景的人体模型。对于这类合成方式，作者认为尽管更鲁棒，但with unknown accuracy in body shape and pose.

最后，作者总结道，AGORA是集大成者，解决了上述众多缺陷AGORA provides realistic textures, complex body shapes and clothing, complex varied scenes and lighting, high-resolution (4K) imagery, varied occlusion, all with high-quality 3D ground truth.

AGORA与现有可用于3DHPS任务的数据集比较

※ Method: Obtaining reference data

作者的主要思路借鉴了三块内容：1）基于自己所在实验室之前的研究成果人体模型SMPL-X body model，和拟合人体的方法single-view SMPLify-X fitting，来拟合人体主体形状（包括body shape、face shape和hand shape），关于SMPL-X及SMPLify-X需要另外解读；2）借鉴另一项工作，即带有衣服的扫描人体的拟合方法fitting body shape under clothing（Detailed, accurate, human shape estimation from clothed 3D scan sequences （CVPR2017）），来拟合人体的皮肤（skin and hair）和所穿的衣服（clothing）；3）再使用Graphonomy（CVPR2019）来人工地调整标注皮肤和衣服相关的顶点（vertices）。最终复合多个terms得到目标函数。

另外，作者发现小孩（child）的人体扫描并不能像成人（adults）那样使用同一套人体拟合模型和方法，因此进一步提出了改进的方法，即使用SMIL（the mean infant body template）生成小孩的模板Tchild，再取其与成人模板Tadult的插值平均，细节见论文。

※ AGORA Dataset

AGORA数据集总计包括公开标签的14529张训练集图像（包含2930个scans）、1225张验证集图像（包含259个scans），和未公开标签的3387张测试集图像（包含1051个scans）。总计包含了4240个扫描人体模型（high-quality textured scans），其中有257个是儿童扫描体（child scans）。

另外，经过再次的人工修正（manually curate），这4240个扫描体中，有3161个同时包含对齐的人体、人脸和手（those with well aligned body, face and hands (3161, BFH)），有1079个仅仅包含对齐的人体（those only with well aligned bodies (1079, B)）。这意味着，如果基于AGORA做body estimation相关的任务，可使用全部数据集，如果需要做face或hand相关的estimation任务，仅一部分数据可用。

Fitting Accuracy 关于数据集中，3D人体的拟合精确度，作者基于the high-quality 3D scans，提出了两个考察关键因素Skin error和Penetrating clothing error。并用具体数值证明了伪标签的可信赖度（Thus, we believe that the SMPL-X fits provide valid pseudo ground truth.）

Evaluation metrics and Evaluation protocol 常见的用于3DHPS方法的度量标注，都需要在计算error之前，进行Procrustes alignment，制定的标注忽视了3D物体的尺寸、位移和旋转（eliminates discrepancies in scale, translation and rotation, measuring only the error in poses (PA-MPJPE) and shapes (PA-MVE/V2V)）。作者指出，这是因为当前HPS数据集的构成造成的，因为他们只有pose和shape的标注，而AGORA包含了complete 3D pseudo ground truth: body parameters of each person and their spatial arrangement in the 3D scene，足够支持更全面的误差度量。因此，作者不采用Procrustes alignment，并提出了一系列新的度量指标（包括MPJPE、MVE、NMJE和NMVE），用于单张图像中多人的pose和shape的估计误差度量，细节见论文。

※ Experiments

由于是数据集文章，作者需要强调的是数据集的优越性。作者设计了两种实验，一种是在AGORA上测试SOTA的3DHPS方法，来证明该数据集是否能反映当前领域的问题（指数据集确实更具有挑战性？）；另一种是测试AGORA是否能用来作为预训练数据集，帮助提升SOTA方法性能。【角度和思路值得借鉴~】

Baseline Evaluation. 通过比较发现，SOTA方法在旧的指标MPJPE和MVE下的表现好，但新的指标NMJE和NMVE下表现差，指出MPJPE alone is not enough to evaluate performance on multi-person images，说明AGORA揭示了多人姿态估计中的误检和漏检问题；接着，SMPL-X模型下，各个SOTA方法的表现并不统一，没有各项指标均表现最好的，于是提出了消融研究（ablation studies），讨论各项参数的影响occlusion, child shape, distance to the center of the image and orientation。【学会如何在自己的文章中，做此类消融实验】

Baseline Improvement. 作者选用三种不同的模型拟合方式，即Pretrained SPIN、SPIN finetuned with AGORA and EFT([MPII+LSPet+COCO])和论文提出的基于SPIN-ft的模型，然后再在两个数据集合（3DPW和AGORA）上进行测试，通过实验数据证明Training with AGORA leads to significant improvement in performance on both datasets。

※ Conclusions and Future Work

We have presented AGORA, a new dataset that goes beyond current datasets to include challenging cases of environmental occlusion, person-person occlusion, scale variation, children, crowds, etc. AGORA is challenging and reveals limitations of existing methods. Despite being synthetic, fine-tuning on AGORA improves performance of a SOTA method on the natural 3DPW dataset. We introduce a new metric to include misses and false positives and facilitate analysis of the SOTA methods on images with multiple people. We also introduce a simple child body model and provide better 3D ground truth for images with children. Future work should include adding images of varied camera height, indoor scenes, multi-view images, larger crowds, animals, and movement. 【贴个原文，学习一下总结方式】

3、新颖点

尽管是数据集论文，没有大量的公式，也没有提出花里胡哨的新算法，但是却解决了3DHPS任务中，始终没有真实且有可靠的GTs的多人姿态估计数据集的痛点。可以预见，这将推动一大批更高效的3DHPS方法的诞生。另外，本文有两个有趣之处：

1）站在巨人的肩膀上。AGORA的主要重难点在于生成并拟合逼真的3D人体模型，SMPL-X模型是关键，而其是现成的工作，且本就是作者自己所在实验室的成果，这个巨人正是自己的MPII实验室，提出AGORA事半功倍；

2）填补空白。尽管作者在文章中多次强调了AGORA如何解决了之前众多数据集的缺陷，但我认为，其主要贡献是融合了multi-person和in the wild两大特点，这是文章在做数据集对比时最大的优势。当然，在对比中也能发现，AGORA确实在各项指标中，都做到了更完备，因此可以作为可靠的挑战性更大的benchmark。

4、总结

AGORA数据集虽然被用来解决3DHPS问题，但其提供的丰富的标注GTs，可以使得其被用作做很多其它与人体相关的下游CV任务，包括2D mutli-person pose estimation、instance segmentation、hand keypoints detection、face landmarks detection、head pose estimation等。

最后编辑于：2022.02.11 01:26:54

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 204,793评论 6赞 478
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 87,567评论 2赞 381
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 151,342评论 0赞 338
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,825评论 1赞 277
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,814评论 5赞 368
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,680评论 1赞 281
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 38,033评论 3赞 399
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,687评论 0赞 258
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 42,175评论 1赞 300
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,668评论 2赞 321
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,775评论 1赞 332
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,419评论 4赞 321
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 39,020评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,978评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,206评论 1赞 260
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 45,092评论 2赞 351
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,510评论 2赞 343