CVPR2021 AGORA: Avatars in Geography Optimized for Regression Analysis

0、关键词

synthetic dataset, 3D human pose and shape estimation, SMPL-X

1、链接

该论文来自德国图宾根大学(University of Tübingen)的马克斯普朗克智能系统研究所(Max Planck Institute for Intelligent Systems),所长是著名CV教授Michael Black。MPII在CV领域十分高产,自是不用多提,论文中使用的大量baseline,同样来自这个研究所已经发布的研究成果。

论文链接:https://arxiv.org/pdf/2104.14643.pdf

论文主页:https://agora.is.tue.mpg.de/index.html

论文代码:https://github.com/pixelite1201/agora_evaluation

论文提供了一个全新的人工合成数据集AGORA。该数据集由逼真的3D场景和人体模型合成,包含有3D/2D人体关键点、3D人体模型、2D人体分割掩码等丰富的标注,主要用于3D人体姿态与形状(3D human pose and shape,3DHPS)估计任务。更多细节请访问论文主页。

AGORA数据集样例展示

2、主要内容概述

※ Introduction

首先,论文在Introduction中重述了现在已公开的用于3DHPS任务的benchmarks的缺陷,例如,limited clothing, focus on single subjects, have limited occlusion, are captured in laboratory environments, or have a limited range of ages and ethnicities.,基于这些有“缺陷”的数据集,评价标准只能是3D joints,而不是更精确的body shapes,所以还有与AGORA数据集相关的新的评价标准evaluation protocol;

然后,作者开始介绍构建AGORA的思路,其中有两点最为重要。1)购买高质量的带有纹理的人体扫描模型(包括四个商业付费网站3DPeopleAXYZHuman AlloyRenderpeople),再依赖合成数据与图形学渲染(rely on synthetic data and a graphics rendering pipeline),基于丰富的背景(HDRI panoramas and 3D environments),用Unreal游戏引擎合成了大量逼真的图像。2)对于每一个3D人体扫描模型(一系列三维点),作者使用SMPL-X人体参数模型(由大量顶点和相互连接的三角形组成,CG中的常用3D模型)来精准地匹配它的身体形状,包括三个主要部分:整体(body)、手部(hand)、面部(facial)。【值得一提的是,论文使用的模型SMPL-X,以及相关的fit方法SMPLify均来自它们自己的实验室,研究传承相当紧密~】

※ Related Work

因为是发布数据集类的文章,作者主要强调了现有的人体相关数据集的“缺陷”。

Datasets with real images. 包括使用multiple synchronized cameras + optical markers构建的数据集HumanEva, Human3.6M, and TotalCapture,他们的缺陷包括lack of background variation in lab scenarios, only one subject in each image, no scene occlusions, and little clothing variety due to the attachment of markers;另外,Alternatively,也有一些数据集构建方法使用了marker-less motion capture,包括MuPoTS-3D, PanopticStudio, MPIINF-3DHP-Test, and HUMBI。这类方法则存在精度较marker-based方法更低的缺陷(due to yaw drift)。AGORA认为这样得到的标签只能算是参考数据(reference data),不能用来作为GTs,作为比较,他们提出了的SMPL-X meshes具有高保真度(fidelity),可以作为伪标签(pseudo ground truth)。最后,上述数据集中,只有PanopticStudio和HUMBI两个数据集包含了身体(bodies)标签的同时,还包括人脸(face)和手(hands)的标签。

Synthetic datasets. 首先提到合成数据集需要足够真实(sufficiently realistic),并指出了具体的衡量点,包括body shape, ethnicity, motion, cloth deformation, texture, and interaction with environments. 数据集MHOF, LTSH, 3DPeople, and SURREAL直接在背景图像中放置3D人体模型(如SMPL, MakeHuman, or Mixamo),而数据集MPI-INF-3DHPTrain and MuCo-3DHP则直接将分割得到的真人图像作为前景粘贴到2D背景图像中。作者认为这些方法生成的图像都不够真实,Such composition does not faithfully reflect the local statistics of pixel intensity in real images and does not support methods that learn how humans interact with scenes。唯一与AGORA比较相近的工作是SimPose,其构建思路与作者类似,但作者认为其场景简单、人体类别单一,且该数据集未公开。还有一些基于GAN方法的数据集如Human synthesis and scene compositing(AAAI2020)和Generating 3D people in scenes without people(CVPR2020),但生成模型得到的结果总会存在人工瑕疵(images artifacts),合成图像不适合(unsuitable)用来作为GTs。

Other human-related datasets. 还有一些数据集不包括3D人体标注,但是包含2D人体关节点或人体分割掩码标注(如OCHuman,LSP-Extended, COCO, and MPII),或者使用真实图像+拟合的人体模型作为GTs(如EFT(arxiv2020), STRAPS(BMVC2020) and 3DOH50K(CVPR2020)),更进一步的,有些方法使用motion或multi-view matching来获得视频中复杂场景的人体模型。对于这类合成方式,作者认为尽管更鲁棒,但with unknown accuracy in body shape and pose.

最后,作者总结道,AGORA是集大成者,解决了上述众多缺陷AGORA provides realistic textures, complex body shapes and clothing, complex varied scenes and lighting, high-resolution (4K) imagery, varied occlusion, all with high-quality 3D ground truth.

AGORA与现有可用于3DHPS任务的数据集比较

※ Method: Obtaining reference data

作者的主要思路借鉴了三块内容:1)基于自己所在实验室之前的研究成果人体模型SMPL-X body model,和拟合人体的方法single-view SMPLify-X fitting,来拟合人体主体形状(包括body shape、face shape和hand shape),关于SMPL-X及SMPLify-X需要另外解读;2)借鉴另一项工作,即带有衣服的扫描人体的拟合方法fitting body shape under clothing(Detailed, accurate, human shape estimation from clothed 3D scan sequences (CVPR2017)),来拟合人体的皮肤(skin and hair)和所穿的衣服(clothing)3)再使用Graphonomy(CVPR2019)来人工地调整标注皮肤和衣服相关的顶点(vertices)。最终复合多个terms得到目标函数。

另外,作者发现小孩(child)的人体扫描并不能像成人(adults)那样使用同一套人体拟合模型和方法,因此进一步提出了改进的方法,即使用SMIL(the mean infant body template)生成小孩的模板Tchild,再取其与成人模板Tadult的插值平均,细节见论文。

※ AGORA Dataset

AGORA数据集总计包括公开标签的14529张训练集图像(包含2930个scans)、1225张验证集图像(包含259个scans),和未公开标签的3387张测试集图像(包含1051个scans)。总计包含了4240个扫描人体模型(high-quality textured scans),其中有257个是儿童扫描体(child scans)。

另外,经过再次的人工修正(manually curate),这4240个扫描体中,有3161个同时包含对齐的人体、人脸和手(those with well aligned body, face and hands (3161, BFH)),有1079个仅仅包含对齐的人体(those only with well aligned bodies (1079, B))。这意味着,如果基于AGORA做body estimation相关的任务,可使用全部数据集,如果需要做face或hand相关的estimation任务,仅一部分数据可用。

Fitting Accuracy 关于数据集中,3D人体的拟合精确度,作者基于the high-quality 3D scans,提出了两个考察关键因素Skin errorPenetrating clothing error。并用具体数值证明了伪标签的可信赖度(Thus, we believe that the SMPL-X fits provide valid pseudo ground truth.

Evaluation metrics and Evaluation protocol 常见的用于3DHPS方法的度量标注,都需要在计算error之前,进行Procrustes alignment,制定的标注忽视了3D物体的尺寸、位移和旋转(eliminates discrepancies in scale, translation and rotation, measuring only the error in poses (PA-MPJPE) and shapes (PA-MVE/V2V))。作者指出,这是因为当前HPS数据集的构成造成的,因为他们只有pose和shape的标注,而AGORA包含了complete 3D pseudo ground truth: body parameters of each person and their spatial arrangement in the 3D scene,足够支持更全面的误差度量。因此,作者不采用Procrustes alignment,并提出了一系列新的度量指标(包括MPJPE、MVE、NMJE和NMVE),用于单张图像中多人的pose和shape的估计误差度量,细节见论文。

※ Experiments

由于是数据集文章,作者需要强调的是数据集的优越性。作者设计了两种实验,一种是在AGORA上测试SOTA的3DHPS方法,来证明该数据集是否能反映当前领域的问题(指数据集确实更具有挑战性?);另一种是测试AGORA是否能用来作为预训练数据集,帮助提升SOTA方法性能。【角度和思路值得借鉴~】

Baseline Evaluation. 通过比较发现,SOTA方法在旧的指标MPJPE和MVE下的表现好,但新的指标NMJE和NMVE下表现差,指出MPJPE alone is not enough to evaluate performance on multi-person images,说明AGORA揭示了多人姿态估计中的误检和漏检问题;接着,SMPL-X模型下,各个SOTA方法的表现并不统一,没有各项指标均表现最好的,于是提出了消融研究(ablation studies),讨论各项参数的影响occlusion, child shape, distance to the center of the image and orientation。【学会如何在自己的文章中,做此类消融实验】

Baseline Improvement. 作者选用三种不同的模型拟合方式,即Pretrained SPIN、SPIN finetuned with AGORA and EFT([MPII+LSPet+COCO])和论文提出的基于SPIN-ft的模型,然后再在两个数据集合(3DPW和AGORA)上进行测试,通过实验数据证明Training with AGORA leads to significant improvement in performance on both datasets

※ Conclusions and Future Work

We have presented AGORA, a new dataset that goes beyond current datasets to include challenging cases of environmental occlusion, person-person occlusion, scale variation, children, crowds, etc. AGORA is challenging and reveals limitations of existing methods. Despite being synthetic, fine-tuning on AGORA improves performance of a SOTA method on the natural 3DPW dataset. We introduce a new metric to include misses and false positives and facilitate analysis of the SOTA methods on images with multiple people. We also introduce a simple child body model and provide better 3D ground truth for images with children. Future work should include adding images of varied camera height, indoor scenes, multi-view images, larger crowds, animals, and movement. 【贴个原文,学习一下总结方式】

3、新颖点

尽管是数据集论文,没有大量的公式,也没有提出花里胡哨的新算法,但是却解决了3DHPS任务中,始终没有真实且有可靠的GTs的多人姿态估计数据集的痛点。可以预见,这将推动一大批更高效的3DHPS方法的诞生。另外,本文有两个有趣之处:

1)站在巨人的肩膀上。AGORA的主要重难点在于生成并拟合逼真的3D人体模型,SMPL-X模型是关键,而其是现成的工作,且本就是作者自己所在实验室的成果,这个巨人正是自己的MPII实验室,提出AGORA事半功倍;

2)填补空白。尽管作者在文章中多次强调了AGORA如何解决了之前众多数据集的缺陷,但我认为,其主要贡献是融合了multi-personin the wild两大特点,这是文章在做数据集对比时最大的优势。当然,在对比中也能发现,AGORA确实在各项指标中,都做到了更完备,因此可以作为可靠的挑战性更大的benchmark。

4、总结

AGORA数据集虽然被用来解决3DHPS问题,但其提供的丰富的标注GTs,可以使得其被用作做很多其它与人体相关的下游CV任务,包括2D mutli-person pose estimation、instance segmentation、hand keypoints detection、face landmarks detection、head pose estimation等。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 204,793评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 87,567评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 151,342评论 0 338
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,825评论 1 277
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,814评论 5 368
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,680评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,033评论 3 399
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,687评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 42,175评论 1 300
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,668评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,775评论 1 332
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,419评论 4 321
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,020评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,978评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,206评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,092评论 2 351
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,510评论 2 343

推荐阅读更多精彩内容

  • Nat Rev | 发育中精确的时空控制:泛素连接酶在胚胎学疾病及癌症中的作用 原创骄阳似我图灵基因2022-02...
    图灵基因阅读 474评论 0 0
  • Total Capture: A 3D Deformation Model for Tracking Faces,...
    Lornatang阅读 928评论 0 3
  • 2022.2.10 周四 多云 9-3度 今天上午9点半终于见到了久违的阳光了,窗外明亮了很多。我突然觉得喉咙有点...
    yingyingjilv789阅读 899评论 0 3
  • 蒋铭国同志现实表现材料 蒋铭国,男,汉族,江西乐平人,1976年11月出生,1995年8月参加工作,中共党员,中小...
    蒋铭国江西乐平阅读 585评论 0 11
  • 新年FLAG,立得有些晚了,按说应该是公历新年立吧,算了,不管了,随性吧。 01 充电学习,组织一类学习班,考取一...
    吾桐阅读 91评论 0 1