CVPR2019 Expressive Body Capture: 3D Hands, Face, and Body from a Single Image

0、关键词

3D model of human, body pose, hand pose, facial expression, STARSMPLSMPL-X, SMPLify, SMPLify-X

1、链接

该论文来自德国图宾根大学(University of Tübingen)的马克斯普朗克智能系统研究所(Max Planck Institute for Intelligent Systems),所长是著名CV教授Michael Black

论文链接:https://arxiv.org/abs/1904.05866

论文主页:https://smpl-x.is.tue.mpg.de/

论文代码:https://github.com/vchoutas/smplify-x

论文基于SMPL [1]模型(也是MPII实验室之前的工作),提出一个新的3D人体模型SMPL-X(extends SMPL with fully articulated hands and an expressive face),它同时包括三个人体主要部分:Hands, Face, and Body。另外,为了从单张图像中恢复SMPL-X模型,论文作者遵循SMPLify [2]方法(还是MPII实验室之前的工作),通过检测2D特征和优化模型拟合参数,并增加了众多tricks,提出了改进后的方法SMPLify-X。作者在自建的数据集(a new curated dataset)上验证了3D模型的精度。

From left to right: RGB image, major joints, skeleton, SMPL (female),SMPL-X (female)

2、主要内容概述

※ Introduction

为了理解图像中人类的行为,我们除了获取身体的关节点(2D body joints and pose),还需要捕获完整的3D外形(full 3D surface of the body, hands and the face),但到论文提出SMPL-X模型为止,由于缺少合适的3D模型和足量的3D训练数据,没有系统能做到这些。从上图中也可以看出,仅仅依赖SMPL这种只能拟合身体的模型,不够精细化,尤其是hands和facial expression。因此针对这一问题,本文提出了新的模型SMPL-X,以及对应的新的方法SMPLify-X。

在这之前,大量的2D人体姿态估计被用来你和body shape,接着Openpose可以同时预测2D的hand/face/body joints,但是这仍然不足以预测3D世界中的surfaces and human interactions。对于3D body的预测问题,传统的方法很多都是单独进行的(不包括hands和face),而大量建模3D的hand和face的文献也是单独进行的,没有和body关联。

最近(相对于文章提出SMPL-X时),也有一些方法同时关联了hand/face/body,比如Frank model [3] (CVPR2018 BestPaper),但是作者认为其只是简单地缝合(stitch)了完全不同的三个模型(disparate models),结果不够真实。作者提出的SMPL-X则是基于大量语料库(a large corpus of 3D scans),同时建模hand/face/body,因此更具优越性:compatibility with graphics software, simple parametrization, small size, efficient, differentiable, etc。具体地,SMPL-X = SMPL [1] + FLAME head model [4] + MANO hand model [5],该混合模型再在5586个经人工修正后的3D扫描件上进行拟合优化,效果要远好于Frank model。【[4]和[5]同样是MPII实验室的工作】

紧接着,提出了SMPL-X模型后,作者又改进了原SMPLify方法,用来从单张图像中恢复单个人体的精细化3D模型(包含hands和face),改进细节包括:用于产生pose prior的VAE网络、用于interpenetration的惩罚项、性别分类器以使用female/male/neutral模型、使用PyTorch代替Chumpy来加速回归方法的训练。一些定性的拟合结果见下图。

SMPL-X that jointly models the human body, face and hands; SMPLify-X fit the female SMPL-X model in single RGB images; New Method captures a rich variety of natural and expressive 3D human poses, gestures and facial expressions

另外,作者为了验证准确性,自建了一个数据集,在其上证明了SMPL-X模型和SMPLify-X方法的优越性,作者很有信心道:We believe that this work is a significant step towards expressive capture of bodies, hands and faces together from a single RGB image。【一般人写论文似乎从不敢这么自信~】

※ Related Work

Modeling the body

1)Bodies, Faces and Hands. 根据以往经验,大部分方法都是将人体拆分成多个孤立的部分来建模。Blanz and Vetter [6] pioneered this direction with their 3D morphable face model. 该方法依赖FACS来构建表情相关的blend shapes,之后大量的工作都基于该开创新的方法,可参考综述[7] 。接着,FLAME [4]向前跨了一步,关注整个头部和颈部的建模(whole head and neck region)而不只是面部区域(face region)。但是,没有发现将face和body的shape同时考虑建模的方法。接下来,从3D扫描件构建3D模型的方法开始流行起来(The availability of 3D body scanners enabled learning of body shape from scans)。大量工作要么遵循triangle deformations,要么遵循vertex-based displacements,来分解式地构建body shape and pose,遗憾的是,这些方法仍旧没有考虑hands和face,而只是将手当作一个拳头或展开的手掌,将面部表情永远设置为正常。同样地,hand modeling也是鼓励地发展,不再赘述细节。

2)Unified Models. 也有与文章相近的方法,统一地建模人体,包括Frank model [3] 和 SMPL+H [5](MPII实验室之前的工作)。Frank model = SMPL (with no pose blend shapes) for the body + an artist-created rig for the hands + the FaceWarehouse model [8] for the face,但结果不够真实;而SMPL+H缺少face的建模。因此,作者从SMPL+H出发,加入了FLAME head model [4],并在大量数据上联合地拟合新的3D模型。

Inferring the body. 作者只关注能提取完整的3D人体外形的方法(full 3D body mesh),并枚举了SMPLify、HMR、NBF、MonoPerfCap等具体的方法,但它们都没有考虑结合face和hands来提取body shape。另外,通过另外其它的不同技术路线,如multi-camera setups来提取3D pose, 3D meshes (performance capture), or parametric 3D models也是一类主流方法,典型的代表如CMU Panoptic studio。在Frank model [3]中,同样使用了类似的方法,通过3D keypoints and 3D point clouds来拟合模型。这些硬件显然十分臃肿昂贵,相较而言,作者提出的方法只需要单个RGB图像作为输入,足够简单。

※ Technical approach

1)Unified model: SMPL-X 原SMPL [1]方法的拓展,并加入了FLAME [4]和MANO [5],这三个模型/方法,都是MPII同一个实验室的工作;

2)SMPLify-X: SMPL-X from a single image  原SMPLify [2]方法的拓展,SMPLify方法也是MPII实验室之前的工作;

3)Variational Human Body Pose Prior 使用VAE网络,训练得到了人体姿态先验估计器VPoser,训练数据集包括CMU MoCap dataset、Human3.6M、PosePrior dataset;

4)Collision penalizer 为了缓解模型的自碰撞(self-collisions)和穿模(penetrations)问题,加入了任意两个相互碰撞的三角形(two colliding triangles)的惩罚项;

5)Deep Gender Classifier 以body和joints作为输入,预测图像中人物的性别,以便使用性别匹配的人体模型,性别分类是简单的ResNet18结构;

6)Optimization 将Chumpy和OpenDR,更换为PyTorch和Limited-memory BFGS optimizer (L-BFGS)

※ Experiments

1)Evaluation datasets 使用自建的数据集Expressive hands and faces dataset (EHF)该数据集来自SMPL+H dataset,并加入了新的GTs;

2)Qualitative & Quantitative evaluations 实验设计较为简单,与三个模型作比较,即SMPL, SMPL+H, Frank。定量(Quantitative)实验主要是两张表,table1展示了 SMPL, SMPL+H和SMPL-X中,SMPL-X的精度最高,而table2则展示了消融实验,展示不同的trick对SMPLify-X方法带来的增益;定性(Qualitative)实验主要是三张图:SMPL-X v.s. Frank model;SMPL-X on the LSP dataset;compare SMPL-X and SMPLify-X to a hands-only approach。

Qualitative results of SMPL-X for the in-the-wild images of the LSP dataset
【reference RGB】【Frank model】【SMPL-X multiple cameras】【SMPL-X single camera】

※ Conclusion

In this work we present SMPL-X, a new model that jointly captures the body together with face and hands. We additionally present SMPLify-X, an approach to fit SMPL-X to a single RGB image and 2D OpenPose joint detections. We regularize fitting under ambiguities with a new powerful body pose prior and a fast and accurate method for detecting and penalizing penetrations. We present a wide range of qualitative results using images in-the-wild, showing the expressivity of SMPL-X and effectiveness of SMPLify-X. We introduce a curated dataset with pseudo ground-truth to perform quantitative evaluation, that shows the importance of more expressive models. In future work we will curate a dataset of in-the-wild SMPL-X fits and learn a regressor to directly regress SMPL-X parameters directly from RGB images. We believe that this work is an important step towards expressive capture of bodies, hands and faces together from an RGB image.【贴个原文,学习一下总结方式】

3、新颖点

※ 将hands和face同时考虑到body shape的建模中,很多人应该都能想到,但本文作者胜在刚好所在MPII实验室,已经有现成的body/hands/face shape modeling的工作;

※ N*tricks。不是每个trick加入后都能有用,但本文显然在将多项terms加入到拟合回归任务的目标函数中后,仍旧达到了提升的效果,堪称trick大师

4、总结

本文大部分工作都是在其MPII实验室原有的工作上进行扩展的,总的而言SMPL-X = SMPL [1] + FLAME [4] + MANO [5],SMPLify-X = SMPLify [2] + N*tricks。这启发我们要积累和深挖自己的领域。

5、参考文献

[1] Loper M, Mahmood N, Romero J, et al. SMPL: A skinned multi-person linear model[J]. ACM transactions on graphics (TOG), 2015, 34(6): 1-16.

[2] Bogo F, Kanazawa A, Lassner C, et al. Keep it SMPL: Automatic estimation of 3D human pose and shape from a single image[C]//European conference on computer vision. Springer, Cham, 2016: 561-578.

[3] Joo H, Simon T, Sheikh Y. Total capture: A 3d deformation model for tracking faces, hands, and bodies[C]//Proceedings of the IEEE conference on computer vision and pattern recognition. 2018: 8320-8329.

[4] Li T, Bolkart T, Black M J, et al. Learning a model of facial shape and expression from 4D scans[J]. ACM Trans. Graph., 2017, 36(6): 194:1-194:17.

[5] Romero J, Tzionas D, Black M J. Embodied hands: modeling and capturing hands and bodies together[J]. ACM Transactions on Graphics (TOG), 2017, 36(6): 1-17.

[6] Blanz V, Vetter T. A morphable model for the synthesis of 3D faces[C]//Proceedings of the 26th annual conference on Computer graphics and interactive techniques. 1999: 187-194.

[7] Zollhöfer M, Thies J, Garrido P, et al. State of the art on monocular 3D face reconstruction, tracking, and applications[C]//Computer Graphics Forum. 2018, 37(2): 523-550.

[8] Cao C, Weng Y, Zhou S, et al. Facewarehouse: A 3d facial expression database for visual computing[J]. IEEE Transactions on Visualization and Computer Graphics, 2013, 20(3): 413-425.

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 196,099评论 5 462
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 82,473评论 2 373
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 143,229评论 0 325
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 52,570评论 1 267
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 61,427评论 5 358
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 46,335评论 1 273
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 36,737评论 3 386
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 35,392评论 0 254
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 39,693评论 1 294
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 34,730评论 2 312
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 36,512评论 1 326
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 32,349评论 3 314
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 37,750评论 3 299
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,017评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 30,290评论 1 251
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 41,706评论 2 342
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 40,904评论 2 335

推荐阅读更多精彩内容