CVPR2018 Pix3D: Dataset and Methods for Single-Image 3D Shape Modeling

0、关键词

Pix3D, single RGB image, 3D shape modeling, 3D reconstruction, shape retrieval, 3D pose estimation

1、链接

该论文来自MIT，一作是一位在MIT访学的交大毕业生Xiangyuan Sun，文章为数据集论文，因此涉及到众多参与者和研究单位，除了MIT，还有SJTU和Google Research的参与。可以想象，好的工作必须依靠好的平台和业内资深的专业人士，才能有顺利诞生的契机。

论文链接：http://pix3d.csail.mit.edu/papers/pix3d_cvpr.pdf

论文代码：https://github.com/xingyuansun/pix3d

论文官方网站介绍：http://pix3d.csail.mit.edu/

本文提出的数据集着眼于解决现有同类型数据集存在的以下三个问题：1）3D模型与图像中真实的物体不匹配（3D models may not match the objects in images）; 2）物体的姿态标注不够精确（pose annotations may be imprecise）; 3）数据集的规模相对较小（or the dataset may be relatively small）。有了这些立论，本文设计并构建数据集Pix3D顺理成章。

Figure 1: Pix3D offers large-scale, diverse, well-aligned image-shape pairs.

2、主要内容概述

※ Abstract

We study 3D shape modeling from a single image and make contributions to it in three aspects. First, we present Pix3D, a large-scale benchmark of diverse image-shape pairs with pixel-level 2D-3D alignment. Pix3D has wide applications in shape-related tasks including reconstruction, retrieval, viewpoint estimation, etc. Building such a large-scale dataset, however, is highly challenging; existing datasets either contain only synthetic data, or lack precise alignment between 2D images and 3D shapes, or only have a small number of images. Second, we calibrate the evaluation criteria for 3D shape reconstruction through behavioral studies, and use them to objectively and systematically benchmark cuttingedge reconstruction algorithms on Pix3D. Third, we design a novel model that simultaneously performs 3D reconstruction and pose estimation; our multi-task learning approach achieves state-of-the-art performance on both tasks.

摘要的形式比较新颖，直接申明提出的数据集Pix3D存在三点贡献，然后在每一点的贡献中，阐述当前领域存在的问题，以及自己是如何解决的，或者说Pix3D的相对优势在哪里。

※ Introduction

第一段指出，现有的3D视觉领域已经存在了大量经典数据集，包括3D CAD模型仓库数据集ShapeNet和Princeton Shape Benchmark，大规模真实图像与CAD形状关联库Pascal 3D+和ObjectNet3D，以及对图像中的形状对象进行精细化姿态标注的数据集IKEA，为什么还需要这个新的数据集Pix3D呢？

第二段，作者指出现有的数据集不足以支撑从单张RGB图像中恢复出3D模型。比如，ShapeNet仅仅包含3D模型，不包含含有对应物体的真实图片；Pascal 3D+和ObjectNet3D虽然含有真实图片，但image-shape对都是十分粗糙的，因为3D模型并未与图像中的真实物体完全契合；IKEA虽然满足真实图片与3D模型的精细化对齐组合，但数据量太小，仅包含90个3D模型和758张图像。

第三段中，作者提到自己的数据集Pix3D同时具有三个长处（merits）：a large-scale dataset of real images and ground-truth shapes with precise 2D-3D alignment。Pix3D数据集拥有395个3D模型和9个物体类别，每一个3D模型对应着多种多样的真实场景中2D RGB图像物体，总计有10,069个image-shape对，它们包含了精确的3D姿态标注，和像素级别的形状与图像剪影（silhouettes）的对齐组合。

第四段强调构建Pix3D是一项充满困难的挑战：现实生活中的2D图像虽然很对，但仅包含RGB信息的物体是很难获得高质量的3D形状的。相对地，即使有了类似于ShapeNet这样能提供大量3D CAD模型的仓库，但也难以找到与仓库中每个shape精准对应的2D图像。最后，RGB图像想要获得物体的精准姿态是极为困难的。（这一点挑战，应该是相对于RGB-D或3D点云数据集而言的）

第五段，作者申明自己分三步来尝试解决第四段中提到的挑战：1） we collect a large number of image-shape pairs by crawling the web and performing 3D scans ourselves.（爬虫程序成本低且容易，自己做3D扫描成本高且困难）；2） we collect 2D keypoint annotations of objects in the images on Amazon Mechanical Turk, with which we optimize for 3D poses that align shapes with image silhouettes.（通过Amazon付费完成在线标注，标注的2D关键点用于和3D形状惊醒对齐，采用的是成熟的PnP算法，以获得精准的姿态标注）；3）we filter out image-shape pairs with a poor alignment and, at the same time, collect attributes (i.e., truncation, occlusion) for each instance, again by crowdsourcing. （标注具有高质量性和属性多样性，且采用了众包的标注方式，又是一笔经费开支）

第六段，作者提及了数据集标注质量的问题，即如何客观地度量重建出的3D形状与2D物体是精准匹配的呢？作者提到了三个最常用的度量标准，包括intersection over union, Chamfer distance和earth mover’s distance。基于这些度量标准，作者在文章中会给出关于3D object modeling问题的baseline算法，当然也是彼时在Pix3D数据上的SOTA算法。

第七段，作者还指出，Pix3D数据集还能用于探索3D object pose estimation和3D shape retrieval任务，作者也对应地给出了一个novel的baseline算法，它能够同时完成物体形状和姿态的估计任务，这种多任务学习的方式，是具有一定优势的。

最后一段，作者重申paper的三个贡献：

First, we build a new dataset for single-image 3D object modeling; Pix3D has a diverse collection of image-shape pairs with precise 2D-3D alignment.

Second, we calibrate metrics for 3D shape reconstruction based on their correlations with human perception, and benchmark state-of-the-art algorithms on 3D reconstruction, pose estimation, and shape retrieval.

Third, we present a novel model that simultaneously estimates object shape and pose, achieving state-of-the-art performance on both tasks.

实际上，这些贡献多少与摘要和引论中的部分内容是重复的，且第二点和第三点也有部分重复，但一般论文的introduction都是要以总结主要贡献来结尾的，以凸显论文的novelty。评审或感兴趣的读者，也能通过快速浏览这一部分，尽快了解文章的核心价值。

※ Related Work

● Datasets of 3D shapes and scenes. 更加详细地介绍3D数据集，依次包括ShapeNet、Pascal 3D+、ObjectNet3D、Elastic2D3D等，并再次指出它们尚存在的一些缺陷。另外，另一条3D数据集类型为RGB-D或仅depth-based，它们大都被用于robot manipulation，这类数据集的规模较小，且场景单一，和Pix3D这类基于单张in-the-wild的真实图像数据集相比，泛化性不够好。接着，作者指出与Pix3D数据集最相似的为IKEA，Pix3D可以看作是其大规模化的扩展，包括物体类别和图像数量。最后，另一个3D场景数据集，比如LabelMe3D、NYU-D、SUN RGB-D、KITTI，大都包含的是合成场景的数据，或仅仅只有3D场景，只适合3D重建，并不是Pix3D主要比较的对象，

● Single-image 3D reconstruction. 从单张图像中恢复3D物体形状是十分具有挑战性的，因为这既需要完成物体识别，又需要物体形状的先验知识。实际上，已经有大量相关工作能够实现单张图像的3D重建，按照表征物体的方式大致分为三类：voxels, point clouds, octave trees，Pix3D为这些方法的研究提供了很好的测量基准。

● Shape retrieval. 如果不考虑3D重建，另一类相似的任务是形状检索，即给定物体2D图像找到，找到最合适的3D形状。Pix3D提供了多种多样的物体形状（contains shapes with significant inter-class and intra-class variations），因此适合此类任务。

● 3D pose estimation. Pix3D也提供了物体的3D姿态标注。

※ Building Pix3D

Figure 2: We build the dataset in two steps.

● 3.1. Collecting Image-Shape Pairs

通过两种方式获取image-shape对：

1）Extending IKEA. 扩展IKEA数据集，即通过网络爬虫获取IKEA中物体类别对应的真实2D图像，并将其中含有的物体与IKEA中提供的3D shape对齐。搜索引擎包括Google、Bing和Baidu，对于IKEA中219个shapes共获得了104,220张图像。再通过Amazon Mechanical Turk (AMT)移除不相关的图片（For each image, we ask three AMT workers to label whether this image matches the 3D shape or not.），对于哪些存在争议的标注，会再分类给其它三个标注者二次标注，之后根据最大投票值决策。最后，219个shapes共获得了14,600张图像。

2）3D scan. 直接拍照和扫描3D物体。通过绑定有传感器的iPad扫描物体（We scan non-IKEA objects with a Structure Sensor mounted on an iPad.），该硬件装备有与其RGB相机同步的深度传感器，二者的标定由另一家公司提供（calibrated by the Scanner App provided by Occipital, Inc.）。RGB相机的分辨率为2592×1936，深度相机的分辨率为320×240。扫描和3D重建也是由该硬件设备完成（For each object, we take a short video and fuse the depth data to get its 3D mesh by using fusion algorithm provided by Occipital, Inc.）。总计扫描了209个物体并得到了2,313张图像，加上原扩展后的IKEA数据集，共计418个shapes和16,913张图像。

● 3.2. Image-Shape Alignment

这一步需要完成物体2D图像与3D形状的对齐（align a 3D CAD model with its projection in a 2D image），也就是获取物体的3D pose，包括3D形状的平移和旋转参数。作者继续使用了IKEA中基于关键点的方法（keypoint-based method）。也就是从以下约束中，求解投影矩阵 $P$ 。

$\mathcal{L}(P; X_{3D}; X_{2D})=\sum\limits_i{\| \text{Proj}_P(X_i)-x_i\|_2^2}~~~~~~(1)$

其中， $X_{2D}$ 和 $X_{3D}$ 分别表示一系列物体表面山一一对应的点， $\text{Proj}_P(\cdot)$ 表示投影函数，投影矩阵中包含了相机参数和3D姿态信息，在中心投影的假设下（Under the central projection assumption (zero-skew, square pixel, and the optical center is at the center of the frame)），可以将 $P$ 表示成 $P=K[R|T]$ ，其中 $K\in\mathbb{R}^{3\times3}$ 表示相机内参，组成如下； $R\in\mathbb{R}^{3\times3}$ 和 $T\in\mathbb{R}^{3}$ 分别表示3D物体的旋转和平移参数。

$K=\left[\begin{array}{ccc} f & 0 & w/2 \\ 0 & f & h/2 \\ 0 & 0 & 1 \end{array}\right]~~~~~~(2)$

其中， $f$ 表示相机镜头焦距， $w$ 和 $h$ 分别表示图像的宽和高。这是一个十分泛化的假设。因此，综上所述，共计有七个参数需要估计：旋转参数 $\theta, \phi, \psi$ ，平移参数 $x,y,z$ ，相机焦距 $f$ 。为了估计等式(1)中的参数吗，作者首先使用基于对应关键点的EPnP算法得到粗略的3D姿态，然后使用Levenberg-Marquardt（LMA）算法精细化地调整得到更精确的参数值。关于调用EPnP和Levenberg-Marquardt（LMA）算法的处理细节及参考文献，参见原文描述。

至于实现细节上，作者在标注2D和3D的对应关键点时，每个3D物体随机地选择8到24个关键点，让三个AMT标注者冗余标注，最后选择可见关键点进行优化和获取姿态参数。然而，标注是有噪声的（The 2D keypoint annotations are noisy, which severely hurts the performance of the optimization algorithm.），作者想到使用RANSAC算法和筛选3个AMT标注结果的最优非空子集的方式，来提升使用优化算法生成标签这一过程的鲁棒性，接着再让3个AMT标注者重新选择一次。作者最后还使用了ObjectNet3D中提供的GUI标注工具，对关键点对的标注进行了微调。具体描述见原文。

最后，Pix3D数据集中共计395个shapes和10,0769张图像。

Figure 3: Sample images and shapes in Pix3D. From left to right: 3D shapes, 2D images, and 2D-3D alignment. Rows 1–2 show somechairs we scanned, rows 3–4 show a few IKEA objects, and rows 5–6 show some objects of other categories we scanned.

※ Exploring Pix3D

数据集类文章，少不了与先前的同类数据集（predecessors）进行参数比对的环节。

● Dataset statistics.

从图4、5、6中的统计结果可以看出，Pix3D数据集具有很多种类和数量的shapes，每个shape又有很多对应的in-the-wild的真实2D图片。其中，很明显chair种类的数量占据数据集的绝大部分，这是因为它最常见，具有显著的类内差异性，且被广泛地研究。

Figure 4,5,6: dataset statistics

● Quantitative evaluation.

另外，作者还对数据集的质量进行了定量性的测试。从待测试的4个数据集中，随机地挑选25个椅子和25个沙发的图像，然后，先从数据集中标注的物体3D姿态标签渲染出3D shape对应的2D投影，再手工地标注2D图像中物体的segmentation mask，接着计算二者之间的IoU。此外，作者还邀请了50个AMT标注者（花钱），对image-shape对是否匹配进行感性化地打分(0 or 1)。

表1是统计结果，可以看出无论是IoU，还是人类感觉的匹配度上，Pix3D都是最优的。IKEA本身在IoU上表现更差劲的原因在于，其物体形状（CAD模型）的尺寸标注不正确（ incorrect scale），这就使得其很难完成shape与image的对齐。

※ Metrics

传统的3D重建任务均使用IoU来度量重建的3D voxels与ground-truth之间的相似性，然而这种度量方式可能与人体感觉差距很大。在计算机图形学中，度量meshes匹配之间相似性有shortest distance和geodesic distance等更优的方法。文章使用了IoU, Chamfer distance (CD)和Earth Mover’s distance (EMD)三个度量标准。文中引用的参考文献见原文。

● 5.1. Definitions

为了完成CD和EMD度量，作者首先需要将3D voxels转化为3D point clouds。体素转化成点云（Voxels to a point cloud），参见文中引用的原文献，作者使用了Lewiner marching cubes算法。下面是CD和EMD的计算公式：

Chamfer distance (CD)计算公式：

$\text{CD}(S_1,S_2)=\frac{1}{S_1}\sum\limits_{x\in S_1}\min\limits_{y\in S_2}\|x-y\|_2 + \frac{1}{S_2}\sum\limits_{y\in S_2}\min\limits_{x\in S_1}\|x-y\|_2~~~~~~(3)$

其中，对于点云对 $S_1,S_2\subseteq \mathbb{R}^3$ ，CD主要是找到相互之间最近的点。CD度量常被用于形状检索任务（shape retrieval challenges），具体参考文中引用的参考文献。

Earth Mover’s distance (EMD)计算公式：

$\text{EMD}(S_1,S_2)=\frac{1}{|S_1|}\min\limits_{\phi:S_1\to S_2}\sum\limits_{x\in S_1}\|x-\phi(x)\|_2~~~~~~(4)$

其中，点云对 $S_1,S_2\subseteq \mathbb{R}^3$ 且 $|S_1| = |S_2|$ ， $\phi:S_1\to S_2$ 表示一个双射（bijection）。由于EMD的计算十分耗时，实际计算中，会采用 $(1+\varepsilon)$ 的近似算法，具体参考文中引用的参考文献。

● 5.2. Experiments

作者设计了两个用例测试来反映不同数据集在人类视觉上的差异：

Which one looks better? 作者使用3种方法（具体参见原文参考文献）对200张随机挑选的椅子的图片进行了3D形状重建，然后分别计算3种度量方式和人类挑选的结果之间的斯皮尔曼秩相关系数（Spearman’s rank correlation coefficients），证明了CD和EMD与人类的视觉感受最相近，如下表2。

How good is it? 作者随机挑选出400张图片，接着使用voxel预测算法DRC来重建这些图像中物体的3D shape，然后邀请15个AMT标注者对重建结果与ground-truth的相似性进行打分（from 1 to 7），最后，分别计算这些打分结果（人类视觉感受）与三种度量方式的皮尔逊相关系数（Pearson’s coefficients），再次证明了CD和EMD与人类的视觉感受最相近，如下图7。

※ Approach

Pix3D数据集适用于多个形状建模任务：reconstruction, retrieval, and pose estimation。作者设计了一种可以同时进行形状重建和姿态估计的新模型，其本质上是MarrNet算法（参见原文参考文献）的拓展，其主要包含四个部分（2.5D sketch estimator，2.5D sketch encoder，3D shape decoder，View estimator），作者的主要贡献是在第四部分额外增加了一条姿态估计的分支。网络架构如下图11。关于MarNet的四个部分，以及作者提出方法的训练细节（Training paradigm），参见原文正文及附录部分。

※ Experiments

实验部分，作者在三个形状建模任务上reconstruction, retrieval, and pose estimation，将自己的方法与其它方法进行简单的比较。所有的测试均是在2,894张untruncated且unoccluded椅子图像上执行的。

● 3D shape reconstruction.

如下表3与图8所示，作者提出的方法表现最好，且带有姿态估计的方法比不带有姿态估计的方法更好，体现了多任务学习（multi-task learning）的优越性。

● Image-based, fine-grained shape retrieval.

如下表4与图9所示，形状检索的度量指标为Recall@K（参见原文提到的参考文献），作者提出的方法再次是表现最好的，但不带有姿态估计的方法比带有姿态估计的方法更好，这是因为带有姿态的检索总是返回具有相似姿态的图像，但有时结果并未在shape上更匹配。

● 3D pose estimation.

虽然姿态角度azimuth和elevation是连续的变量，但这里还是将其近似为分类问题。作者仅与方法Render for CNN比较azimuth和elevation的分类准确率（the classification accuracy），结果表现更好。如下表5与图10所示。

※ Conclusion

We have presented Pix3D, a large-scale dataset of well-aligned 2D images and 3D shapes. We have also explored how three commonly used metrics correspond to human perception through two behavioral studies and proposed a new model that simultaneously performs shape reconstruction and pose estimation. Experiments showed that our model achieved state-of-the-art performance on 3D reconstruction, shape retrieval, and pose estimation. We hope our paper will inspire future research in single-image 3D shape modeling.

毫无疑问，本文展示了一个优秀的3D形状建模数据集Pix3D的构建过程，很值得深入学习各个步骤。

3、新颖点

本文提出的数据集Pix3D弥补了之前同类数据集存在的缺陷，且行文严格论证了构建数据集的高质量性。中规中矩，但又必不可少，具体novelty或者说contribution，参考摘要和Introduction章节。

4、总结

作为3D形状建模数据集，本文提出的Pix3D至少有以下几点值得借鉴：

● 尽管到文章发表的2018年，已经存在了相当于数量的同类数据集，比如Pascal 3D+、ObjectNet3D和IKEA，作者仍旧发觉到了它们尚存在的缺陷，并在完成新的数据集构建后，严格定性地和定量地证明了这些缺陷，新数据集存在的必要性是必须在文章中明示且论证的；

● 作者行文不拘一格，在有限的页数内十分扎实地展示了几乎是长文期刊的大量内容。也许是受限于CVPR会议文章的篇幅（必须8页正文），作者摒弃了之前单调的三段式构造，而是通过设置具有清晰界限的多个章节，来突出多个部分的具有同等重要性的工作内容；

● 为了保证构建数据集中每一个步骤的合理性，作者引用了大量的参考文献，且都是强相关的。比如基于关键点对齐2D和3D物体时使用的EPnP和LMA算法，再比如度量3D重建效果的另外两种方式CD和EMD。总之，合理合法地引用先前的文献能极大地增强文章的可读性，且让评审和读者信服；

● 即使是数据集文章，作者在完成了大量dirty和expensive的工作后，也不忘增加一些创新性。比如筛选3个AMT标注者的关键点标签最优子集，通过多种相关系数来定量化证明新数据集在人类视觉效果上更优，基于MarrNet算法提出新的可同时进行3D重建和姿态估计的multi-task网络架构。这些innovation是增加文章新颖性所必须的。

● 最后，十分重要的一点是，新的大规模高质量数据集的构建有两点是必不可少的：经费和人力。文中众多dirty work是通过众包或付费购买AMT标注者的服务完成的，这是一项耗费经费的繁琐工程。另一方面，文中多处涉及到对比实验，需要专业工作人员熟悉使用的算法和处理大量数据，这也是文章联名作者和机构比较多的缘故吧。

最后编辑于：2022.06.23 09:07:57

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 195,980评论 5赞 462
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 82,422评论 2赞 373
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 143,130评论 0赞 325
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 52,553评论 1赞 267
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 61,408评论 5赞 358
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 46,326评论 1赞 273
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 36,720评论 3赞 386
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 35,373评论 0赞 254
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 39,678评论 1赞 294
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 34,722评论 2赞 312
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 36,486评论 1赞 326
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 32,335评论 3赞 313
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 37,738评论 3赞 299
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,009评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 30,283评论 1赞 251
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 41,692评论 2赞 342
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 40,893评论 2赞 335