ABO: Dataset and Benchmarks for Real-World 3D Object Understanding
UC Berkeley, Amazon, 2021-10
数据集下载路径:https://amazon-berkeley-objects.s3.amazonaws.com/index.html
数据集源自 Amazon.com 产品列表, Amazon Berkeley Objects包含 147702 个产品列表,与398212 个独特的目录图像相关联,每个产品多达 18 个独特的元数据属性(类别、颜色、材料、重量、尺寸等)。ABO 还包括 8,222 种产品和 7,953 种产品的“360º视图”转盘式图像以及相应的艺术家设计的 3D 网格。数据集样例如下:
作者将ABO与传统的3D数据集进行了对比,ABO具有更多的类别以及独有的PBR属性
由于现有方法在很大程度上是使用 ShapeNet 以完全监督的方式进行训练的,因此文章对它们将如何转移到更多真实世界的对象感兴趣。为了衡量这些3D重建方法转移到真实对象实例的效果,文章评估了这些方法在 ABO 对象上的各种性能。下图灰色表示3D重建方法在ShapeNet数据集上的结果。
结果表明,ABO 中的一组真实世界派生的 3D 模型对于 ShapeNet 训练的 3D 重建方法来说是一个具有挑战性的测试集。
另外,文章还训练了单视图和多视图网络,用于对真实世界的复杂几何进行 SV-BRDF(Spatially Varying Bidirectional Reflectance Distribution Function,空间变化双向反射分布函数)材料估计——这是一项ABO独有的任务(针对材料预测任务量身定制的可用数据集并不多,主要在于不包含可用于基于物理的渲染以生成逼真图像的物理精确反射率参数)。训练使用带有 ResNet-34 主干的基于 UNet 的模型,U-Net 有一个encoder以一个 RGB 图像作为输入,并有一个multi-decoder来分别输出 SV-BRDF 的每个分量。使用深度图通过投影来对齐来自多个视点的图像,并将原始图像和投影图像对捆绑为输入数据。
最后,文章提出了一个新的对象检索基准,并与传统的基准对比,
并且比较了最先进的 DML (deep metric learning)方法在我们的多视图跨域检索基准上的性能,其中Pre-trained:ImageNet 上训练的 ResNet-50 模型
最后,文章表明数据集在其它方面的应用:
1. 大量的文本注释(产品描述和关键字)和非刚性产品(服装、家居布草)可以实现广泛的语言和视觉任务,例如预测样式、模式、标题或产品图片中的关键词。
2. ABO 中的 3D 对象对应于家庭中自然出现的物品,并具有相关的对象重量和尺寸。这可以有利于机器人研究并支持操作和导航的模拟。