Pix2Vox论文阅读


title: Pix2Vox论文阅读
date: 2019-11-06 21:12:22
tags:

  • paper
  • todo
  • 3D

论文原文《Pix2Vox: Context-aware 3D Reconstruction from Single and Multi-view Images》

Abstract

  • 前人工作:
    • 方法: RNN融合提取的sequential input images features[1]
  • 缺点:
    • RNN方法: 必须和训练same order
    • long-term memory loss[2]
  • 工作:
    • novel framework for single-view and multi-view
    • context-aware fusion module
  • 成果:
    • SOTA on ShapeNet and Pix3D
    • 24 times faster than 3D-R2N2 in terms of back-ward inference time [原因应该是3D-R2N2模型是RNN-based的]
    • superior generalization

Introduction

  • 前人工作
    • 传统方法: 需要匹配特征,但是视角外观等因素导致,有时候特征匹配不到
    • RNN-based model: 同序; long-term memory; 耗时
  • 本文工作
    • encoder-decoder: eliminates the effect of the orders; eliminates the effect of the orders
    • context-aware fusion module:selects high-quality reconstructions & fuse[3]
    • refiner: refine

相关工作

Single-view 3D Reconstruction

Multi-view 3D Reconstruction

  • RNN-based
  • 3DensiNet[4]

Method

Overview

  • 能输入single or multiple RGB images

Network architecture

Pix2Vox-F参数少,Pix2Vox-A更精确;主要差别在于Pix2Vox-F少了refiner部分,也就少了RLoss; 卷积核大小也有细微差别

Pix2Vox-F
Pix2Vox-A

3.2.1 Encoder

  • VGG16+ BN+ 追加了3层, 两种结构追加的部分不一样

3.2.2 Decoder

  • 5个3D卷积层
  • 输出32*32*32的vox
  • 最后一层接sigmoid,保证每个点的输出是概率值

3.2.3 Context-aware Fusion

作者相信不同视角出来的vox,都是object's canonical view[物体的正则视图],只是vox在view看到的部分会恢复的更好, Context-aware Fusion Module负责融合这些最可信的部分

  • 如何从v_i^{c}生成v_f
    • 所有视角: 通过c_i^1c_i^2的融合,得到context c_i
    • 所有视角: c_i送入Context Scoring网络(也就是几个3D卷积), 得到逐点的评分m_i
    • 所有m_i: 在相同位置处进行normalize,文中使用softmax,得到正则化后的逐点评分 s_i,相当于点的权重 [这个地方,视角之间关联上了]
    • 所有v_i^c使用s_i加权平均,得到v_f
Context-aware Fusion

3.2.4 Refiner

  • 结构: 3D encoder-decoder with the U-net connections

3.2.5 Loss Function

loss function

这里的N是所有vox个数

4 Experiments

4.1 Datasets and Metrics

Dataset

  • SharpNet
    • 合成的图片
    • use a subset: 包括13 major categories and 43,783 3D models
  • Pix3D
    • real image
    • use the 2894 untruncated(非截断) and unoccluded(非封闭) chair images[5]

Evaluation Metrics

可以看成3D IOU

Metrics

4.2 实验细节

  • 224*224 RGB -> 32*32*32 VOX
  • 前250 epoches:
    • 只输入single-view image, 也就不需要训练context-aware fusion module。因为context-aware fusion module是为了计算不同视角vox的权值,在只输入单视角图片时,其权值肯定为1,相当于不加权直接输出结果
  • 后100 epoches:
    • random numbers of input images
    • train whole network, 即加上了context-aware fusion module

4.3 合成图片的重建结果

  • single-view恢复结果
  • multi-view恢复结果

4.4 真实世界图片重建结果

  • we test our methods for single-view reconstruction on the Pix3D dataset. [6]

  • We use the pipeline of RenderForCNN to generate 60 images for each 3D CAD model in the ShapeNet dataset.读不懂[7]

4.5 Reconstruction of Unseen Objects

  • 所有模型都是在SharNet 13 major categories上训练的
  • Unseen Objects:
    • ShapeNetCore 剩下的44 categories上,选取24 random views进行预测

4.6 消融实验

Context-aware fusion

  • 使用均值来代替前面的context weighted

    • 效果差


      image
  • 使用3D convolutional LSTM[8]代替Context-aware fusion,来融合多个视角

    • 效果比均值还要差

Refiner

随着视角的增多, Refiner的效果越不明显

4.7 复杂度

image

4.8 讨论

  • 可视化score mapes发现, our scoring scheme是有效的
  • 在multi-view stereo (MVS) 任务上: 在LSM模型中[9],使用context-aware fusion module代替RNN, 重建效果更好。进一步说明context-aware fusion module优越
  • improve the reconstruction resolutions in the future work by introducing GANs

Conclusion and Future Works

  • plan to extend Pix2Vox to reconstruct 3D objects from RGB-D images.

  1. 3D-R2N2

  2. 看图片也只有3张呀,哪里来的long term memory

  3. 作者说“To the best of our knowledge, it is the first time to exploit context across multiple views for 3D reconstruction.”,但个人觉得应该不会是第一次吧,怎么可能之前的结构都不考虑融合多视角呢?

  4. 应该不是使用RNN,那是怎么做的呢?

  5. 为什么强调这两点?全是椅子的图片?

  6. 为什么只使用single view?

  7. 这是什么意思?REAL-WORLD images不是使用Pix3D dataset吗?

  8. 什么玩意,如何work的?

  9. what

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 203,456评论 5 477
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,370评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 150,337评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,583评论 1 273
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,596评论 5 365
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,572评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,936评论 3 395
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,595评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,850评论 1 297
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,601评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,685评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,371评论 4 318
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,951评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,934评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,167评论 1 259
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 43,636评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,411评论 2 342

推荐阅读更多精彩内容

  • rljs by sennchi Timeline of History Part One The Cognitiv...
    sennchi阅读 7,279评论 0 10
  • **2014真题Directions:Read the following text. Choose the be...
    又是夜半惊坐起阅读 9,355评论 0 23
  • 今天我参观陕西历史博物馆,沉浸其中6个小时,通过文物通过讲解学习了自类人猿人远古时代至今的政治,经济,文化和艺术等...
    曼谷123阅读 175评论 0 0
  • 我是2003年8月出生的标准00后。我眼中的世界,我的观点,我的想法,在这个凌晨,我想表达。 当初的90后与00后...
    张璟是我阅读 430评论 0 0