最近神经网络界最火爆的两个技术,一个是 NeRF(NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis),另一个是 deep diffussion model,这里对 NeRF 进行调研之后进行一些总结。
感知的核心任务其实是对于周围环境的理解,对于机器人来说,只有理解了环境,然后才能做出一系列的决策。在环境理解中,三维环境重建是重要的任务之一。目前三维重建的手段是通过一系列的传感器在时空上对周围环境进行采样,而采样的结果将会作为三维重建的约束。一般来说当前的传感器有摄像头、激光雷达、毫米波雷达、超声波雷达等。而 NeRF 提出了一种如何通过一系列二维图片(摄像头)对三维重建进行约束的方法,其核心思想是建立可微的渲染方程。
1. 渲染方程(Rendering equation)
如果当前有一种对于三维环境的空间描述方法,并且清楚知道三维环境是如何在摄像头上进行成像的,则可以用图像对其进行约束,这种从三维环境到二维图像的过程被称为渲染,其核心问题是如何更好地描述真实世界的光照。
Nerf 认为整个空间由一系列的粒子构成,这些粒子一方面自身会发出光,另一方面这些粒子会吸收入射到它们的光,前者对应漫反射,后者对应遮挡。假设已知摄像头的内参、外参,那么对于像素来说,深度为的位置在世界坐标系的位置和方向为
在位置处,取一个母线方向和相同的扁圆柱,其底面面积为,长为,粒子密度为,那么圆柱中的粒子个数为
当时,可以认为粒子几乎全部平铺在圆柱底部,如果粒子的截面积为,那么所有粒子占据的总面积是,根据假设粒子会吸收入射到它们上面的光,因此光束打到圆柱上后被吸收的比例和面积占比一致为
这里假设光是从外向内(摄像头光心)发射的,因此有
取极限后可以得到微分方程
如果考虑到粒子自身也会发光,发光量为 ,那么有
方程变成
该微分方程求解如下
正常积分的范围应该为 ,但是工程上是不可实现的,因此采用 表示采样的最近距离, 表示采样的最远距离,在这样的假设下, 表示摄像头看到的颜色,也就是需要求解的值, 表示背景光的颜色,这个是 Nerf 原始论文中没有考虑到的项,后来在一些论文中被添加进去。在 NeRF 中认为 ,因此有了论文中的公式如下所示
注意到 NeRF 对于渲染模型的建立只考虑了遮挡和漫反射,对于其他比如多次散射等并没有考虑,如果想要考虑这些因素,可以阅读论文Optical models for direct volume rendering。为了方便编写程序,需要对上述的连续方程进行离散化,首先进行变形得到
如果在 上进行采样,得到一系列采样点 ,因此最终的离散表达式可以写成
读完可能会很奇怪,这个哥们是怎么想到这种奇奇怪怪的方法的,很多人怀疑他曾经搞过射线追踪,事实上也确实是如此,在他的主页 Ben Mildenhall 上可以看到,他在校时期完成过一些和渲染、射线追踪相关的课程大作业,这也很好地解释了为什么他可以很自然地想到用神经网络来完成这项任务。
2. 三维空间描述方法
当前对三维空间描述的方法主要有以下四种:栅格、点云、隐式表达、面元
3. 球谐函数(Spherical Harmonics,SH)
在采用类似 Plenoxels 思路完成三维重建过程中,一个绕不开的坎是球谐函数,其就是在球坐标系下的傅里叶展开,可以表示球坐标系下的各种函数,最开始用在游戏渲染行业。这里用它来表示空间三维点颜色(像素颜色)随着观察角度(相机移动)的不同而产生的微小变化。
在一般的论文中提到球谐函数,往往采用复球谐函数的形式,如下所示
其中 定义如下
是伴随勒让德多项式,可以通过如下的递推公式得到结果
这里列出最开始的几个伴随勒让德多项式的结果
但是在工程中,采用的一般是实球谐函数(Real Spherical Harmonics),如下所示
这里列出了最开始的几个实球谐函数