Multi-View 3D Object Detection Network for Autonomous Driving

补充知识

体素化（Voxelization）

是将物体的几何形式表示转换成最接近该物体的体素表示形式，产生体数据集，其不仅包含模型的表面信息，而且能描述模型的内部属性。表示模型的空间体素跟表示图像的二维像素比较相似，只不过从二维的点扩展到了三维的立方体单元，而且基于体素的三维模型有诸多应用

点云数据

1.什么是点云数据
点云数据是指在一个三维坐标系统中的一组向量的集合。这些向量通常以x，y，z三维坐标的形式表示，而且一般主要用来代表一个物体的外表面形状。不仅如此，除了（x，y，z）代表的几何位置信息之外，点云数据还可以表示一个点的RGB颜色，灰度值，深度，分割结果等。
Eg..Pi={Xi, Yi, Zi,…….}表示空间中的一个点，
则Point Cloud={P1, P2, P3,…..Pn}表示一组点云数据。

2.点云数据的获得
大多数点云数据是由3D扫描设备产生的，例如激光雷达（2D/3D）,立体摄像头（stereo camera），越渡时间相机（time-of-flight camera）。这些设备用自动化的方式测量在物体表面的大量的点的信息，然后用某种数据文件数点云数据。这些点云数据就是扫描设备所采集到的。

3.点云数据的用途
作为3D扫描的结果，点云数据有很多不方面的用途，包括为制造部件，质量检查，多元化视距，卡通制作，三维制图和大众传播工具应用等创建3D CAD模型。

激光雷达

无人驾驶中激光雷达感知周围环境的原理是什么？

首先，通过激光雷达获取到三维点去数据后。进行点云分离，然后进行聚类，一般都是通过计算相邻两个激光点间的距离来决定是否属于同一类。聚类完之后进行障碍物识别。识别也障碍物之后，进行前后两频对比，可以识别是静态障碍物还是动态障碍物。动态障碍物也可以计算出运动速度等。结合无人驾驶汽车当前的位置信息，计算出避障所需的最小安全距离，达到壁障功能。

作者：大力小白菜
链接：https://www.zhihu.com/question/54137057/answer/226039003
来源：知乎

激光雷达在无人驾驶的两个核心作用：

1．3D建模进行环境感知。通过激光扫描可以得到汽车周围环境的3D模型，运用相关算法比对上一帧和下一帧环境的变化可以较为容易的探测出周围的车辆和行人。

2．SLAM加强定位。激光雷达另一大特性是同步建图（SLAM），实时得到的全局地图，通过与高精度地图中特征物的比对，可以实现导航及加强车辆的定位精度。

激光雷达优点

激光雷达由发射系统、接收系统、信息处理三部分组成：激光器将电脉冲变成光脉冲发射出去，光接收机再把从目标反射回来的光脉冲还原成电脉冲，最后经过一系列算法来得出目标位置（距离和角度）、运动状态（速度、振动和姿态）和形状，可以探测、识别、分辨和跟踪目标。

1．解析度高，测距精度高，小于2公分、角度分辨率约0.09度，如此高的解析度可完整绘出物体轮廓，外加垂直侦测角度中，平均每0.4度即有一个扫描层、全周资料更新率15赫兹（Hz），车辆周围环境将无所遁形。

2．抗有源干扰能力强，激光雷达的脉冲光束发射器之口径非常小，即接收器可接收脉冲光束的区域亦非常狭窄，因此，受到其他红外线雷达光束干扰的机会就非常小。此外，脉冲光束实质上属红外线波，不会受电磁波影响，因此，在一般应用环境中能干扰激光扫描仪的信号源不多，适用于高度自动化的系统。

3．探测性能好，对于激光扫描仪，仅有被脉冲光束照射的目标才会产生反射，且红外线波并不像电磁波会受回波干扰等问题，对于环境的几何形状、障碍物材质等，均不影响激光扫描仪的侦测结果。以系统设计角度而言，因信号具高稳定性激光扫描仪的信号可信度十分高。

4．不受光线影响，激光扫描仪可全天候进行侦测任务，且其侦测效果不因白天或黑夜而有所影响，这也是目前无人驾驶车中许多采用的摄像头感测器所达不到的功能。

5．测速范围大，激光扫描仪可成功扫描出障碍物的相对速度高达每小时200公里之轮廓，也就是说，对于车系统，激光扫描仪并不局限在市区或低速应用情境，高速移动下的情境亦可被应用，此对车辆增加移动速度后之安全系统设计有显著的帮助，系统应用上更具有弹性。

激光雷达缺点

1．红外线波受天候和大气的影响，在一般晴朗或良好气候条件中的光衰较小，传播距离和理想值接近；若在大雨、下雪、浓雾等非晴朗气候条件下，红外线波的侦测能力会大幅衰減，感测距离亦受影响。

2.价格高，Velodyne 64线激光雷达的供应价格高达8万美元，已开发出了相对便宜的32线和16线激光雷达的价格也分别3万美元与8000美元，若要普及应用，价格是一大障碍。

3．庞大信息流，64线 3D激光雷达每秒产生一百三十万笔侦测资料，解析度较低的32线激光雷达每秒产生七十万笔侦测资料，如此快速且大量的资料是嵌入式系统难以负荷起的工作，需要专业处理器才能完整处理。

三维坐标系中方向角和倾斜角的解释

https://www.zybang.com/question/cfe1f03211d2f63f6724942bfa540870.html

激光测距分辨率

激光测距机测距时分辨相邻目标的能力。有距离分辨率和横向分辨率之分。距离分辨率是在规定距离（如100m）上能分辨和测量前后相邻两目标间的最小距离，通常用米计量，一般坦克激光测距机的距离分辨率为20～30ｍ，最高可达15ｍ。距离分辨率主要取决于测距机光电转换的响应时间、前置放大器的通频带宽度用阈值、整形电路的开关时间和振荡器的振荡频率等。横向分辨率又称为角分辨率，是测距机在激光发射光轴垂直的方向上，在规定的距离（如1000m）上能分辨左右相邻两个目间的最小尺寸，一般以角度表示。横向分辨率的高低度主要取决于激光测距机探测器的接收视场和激光光束的发射角。
分辨率是指传感器能感受到的[被测量]的最小变化能力。也就是说，如果输入量从某一个非零值缓慢变化，当输入变化值未超过某一个数值时，传感器输出不会发生变化，也就是说传感器对此输入量的变化是分辨不出来的。只有当输入量的变化超过分辨率时，其输出才会变化。

上采样和下采样

上采样（upsampling）
放大图像，主要目的是放大原图像，从而可以显示在更高分辨率的显示设备上
下采样（subsampled）
缩小图像，使得图像符合显示区乐的大小，生成对应图像的缩略图

Deconvolution（反卷积）

动画演示：https://github.com/vdumoulin/conv_arithmetic

摘要

本文提出了一种应用于自动驾驶的多视角3D检测网络，将雷达点云和RGB图像共同作为网络的输入从而产生对应的3D bounding box。此网络包括两个部分，一个用来产生3D候选框，另一个用来进行多视图融合。其中3D候选框生成网络使用3D雷达点云的俯视图作为输入生成3D候选框，而多视图融合主要是将不同的视角提取到的特征进行融合。目前在KITTI挑战上本文的方法是state-of-the-art的方法。

介绍

目前，3D物体检测在自动驾驶的视觉感知系统的扮演着重要的地位。现代的无人汽车通常都装备了很多的传感器，比如激光雷达或者摄像机。激光扫描可以获取更精确的深层信息，而摄像机则可以保留更多语义信息。雷达点云和RGB图像的融合能够使得自动驾驶更加安全，并且提升自动驾驶的表现。
本文关注的焦点是利用雷达点云和RGB图像进行3D物体的检测，希望能够在道路场景中获取3D物体位置和类别的任务重取得较好的效果。一般来说，使用雷达点云可以在获取3D目标位置的时候获得更高的精度，而使用RGB图像则可以在获取预测的2D Box时取得更好的效果。
本文中提出的MV3D使用多种类型的数据作为输入，预测出物体在三维空间中的完整的物体范围。利用多模式信息的一个主要想法就是执行区域的特征融合。我们首先提出了多视图的编码方案以获得一个紧凑有效的三维点云稀疏表达。3D候选区网络利用点云的俯视图表达去生成一个高精度的候选框。使用3D候选框的好处就是它可以投影到三维空间的任意视角。设计了一种深度融合的方法，使得中间层之间可以相互交互。

MV3D Network

目前3D雷达点云编码主要是生成3D网格空间或者前视图，3D网格表达保留了大部分的未加工的点云信息，通常需要更多更复杂的计算资源用于特征提取。所以本文提出了一种更加简洁的表达：3D点云的前视图和俯视图。

俯视图
俯视图由高度、强度、密度组成，投影到分辨率为0.1的二维网格中
1.高度
对于每个网格来说，高度特征有点云单元格中的最高值得出；为了编码更多的高度特征，点云被分为M块，每一个块都计算相应的高度图，从而获得了M个高度图。
2.强度
强度是每个单元格中有最大高度的点的映射值
3.密度
表示每个单元格中点的数目，为了归一化特征，被计算为：

其中N为单元格中的点的数目
强度和密度特征计算的是整个点云，而高度特征是计算M切片，所以，总的俯视图被编码为（M + 2）个通道的特征
前视图
前视图给俯视图提供了额外的信息。由于激光点云非常稀疏的时候，投影到2D图上也会非常稀疏。相反，我们将它投影到一个圆柱面生成一个稠密的前视图。
假设3D坐标为

3D坐标

那么他的前视图坐标

前视图坐标

可以通过如下式子计算

前视图坐标计算公式

其中∆θ和 ∆φ分别是激光束的水平和垂直分辨率。

3D候选区网络

目前2D目标检测中，区域提名网络已经成为最高水平的关键，文章设计了一个网络产生候选区域，使用俯视图作为输入，在3D物体检测中。俯视图相比于前视图/图像平面有几个优点。首先，物体投影到俯视图时，保留了物体的物理尺寸，从而具有较小的尺寸方差，这在前视图/图像平面的情况下不具备的；第二，在俯视图中，物体占据不同的空间，从而避免遮挡的问题。第三，在道理场景中，由于目标通常位于地面平面上，并在垂直位置的方差较小，俯视图定位在获得准确的3D bounding box是很重要的。因此，使用俯视图作为输入，可以确保3D位置预测更可行。

给一个俯视图，网络通过一些3D prior boxes生成3D的候选框。每一个3D候选框都被参数化为：

3D坐标

其中x，y，z是雷达坐标系统中坐标的中心，l，w，h分别是长宽高，对于每一个3D prior box，相应的俯视图锚点为：

3D prior box

这些锚点都可以由

image.png

离散化后获得。

设计的N个3D前置框通过在训练集的地面真实目标大小聚类获得。在机动车检测的情况下，前置框（L，W）的值分别为{（3.9，1.6），（1.0，0.6）}，和高度h是固定值1.56米。通过旋转鸟瞰锚90度（围着锚x,y的坐标中心），可以得到n = 4个前置框。（x，y）为鸟视图特征图中的坐标，Z可以根据摄像机高度和物体高度来计算。在区域产生中不做方向回归，而把它留给下一个预测阶段。3D框的方向限制在{ 0◦，90◦}，这是接近实际的取向大部分道路场景中的物体。这种简化使回归训练更容易。

采用0.1米的离散分辨率，目标框在鸟瞰中仅占5∼40个像素点（最大约相当于0.015米）。检测这些非常小的物体仍然是一个困难的问题。一种可能的解决方案是使用更高的分辨率的输入，然而，将需要更多的计算。我们选择特征图上进行上采样操作。我们用2倍的双线性上采样操作在网络的最后一个卷积层后。前端卷积层中只进行3次池化运算，即8倍的下采样。因此，结合2倍的反卷积操作，特征图被送到区域提名网络时只有相对于鸟瞰图输入的4倍下采样后的图。

我们做3D框回归通过回归到t = (∆x,∆y,∆z,∆l,∆w,∆h)中，类似于2D目标检测中的RPN网络。(∆x,∆y,∆z) 是锚中心归一化的偏移量，(∆l,∆w,∆h) 由∆s = log（Sgt/Sanchor）,s ∈ {l,w,h}.计算得出。我们使用多任务损失函数做物体分类/背景分类和3D框回归。我们采用分类熵做物体分类损失和光滑L1做3D框回归损失。背景锚可以忽略。当锚与真实目标边框重叠超过0.7时，我们认为是正样本，低于0.5认为是负样本，中间的我们忽略不计。
由于激光雷达点云稀疏，会导致许多空锚，我们在训练和测试中删除所有的空锚，以减少计算。可以通过计算点占用图上的积分图像来实现
对于每个非空锚在每个位置的最后一个卷积特征图，网络生成一个3D框。为了减少冗余，我们应用非最大抑制（NMS）的鸟瞰框，论文没有使用3D非极大值抑制。使用交并比阈值为0.7在非极大值抑制中。前2000框保存在训练期间，而在测试中，我们只使用300框。

基于区域的融合网络

文章设计了一个基于区域的融合网络，有效地结合从多个视图的特征，共同做候选区域分类和做定向3D框回归。
由于从不同的视图/方式的特征图通常有不同的分辨率，我们采用ROI池化为每个视图以获得相同长度的特征向量。给定生成的3D候选区域，我们可以将它们投射到三维空间中的任何视图中，论文映射到3个视图中，鸟瞰图（BV），前视图（FV），和图像平面（RGB）。给出一个3D区域，我们可以获取ROI通过：

image.png

其中，T3D→v表示从激光雷达坐标系到鸟瞰图、前视图，和图像平面的转换函数，给定一个输入特征图x从每个视图的前端网络，我们获得固定长度的特征通过ROI池化：

image.png

深度融合（Deep fusion）

不同阶段的深度融合网络

融合过程如下：

early fusion

、

late fusion

deep fusion

多视图网络融合特征后，我们在3D区域中回归3D框的方向。特别是，回归的目标是3D框的8个角：T =（∆x0,···,∆x7，∆Y0,···∆Y7，∆Z0，···，∆Z7）。该参数被编码为由候选框的对角线长度归一化后的偏移量。尽管这样的24-D向量表示三维框是冗余的，但是我们发现这种编码方法优于中心和大小的编码方法。请注意，我们的3D框回归不同于回归轴对齐的3D框。在我们的模型中，物体的方向可以从预测的3D框角进行计算。我们使用多任务损失共同预测物体类别和3D框方向。在区域网络中，类别损失使用交叉熵和3D框损失使用平滑L1。除了上述正负样本设定和非极大值抑制阈值的设定，我们还使用交并比阈值0.05去除多余的盒子，确保鸟瞰中的物体不会占据同一空间。
我们采用两种方法去规范基于区域的融合网络：下降路径训练[ 13 ]和辅助损失。对于每次迭代，我们随机选择做全局下降路径或局部下降路径的概率为50%。如果选择全局下降路径，我们从三视图中相同概率中选择一个视图。如果选择局部下降路径，每个连接节点的路径输入随机丢弃的概率为50%。我们确保每个连接节点至少保留一个输入路径。为了进一步加强每个视图的表示能力，我们在网络中添加辅助路径和损失。如下图所示，辅助路径与主网络的层数相同。辅助路径中的每一层与主网络中的相应层共享权重。我们使用相同的多任务损失，即分类损失加3D框回归损失，反向传播每个辅助路径。计算所有损失中包括辅助损失。推理过程中删除辅助路径。

image.png

在我们的多视图网络中，每个视图具有相同的网络结构。基础网络是建立在VGG16下进行修改的：
•渠道减少到原来的网络的一半。
•为了处理特别小的物体，我们使用特征粗略估计以获得高分辨率的特征图。特别是，我们插入一个2倍双线性上采样层在最后一层卷积特征图输入到三维区域网络之前。同样，我们插入4倍／4倍 /2倍上采样层在BV / Fv／RGB分支的ROI池化层之前。
•我们删除原VGG网络中第四个池化操作，因此我们的网络卷积部分进行8倍的下采样。
•在多视角融合网络中，我们添加一个额外的全连接层FC8在原有的FC6、FC7层基础上。
初始化参数由通过imagenet训练的vgg16网络。尽管我们的网络有三个分支，但是参数的个数是75%的vgg16网络。一个图像网络的运行时间是在泰坦X上0.7s。

最后编辑于：2017.11.15 21:12:34

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 206,311评论 6赞 481
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 88,339评论 2赞 382
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 152,671评论 0赞 342
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 55,252评论 1赞 279
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 64,253评论 5赞 371
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 49,031评论 1赞 285
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 38,340评论 3赞 399
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,973评论 0赞 259
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 43,466评论 1赞 300
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,937评论 2赞 323
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 38,039评论 1赞 333
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,701评论 4赞 323
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 39,254评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 30,259评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,485评论 1赞 262
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 45,497评论 2赞 354
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,786评论 2赞 345

Multi-View 3D Object Detection Network for Autonomous Driving

Multi-View 3D Object Detection Network for Autonomous Driving

补充知识

体素化（Voxelization）

点云数据

激光雷达

三维坐标系中方向角和倾斜角的解释

激光测距分辨率

上采样和下采样

Deconvolution（反卷积）

摘要

介绍

相关工作

MV3D Network

3D候选区网络

基于区域的融合网络

深度融合（Deep fusion）

推荐阅读更多精彩内容