点击上方“3D视觉车间,选择星标
第一时间送达干货
标题:End-to-End Pseudo-LiDAR for Image-Based 3D Object Detection
作者:Rui Qian,Divyansh Garg,Yan Wang,Yurong You,Serge Belongie,Bharath Hariharan,Mark Campbell,Kilian Q. Weinberger,Wei-Lun Chao
来源:CVPR 2020
编译 : Cirstan
审核:wyc
大家好,今天为大家带来的文章是End-to-End Pseudo-LiDAR for Image-Based 3D Object Detection
可靠准确的三维物体检测是安全独立驾驶的必要条件。虽然激光雷达传感器可以提供准确的三维点云环境估计值,但在许多情况下,它们的成本太高了。最近,伪激光雷达(PL)基于引入LiDAR基于廉价立体相机的传感器与方法的精度差距大大缩小。PL通过将二维深度图输出转换为三维点云输入,将用于三维深度估计的最新深度神经网络与用于三维目标检测的深度神经网络相结合。然而,到目前为止,这两个网络必须单独训练。在本文中,我们介绍了一个基于微观表示变化的新框架(CoR)允许整个模块PL端到端的管道训练。该框架与大多数最先进的网络兼容,适用于这两个任务,并与PointRCNN在所有的基准测试中,结合总是优于PL,在基于KITTI图像的3D在目标测排名最高。
本文提出的框架可适用于三维目标探测器,主要有以下贡献:
1. 它可以是直接点云输入或定量结构输入。由此产生的模型创造了基于图像的三维物体检测的新技术水平,进一步缩小了基于激光雷达的三维传感器之间的剩余精度差距。 2.考虑到KITTI基准,三维图像的分辨率相对较低,只有少数图像包含远处的物体(标记)。这是相当合理的。分辨率较高的图像和比例较高的遥远汽车将导致进一步的检测和改进,特别是在硬(远、严重堵塞)类别中
问题
基于激光雷达的方法存在问题:
1)严重依赖目标检测和3D point准确性、位置和检测需要近似性object surfaces
2)由于车和人在图像中只占10%,无法检测到远处的目标(kitti),受激光范围的限制,当前伪激光雷达存在的问题在训练过程中会被忽略
3)端到端深度预测和目标检测联合训练尚未实现
图1 像素分布:90%的像素对应背景。与汽车和人相关的10%像素(<1%的人)主要在20米深。
本文提出的端到端框架解决了无法联合训练的缺点。其中,错误检测或定位对象的错误信号可以是softly attend ”影响预测最大的像素(可能是2D对象上或周围的像素)引导深度估计器为后续检测器的改进提供依据。深度估计器与目标检测器之间的表示变化,以反向传输最终检测损失的误差信号(CoR)与估计深度相比,必须是微不足道的。
图2 我们引入了表示层的变化,以连接深度估计网络的输出作为三维目标检测网络的输入。其结果是一个端到端框架,直接从三维图像生成对象边界框,并允许在所有层反向传输。黑色实心箭头表示向前通过;蓝色和红色虚线箭头分别表示目标检测损失和深度损失的反向过程。*表示我们的CoR层可以反推不同表示之间的梯度。
三维点的位置被分散成一个固定的网格,只记录在获得的张量1中占用(即{0,1})或密度(即[0,1])。该方法的优点是可以直接利用二维和三维卷积从张量中提取特性。然而,这种离散过程使反向传播变得困难。
本文介绍了一个 radial basis function(RBF)给定面元m的中心?pm附近,而不是二进制占用,保持着Softly计数点,由RBF加权。进一步允许任何给定m受到close bins Nm影响。然后我们相应地修改了它T的定义。让Pm表示落入bin m的点集:
图3 :我们使用软量化或硬量化输入伪激光雷达(PL)点云进行体素化。绿色体素是那些受影响的人。PL点影响体素。检测损失Ldet正梯度的蓝色体素施加力将点从中心推到其他体素,而负梯度的红色体素施加力将其他体素的点拉到中心。PL当点影响这些元素时,红蓝体轴上的力会影响PL点。软量化增加PL点的影响区域,从而增加力,允许其他元素的点被推开或拉动。因此,更新后PL点可以更接近地面上真正的激光雷达点云。
首先,我们去除所有高于激光雷达信号的正常高度3D点,比如天空的像素点。此外,我们还可以通过亚抽样稀释剩余点。第二步是可选的,但建议在[45]中使用,因为深度图产生的点数远大于激光雷达:平均有3万个伪激光雷达信号,而激光雷达信号有1.8万个点(在汽车的正视图中)。虽然密集的表示有利于准确性,但它们确实减慢了目标检测网络的速度。我们采用了一种基于角度的稀疏方法。我们使用球坐标(r,θ,φ)离散化定义了三维空间中的多个料仓。具体来说,我们离散了θ(极角)和φ(方位角)模拟激光雷达光束。然后我们保持一个单一的三维点(x,y,z)球坐标落在同一个盒子里。因此,生成的点云模拟了真正的激光雷达点。
图4 KITTI评估结果
图5 P-RCNN方法在框架学习
图 5 深度估计的定性结果。PL++(仅限图像)的顶部有许多估计错误的像素。通过端到端的训练,提高了对车辆周围深度的估计,得到的伪激光雷达点云具有更好的质量。(请放大以获得更好的视野。)
图4 轨迹精度
Reliable and accurate 3D object detection is a necessity for safe autonomous driving. Although LiDAR sensorscan provide accurate 3D point cloud estimates of the environment, they are also prohibitively expensive for manysettings. Recently, the introduction of pseudo-LiDAR (PL)has led to a drastic reduction in the accuracy gap betweenmethods based on LiDAR sensors and those based on cheapstereo cameras. PL combines state-of-the-art deep neural networks for 3D depth estimation with those for 3Dobject detection by converting 2D depth map outputs to3D point cloud inputs. However, so far these two networks have to be trained separately. In this paper, we introduce a new framework based on differentiable Changeof Representation (CoR) modules that allow the entire PLpipeline to be trained end-to-end. The resulting frameworkis compatible with most state-of-the-art networks for bothtasks and in combination with PointRCNN improves overPL consistently across all benchmarks — yielding the highest entry on the KITTI image-based 3D object detectionleaderboard at the time of submission.
点击, 即可获取本文下载链接。
本文仅做学术分享,如有侵权,请联系删文。
在「3D视觉工坊」公众号后台回复:即可下载 3D视觉相关资料干货,涉及相机标定、三维重建、立体视觉、SLAM、深度学习、点云后处理、多视图几何等方向。
在「3D视觉工坊」公众号后台回复:即可下载包括等。
在「3D视觉工坊」公众号后台回复:即可下载独家学习课件与视频网址;后台回复:即可下载独家学习课件与视频网址。