End-to-End Pseudo-LiDAR for Image-Based 3D Object Detection
独立驾驶是安全准确检测三维物体的必要条件。虽然激光雷达传感器可以提供准确的三维点云环境估计值,但在许多情况下,它们的成本太高了。最近,伪激光雷达(PL)基于引入LiDAR基于廉价立体相机的传感器与方法的精度差距大大缩小。PL通过将二维深度图输出转换为三维点云输入,将用于三维深度估计的最新深度神经网络与用于三维目标检测的深度神经网络相结合。然而,到目前为止,这两个网络必须单独训练。在本文中,我们介绍了一个基于微观表示变化的新框架(CoR)允许整个模块PL端到端的管道训练。该框架与大多数最先进的网络兼容,适用于这两个任务,并与PointRCNN在所有的基准测试中,结合总是优于PL—基于提交KITTI图像的3D在目标测排名最高。
基于激光雷达的方法存在问题
严重依赖目标检测3D point准确性、位置和检测需要近似性object surfaces
由于车和人在图像中只占10%,无法检测到远处的目标(kitti),受激光范围的限制,当前伪激光雷达存在的问题在训练过程中会被忽略
端到端深度预测和目标检测联合训练尚未实现
本文提出的端到端框架解决了无法联合训练的缺点。其中,错误检测或定位对象的错误信号可以是softly attend影响预测最大的像素(可能是2D对象上或周围的像素)引导深度估计器为后续检测器的改进提供依据。深度估计器与目标检测器之间的表示变化,以反向传输最终检测损失的误差信号(CoR)与估计深度相比,必须是微不足道的。
本文确定了两个主要类型CoR基于现有类型的子采样和量化LiDAR将探测器合并到伪LiDAR框架中。
三维点的位置被分散成一个固定的网格,只记录在获得的张量1中占用(即{0,1})或密度(即[0,1])。该方法的优点是可以直接利用二维和三维卷积从张量中提取特性。然而,这种离散过程使反向传播变得困难。
本文介绍了一个 radial basis function(RBF)给定面元m的中心?pm附近,而不是二进制占用,保持着Softly计数点,由RBF加权。进一步允许任何给定m受到close bins Nm影响。然后我们相应地修改了它T的定义。让Pm表示落入bin m的点集:
首先,我们去除所有高于激光雷达信号的正常高度3D点,比如天空的像素点。此外,我们还可以通过亚抽样稀释剩余点。第二步是可选的,但建议在[45]中使用,因为深度图产生的点数远大于激光雷达:平均有3万个伪激光雷达信号,而激光雷达信号有1.8万个点(在汽车的正视图中)。虽然密集的表示有利于准确性,但它们确实减慢了目标检测网络的速度。我们采用了一种基于角度的稀疏方法。我们使用球坐标(r,θ,φ)离散化定义了三维空间中的多个料仓。具体来说,我们离散了θ(极角)和φ(方位角)模拟激光雷达光束。然后我们保持一个单一的三维点(x,y,z)球坐标落在同一个盒子里。因此,生成的点云模拟了真正的激光雷达点。
在「」微信官方账号后台回复:下载全网第一份OpenCV中文版扩展模块教程,涵盖等20多章。
在「」微信官方账号后台回复:可下载包括等待31个视觉实战项目,帮助快速学校计算机视觉。
在「」微信官方账号后台回复:即可下载内容个基于实现20个,实现OpenCV学习进阶。
交流群
欢迎加入微信官方账号读者群与同行交流。SLAM、三维视觉、传感器、自动驾驶、摄影计算、检测、分割、识别、医学图像、GAN、算法竞赛等微信群(以后会逐渐细分),请扫描下面的微信号加群,备注:昵称 学校/公司 研究方向 上海交大 视觉SLAM。请按格式备注,否则不予通过。添加成功后,将根据研究方向邀请进入相关微信群。在群里发广告,否则会请出群。谢谢你的理解~