资讯详情

谷歌WayMo提出R4D:采用参考目标做远程距离估计

点击上方“3D视觉车间,选择星标

第一时间送达干货

5d7f0861ca949b74eff7389361b4f024.png

作者丨黄浴

来源:计算机视觉深度学习和自动驾驶

arXiv6月10日上传论文"R4D: UTILIZING REFERENCE OBJECTS FOR LONGRANGE DISTANCE ESTIMATION",来自谷歌WayMo出版于公司ICLR‘22。

估计目标的距离是自动驾驶的关键安全任务。现有的方法和数据集侧重于短程目标,而忽略了同样重要的长程目标。本文介绍了用两个数据集验证远程距离估计的新方法。然后,提出R4D,远程目标距离的框架通过场景中已知距离的参考目标准确估计。

R4D从人类感知中汲取灵感,将目标连接到所有参考目标,构建图纸。在图中编码目标-参考目标之间的相对距离信息。然后注意模块来衡量参考目标的重要性,并将其组合成对目标的距离预测。

与现有的基线方法相比,两个提议数据集中的实验表明,R4D显著提高了鲁棒的有效性和性能。


估计目标与车辆的距离对于几项自动驾驶任务非常重要,包括换道、路线规划、速度调整、防撞等。虽然现有的方法和数据集侧重于短距离目标,但需要知道长距离目标的距离,即超出典型激光雷达范围的目标~80米(如图所示)-高速公路驾驶、重型卡车驾驶和湿路驾驶是必要的。

根据美国交通部的数据,在标准限速65英里/小时的农村公路上,乘用车完全停车距离为145米,大大超过了典型的激光雷达感应范围。在重型卡车或雪、冰、雨等恶劣道路条件下,所需的停车距离将显著增加。例如,对于卡车运输和湿路驾驶,停车距离分别从145米增加到183米和278米。

此外,考虑到高速公路上的突然剧烈刹车是不安全的,估计超过最小停车距离的目标距离仍然至关重要,以便为逐渐减速或换道提供足够的时间。因此,为了有足够的时间做出适当的反应,并确保安全,自动驾驶系统需要估计远程目标的距离。

这个关键任务被称为远程距离估计。具体来说,给定的近程激光雷达信号和摄像头图像是远程目标(超出激光雷达范围)的输出。根据现有的做法,沿着相机的光轴测量相机和目标中心之间的距离。对于这个新任务,引入了伪远程的两个数据集KITTI数据集和Waymo开放数据集-远程标签

由于KITTI数据集没有提供远程目标的真实距离,伪远程目标KITTI数据集是一个衍生数据集,删除了40米以外的激光雷达点,并将40米以外的所有目标视为远程目标。更重要的是,Waymo在开放数据集的基础上,构建了一个新的大规模数据集,包括标记的真实远程目标(距离80米到300米)。

总之,虽然这两个数据集在远距离(40米或80米以上)的定义上有所不同,但都包括激光雷达点、摄像头图像和远距离目标的距离标签。

激光雷达和相机都不能单独解决远程估计问题,以达到所需的精度。大多数现有的激光雷达技术都不能满足远程感知的要求。Waymo和KITTI激光雷达的最大射程仅为80米左右,低于上述场景所需的工作距离。

尽管一些先进的激光雷达系统声称可以实现更长的传感范围,例如Waymo第五代激光雷达系统和Velodyne Alpha PrimeTM,传感范围可达300米,但激光雷达点远距离稀疏,更容易堵塞。因此,激光雷达不足以覆盖所有安全和重要的自动驾驶汽车应用程序。

另一方面,相机可以在更远的范围内感知目标,并捕获丰富的语义信息,如目标外观、几何图形和上下文提示。然而,它本身并不能提供深度信息。经典的基于几何图像的算法可以根据相机图像中的像素大小来估计标准目标(如汽车和卡车)的距离。然而,由于尺度估计错误,这些方法在远程目标中产生了不准确的结果。

基于外观的方法对远程目标的结果并不令人满意。该方法依赖于单个外观线索来估计场景中的距离,而忽略了背景或其他相关信号。从长远来看,目标视觉上很小,导致外观特征信息较少。虽然激光雷达和摄像头不能单独解决远程距离估计问题,但这两个信号为任务提供了补充线索。


R4D训练知距离的远程目标(指定目标)进行训练,并将指定目标和参考表示为图结构。如图所示,将目标定义为节点,这些边将目标连接到参考目标。提取目标-参考(Tar-Ref)嵌入并将参考信息传输到远程指定目标。R4D然后将所有目标-参考嵌入式信息反馈给注意模块,权衡不同参考信息的相对重要性,并将其组合成距离预测来整合不同参考信息。

受人类估计目标与其他参考距离的启发,R4D利用参照物进行远程距离估计。参考可以是目标或点的任何组合。这些目标或点与自动驾驶车辆的距离已知且准确,如激光雷达检测、其他传感器检测到的目标和地图特征。上图显示了指定的目标和参考。Raw Inputs虚框所示的图。指定目标及其参考是图的节点。将指定目标连接到参考目标,编码成对关系。

R4D详细的系统结构如图所示:为了建模目标-参考成对关系,建议提取联合嵌入和地理距离嵌入,分别编码视觉和几何关系;然后引入注意模块,有选择地聚合成对关系;最后,R4D通过辅助监督培训:目标与参考之间的相对距离。

以单目相机为主要传感器检测远程指定目标,以激光雷达检测到的短程目标为参考。值得注意的是,R4D不是专门为激光雷达或单目图像设计的,很容易扩展到其他传感器和参考。

1 建模成对关系

  • 联合嵌入

成对关系建模的视觉提示应基于指定目标、参考目标和两个目标之间的场景。因此,提出了一种简单的方法,从两个目标的集合框中提取嵌入特征。

  • 地理-距离嵌入

用以下内容形成输入,以提供几何提示:

  • 二维边框中心坐标指定目标和参考目标,以及相对位置偏移。

  • 二维边框的大小和指定目标和参考目标之间的相对比例。

  • 激光雷达3D目标检测器提供的参考距离。

然后将输入输入到多层传感器中,产生地理距离嵌入。

将指定目标、参考、并集和地理距离嵌入连接起来,形成最终指定目标-参考嵌入,建模一对指定目标-参考目标之间的关系。

2 基于注意的信息聚合

组合成对的指定目标-参考目标嵌入,估计所指定目标的距离。一种简单的方法是对同一指定目标的所有参考进行平均。然而,从直觉上看,正如实验结果那样,参考目标并不同样重要。例如,当定位位于图像右上角的远处汽车时,图像左下角的汽车可能没有多大帮助。

引入基于注意力的模块,以引导模型关注最重要的参考目标。如图所示,遵循VectorNet构建具有局部和全局信息的嵌入。具体来说,使用MLP全局嵌入和平均池化提取(如图黄色)。

然后将整体嵌入与原始指定目标——参考嵌入连接在一起(图中蓝色)。考虑到这些整体-局部嵌入,请注意模块使用全连接层和softmax层预测和规范每个参考的重要权重。最后,将这些权重加权平均集成到原始指定目标——参考嵌入中,最终获得嵌入。

3 监督相对距离

与其他间接线索(如参考嵌入)预测指定目标距离相比,从指定目标嵌入预测指定目标距离更简单。作者在这里提供额外的监督,以鼓励模型学习指定目标与参考目标之间的成对关系,而不是短路线索。这种额外的监督设计类似于残差表示,它广泛应用于计算机视觉,以帮助优化过程。

具体来说,在训练阶段,为每个指定目标嵌入一个相对(或残余)距离头。指定目标与参考目标之间的相对距离d由下式给出 ?d = dt ? dr,其中dt是指定目标的距离。


原始KITTI数据集包含RGB图像、激光雷达点云、二维和三维边框等逐像素注释。有了这些丰富的注释,KITTI自动驾驶任务的基准是在数据集上开发的,包括场景流估计、深度估计、检测和分割。

尽管KITTI数据集提供激光雷达点云,但不提供超出激光雷达感知范围的距离标记。KITTI从原始的数据集KITTI从数据集中衍生出来的。假设激光雷达的有效探测范围只有40米,以移除更远的激光雷达点。超出有效传感范围的目标被视为远程指定目标,其他目标已知并作为输入提供。

值得注意的是,上述指定目标与已知目标之间没有重叠。根据协议,原始训练数据分为训练和验证两个子集。从数据集中删除不包含任何远程目标的图像。因此,伪远程KITTI训练集和验证集中的数据集分别包括2181幅图像4233辆车和2340幅图像4033辆车。该衍生数据集规模相对较小,更重要的是,它不包含真正的远程目标。

鉴于上述伪远程KITTI数据集的局限性在这里构建了一个新的远程数据集,它构建在Waymo在开放数据集的基础上,包括距离自动驾驶车辆300米的车辆。标记如下。

首先,在激光雷达范围内创建3个目标D框架。然后,用雷达衍生信号进行粗定位,将激光雷达框扩展到远程。由于雷达分辨率低,标记采用平滑的目标轨迹约束,以确保3D框在时间和空间上保持一致。最后,给定长距离目标的3D计算自动驾驶车辆的距离。

一般来说,如图所示,获得了49056张远程车辆187938辆的训练图像,以及3578张远程车辆10483辆的验证图像。这些图像跨越了一天的不同时间,包括黎明、白天、黄昏和夜晚。

距离增强旨在鼓励R4D从成对关系中学习,防止只用一个路提示(即目标嵌入)。通过强调两两嵌入和距离预测之间的相关性,引导模型关注参考目标和指定目标之间的相对距离。具体来说,保持相对距离固定,扰动参考距离,并期望模型在相同扰动下预测目标距离。

例如,如图(a)所示,指定目标和参考目标之间的相对距离为120米,如果参考目标距离为80米,则模型应预测200米的目标距离(= 80米+120米)。如图(b)所示,当所提供的参考距离受到干扰(例如加20米)时,模型应预测220米(= 100米+120米)作为目标距离,以保持120米的正确相对距离。这有助于模型不过度适应指定目标提供的外观线索,对摄像头参数或视野的细微变化更稳健。

类似的增强技术已成功用于阻止其他深度学习任务中的短路学习。在训练期间,从高斯分布X中采样距离标签扰动∼ N(μ,σ2),μ=0,σ=200。对于伪远程KITTI数据集,用σ=50。

实验结果如下:

本文仅做学术分享,如有侵权,请联系删文。

1.面向自动驾驶领域的多传感器数据融合技术

2.面向自动驾驶领域的3D点云目标检测全栈学习路线!(单模态+多模态/数据+代码)3.彻底搞透视觉三维重建:原理剖析、代码讲解、及优化改进4.国内首个面向工业级实战的点云处理课程5.激光-视觉-IMU-GPS融合SLAM算法梳理和代码讲解6.彻底搞懂视觉-惯性SLAM:基于VINS-Fusion正式开课啦7.彻底搞懂基于LOAM框架的3D激光SLAM: 源码剖析到算法优化8.彻底剖析室内、室外激光SLAM关键算法原理、代码和实战(cartographer+LOAM +LIO-SAM)

9.从零搭建一套结构光3D重建系统[理论+源码+实践]

10.单目深度估计方法:算法梳理与代码实现

11.自动驾驶中的深度学习模型部署实战

12.相机模型与标定(单目+双目+鱼眼)

13.重磅!四旋翼飞行器:算法与实战

14.ROS2从入门到精通:理论与实战

15.国内首个3D缺陷检测教程:理论、源码与实战

扫码添加小助手微信,可

也可申请加入我们的细分方向交流群,目前主要有等微信群。

一定要备注:,例如:”3D视觉 + 上海交大 + 静静“。请按照格式备注,可快速被通过且邀请进群。也请联系。

▲长按加微信群或投稿

▲长按关注公众号

:针对3D视觉领域的五个方面进行深耕,更有各类大厂的算法工程人员进行技术指导。与此同时,星球将联合知名企业发布3D视觉相关算法开发岗位以及项目对接信息,打造成集技术与就业为一体的铁杆粉丝聚集区,近4000星球成员为创造更好的AI世界共同进步,知识星球入口:

学习3D视觉核心技术,扫描查看介绍,3天内无条件退款

 圈里有高质量教程资料、答疑解惑、助你高效解决问题

标签: 影像传感器感应光02n感应距离传感器

锐单商城拥有海量元器件数据手册IC替代型号,打造 电子元器件IC百科大全!

锐单商城 - 一站式电子元器件采购平台