自动驾驶中雷达感知：时域关系的充分利用-锐单电子商城

点击上方“3D视觉车间，选择星标

干货第一时间送达

作者丨黄浴@知乎

来源丨https://zhuanlan.zhihu.com/p/506299494

编辑丨3D视觉工坊

arXiv2022年4月上传的论文Exploiting Temporal Relations on Radar Perception for Autonomous Driving“，基本是Brandeis大学生在MERL实习生工作。

本文考虑了雷达传感器在自动驾驶中的目标识别。与激光雷达传感器相比，雷达在全天候条件下对自动驾驶的感知具有成本效益和鲁棒性。然而，当雷达信号识别周围目标时，角分辨率和精度较低。为了提高车载雷达的能力，这项工作以连续自行车为中心BEV雷达目标识别充分利用雷达图像帧中的时间信息。作者利用目标存在性(大小、方向等)的一致性，提出时域关系层（temporal relational layer）明确建模连续雷达图像中目标之间的关系。与其他几种基准方法相比，该方法在目标检测和多目标跟踪方面具有优势。

主要使用车载雷达FMCW检测目标，并在多个物理域生成点云。其原理如图所示：

雷达通过M发射天线之一发射一组FMCW脉冲信号即

径向速度vt距离远场空间角(即方位角、仰角或同时存在)RN个接收器射频链中的一个目标(包括低噪声放大器)LNA、本地振荡器LO和模数转换器ADC）每一个，收到的FMCW振幅衰减和相位调制是信号。

基带信号处理模块(包括快速傅里叶转换的距离、多普勒和空域)FFT）捕获目标调制信号，生成多维谱。将频谱与自适应阈值进行比较，即恒定虚警率（CFAR）雷达点云可以在距离、多普勒、方向和仰角形成。

如图所示，有序雷达目标识别框架：从左到右取两个连续雷达帧，从每帧提取时域特征；然后选择潜在目标的特征，并学习时域一致性。最后，对更新后的训练特征进行了一些回归分析。

通过主干神经网络输入两帧获得特征表示

在神经网络的不同尺度特征之间建立跳跃连接，以便在特征表示中结合高级语义和低级细化细节。具体来说，对于跳跃连接，在深层采样池特征，其尺寸与以前的浅层特征通过双线插值对齐。一系列操作包括卷积、非线性激活和批量标准化（BN），然后应用于采样特征。其次，沿通道维度将采样特征与浅层特征连接起来。将三个跳跃连接插入网络，在四个不同层次上推动特征接受语义。

如图是在主干网插入的几个跳连接，收集不同尺度特征进行预测。所选择用于时域关系建模的特征附上位置编码，揭示目标的位置。

设计时域关系层模拟连续帧中潜在目标之间的相关性和一致性。时域关系层从两帧接收多个特征向量，每个向量表示雷达图像中的潜在目标。

应用滤波模块，选择前K的潜在目标特征Zc潜在目标坐标为：

类似地，可以得到Zp潜在的目标坐标Pp。所选特征组成的矩阵是

输入时域关系层即记录

在Hc p在传输到时域关系层之前，在特征向量中补充位置编码。由于CNN卷积神经网络具有平移不变性，在输出特征表示中不包含绝对位置信息。然而，位置在目标时域关系中非常重要，因为在两个连续帧中处于特定空域距离的目标更有可能相关并共享类似目标的属性。同一目标之间的空域距离取决于帧率和车辆运动，可以通过数据驱动学习。

时域关系层的输出特征为：采用Transformer结构

掩码矩阵定义为：

自注机制背后的逻辑是，由于一个目标可以移出范围，因此在连续帧中不能始终保证同一目标同时出现。因此，当一个目标只在一帧中丢失时，自注是可取的。值得注意的是，位置代码只附加到位置代码中key和query，而不是value，因此，输出特性不涉及位置。遵循其他技术细节Transformer这里省略了详细的设计描述。

关系建模由多个设计相同的时域关系层组成。最后，更新后的特征Hc和Hp从Hc p中分离，并在Pc和Pp在相应的空间坐标中重新填充特征向量Zc和Zp。

在模型训练中，从热图中选择目标的中心坐标，并从特征表示中学习其属性（即宽度、长度、方向和中心坐标偏移）。

将2D径向基函数（RBF）在每个真值目标的中心，生成真值热图RBF核的参数σ与目标的宽度和长度成比例。考虑到雷达图像中目标的稀疏性，使用它focal loss平衡真值中心和背景的回归，并驱动预测的热图与真值热图相似，即

注：在模型推理中，在热图上设置阈值，以区分目标中心和背景。应用程序NMS，避免出现过多的边框。

目标宽度和长度的回归损失为：

其中L1平滑损失为

目标姿态的回归损失为

主网中下采样会导致目标中心坐标偏差。这里记得

回归损失为

总损失为

每一个训练步骤都会计算损失L，并同时对当前帧和前一帧进行反向运算。接收过去的信息以识别当前帧中的目标。另一方面，从前一帧的角度来看，目标将利用未来最新帧的时间信息。因此，优化可以被视为两个连续帧的双向后向前训练。目前，目前的框架还没有扩展到多个帧，因为中间帧没有时域特征提取所需的输入图像（既不是从过去到未来，也不是从未来到过去），并将降低训练效率。

注：感谢微信公众号「3D视觉工坊」整理。

对于多目标跟踪，在中心特征向量中添加一个回归头，预测当前帧与前一帧具有相同的跟踪ID目标中心之间的2-D运动偏移。简单地说，跟踪解码中的关联是用欧氏距离来实现的。

如下是MOT解码算法伪代码：

数据集Radiate，包括在恶劣天气(包括太阳、夜晚、雨、雾、雪)下录制的视频序列。从高速公路到市区，驾驶场景各不相同。数据格式是从点云生成的雷达图像，其中像素值表示雷达信号反射的强度。Radiate机械扫描Navtech CTS350-X雷达提供360度4赫兹高分辨率距离-方向（range-azimuth）图像。目前，雷达无法提供多普勒或速度信息。整个数据集有61个序列，分为三部分:好天气训练(31个序列，22383帧，只有好天气，晴天或阴天)，好天气和坏天气(12个序列，9749帧，好天气和坏天气)(18个序列，11305帧，各种天气条件)。训练模型分别在前两个训练集上进行评估。

实验结果如下：

本文仅进行学术分享。如有侵权行为，请联系删除。

3D视觉车间精品课程官网：3dcver.com

1.自动驾驶领域的多传感器数据集成技术

2.自动驾驶领域3D点云目标检测全栈学习路线！(单模态多模态/数据代码)3.彻底了解视觉三维重建：原理分析、代码解释、优化和改进4.中国第一门面向工业级实战的点云处理课程5.激光-视觉-IMU-GPS融合SLAM算法梳理和代码解释6.彻底理解视觉-惯性-惯性SLAM：基于VINS-Fusion正式开课啦7.彻底了解基础LOAM框架的3D激光SLAM: 从源代码分析到算法优化8.室内外激光彻底分析SLAM关键算法原理、代码和实战(cartographer LOAM LIO-SAM)

9.从零开始建造一套结构光3D重建系统[理论源码实践]

10.单目深度估计方法:算法梳理和代码实现

11.在自动驾驶中部署深度学习模型

12.相机模型及标定(单目) 双目鱼眼）

13.重磅！四旋翼飞机：算法与实战

14.ROS2从入门到精通:理论与实战:

15.国内首个3D缺陷检测教程：理论、源代码和实战

重磅！3DCVer-提交学术论文写作交流群已成立

扫码添加小助手微信，可申请加入3D视觉研讨会-学术论文写作和提交微信交流群旨在交流顶会、顶刊、SCI、EI等待写作和提交。

同时也可以申请加入我们的细分交流群。目前主要有3D觉、CV&深度学习、SLAM、三维重建、点云后处理、自动驾驶、多传感器融合、CV入门、三维测量、VR/AR、3D人脸识别、医疗影像、缺陷检测、行人重识别、目标跟踪、视觉产品落地、视觉竞赛、车牌识别、硬件选型、学术交流、求职交流、ORB-SLAM系列源码交流、深度估计等微信群。

一定要备注：研究方向+学校/公司+昵称，例如：”3D视觉 + 上海交大 + 静静“。请按照格式备注，可快速被通过且邀请进群。原创投稿也请联系。

▲长按加微信群或投稿

▲长按关注公众号

3D视觉从入门到精通知识星球：针对3D视觉领域的视频课程（三维重建系列、三维点云系列、结构光系列、手眼标定、相机标定、激光/视觉SLAM、自动驾驶等）、知识点汇总、入门进阶学习路线、最新paper分享、疑问解答五个方面进行深耕，更有各类大厂的算法工程人员进行技术指导。与此同时，星球将联合知名企业发布3D视觉相关算法开发岗位以及项目对接信息，打造成集技术与就业为一体的铁杆粉丝聚集区，近4000星球成员为创造更好的AI世界共同进步，知识星球入口：

学习3D视觉核心技术，扫描查看介绍，3天内无条件退款

圈里有高质量教程资料、答疑解惑、助你高效解决问题

觉得有用，麻烦给个赞和在看~

资讯详情

自动驾驶中雷达感知：时域关系的充分利用

亚马逊云科技宣布基于自研Amazon Graviton4的Amazon EC2 R8g实例正式可用

自动驾驶中雷达感知：时域关系的充分利用

亚马逊云科技宣布基于自研Amazon Graviton4的Amazon EC2 R8g实例正式可用

最近热搜

历史搜索 清除历史记录

历史搜索清除历史记录