点击上方“3D视觉车间,选择星标
第一时间送达干货
来源丨黄浴
作者,计算机视觉深度学习和自动驾驶
arXiv论文“FUTR3D: A Unified Sensor Fusion Framework for 3D Detection,来自复旦,CMU、MIT、Stanford(李想汽车工作)和清华。
自动驾驶和机器人技术是许多感知系统中的一个重要课题。现有的多模态3D根据传感器组合或设置,检测模型通常涉及定制设计。这项工作是统一的,用于3D端到端传感器集成框架FUTR3D,可用于任何传感器配置(几乎)。FUTR3D基于查询的不可知模态特征采样器(Modality-Agnostic Feature Sampler,MAFS),还有一个用于3D检测集合-集合损失函数transformer解码器,以避免后集成的启发性方法和后处理。该框架的有效性已经在相机、低分辨率激光雷达、高分辨率激光雷达和雷达的各种组合中得到验证。FUTR3D通过不同的传感器配置,实现了极大的灵活性和低成本的自动驾驶。
如图所示:FUTR3D可用于任何传感器配置,包括2D摄像机、3D激光雷达、3D雷达和4D成像雷达。
如图是FUTR3D概述:每个传感器模态使用模态特定特征编码器在自己的坐标中单独编码。然后,基于查询MAFS根据每个查询3D参考点从所有可用模式中提取特征。transformer解码器根据查询预测3D边框。可迭代反馈预测框MAFS和transformer优化解码器中的预测。
使用激光雷达点云VoxelNet(0.1m体素大小)或0.2m柱大小的PointPillar编码激光雷达点云。D主干和FPN之后 获得多尺度BEV特征图。
采用N雷达点向量,即位置、速度和强度。MLP雷达特征的编码。
用ResNet和FPN提取多个图像的特征,为每个图像输出多尺度特征图。
融合的insight是这样的:在不同的模式下,目标属性是不同的。因此,寻求使用不同的模式并提取补充信息。从所有模式中采集特征后,整合特征并更新查询。
首先,连接所有模式的采样特征,并使用以下公式给出MLP网络编码:
其中
这里,MAFS通过线性变换和sigmoid从每个目标查询中解码3D参考点如下
查询更新:
采用自注机制建模查询中的交互,如下:
采用迭代细化边框的方法:
在损失函数中,计算预测和真实值之间的一对一损失涉及两个步骤:第一,使用bipartie-matching在预测和真实边框之间进行一对一匹配。然后,在一对一匹配的情况下,计算回归损失和分类损失。特别是,一对一的匹配问题可以通过Hungarian解决算法。
实验结果如下:
nuScenes数据中有环视摄像头6个,激光雷达采用32线,做仿真模拟可生成4线数据,从笛卡尔坐标转换到极坐标进行,然后在pitch坐标转换公式如下:
此外,5个雷达数据聚集在一起,成为200-300点云。
左:1-线 LiDAR cameras,中:4-线 LiDAR cameras,右:32-线 LiDAR cameras
本文仅进行学术分享。如有侵权行为,请联系删除。
1.面向自动驾驶领域的多传感器数据融合技术
2.面向自动驾驶领域的3D点云目标检测全栈学习路线!(单模态+多模态/数据+代码)3.彻底搞透视觉三维重建:原理剖析、代码讲解、及优化改进4.国内首个面向工业级实战的点云处理课程5.激光-视觉-IMU-GPS融合SLAM算法梳理和代码讲解6.彻底搞懂视觉-惯性SLAM:基于VINS-Fusion正式开课啦7.彻底搞懂基于LOAM框架的3D激光SLAM: 源码剖析到算法优化8.彻底剖析室内、室外激光SLAM关键算法原理、代码和实战(cartographer+LOAM +LIO-SAM)
9.从零搭建一套结构光3D重建系统[理论+源码+实践]
10.单目深度估计方法:算法梳理与代码实现
11.自动驾驶中的深度学习模型部署实战
12.相机模型与标定(单目+双目+鱼眼)
13.重磅!四旋翼飞行器:算法与实战
14.ROS2从入门到精通:理论与实战
扫码添加小助手微信,可
一定要备注:
▲长按加微信群或投稿
▲长按关注公众号
学习3D视觉核心技术,扫描查看介绍,3天内无条件退款
圈里有高质量教程资料、可答疑解惑、助你高效解决问题