资讯详情

LaRa:用于多摄像头BEV语义分割的潜表征和光线嵌入

点击上方“3D视觉车间,选择星标

第一时间送达干货

a873a9e3b2d976a98b8c385961848a9c.jpeg

作者丨黄浴

来源丨计算机视觉深度学习和自动驾驶

arXiv2022年6月27日上传的论文LaRa: Latents and Rays for Multi-Camera Bird’s-Eye-View Semantic Segmentation作者来自法国Valeo.ai 和Inria。

最近广泛应用于自动驾驶工作BEV语义图是世界的中间表征。这些BEV地图的在线预测涉及到不同的一般操作,如多摄像头数据提取、集成和投影到共同顶视网格。这通常需要几何操作(如单应性或单目深度估计的逆投影)或BEV昂贵的直接密集映射(例如,MLP或注意机制)实现。

提出这项工作LaRa基于高效的编码器解码器transformer该模型从多个摄像头划分车辆语义。该方法采用交叉注意系统,将多个传感器的信息聚合成紧凑但丰富的潜表集。这些潜表集经过一系列自注意块处理BEV通过第二次交叉注意机制重投影空间。


为了安全规划和驾驶,自动驾驶汽车需要通过多个不同的传感器(如摄像头、雷达和激光雷达)准确地感知和了解周围环境。来自每个传感器的独立预测,大多数方法慢慢聚合。这种后融合策略在场景级全局推理上有局限性,没有连接传感器的可用先验几何知识。或者,BEV代表空间,即顶视图占用网格,最近在社区引起了极大的兴趣。

BEV它是一个合适的自然空间,可以整合多个视图或传感器模态,捕捉语义、几何和动态信息。此外,它是下游驾驶任务的广泛选择,包括运动预测和规划。本文重点研究多摄像机BEV的感知。BEV在线估计通常通过以下方式完成:(i)施加强大的几何先验,如平面世界或像素列和BEV射线之间的对应关系,(ii)从2D提升到3D并投影到BEV,受组合误差影响的系统,或(iii)学习多摄像机特征和BEV网格像素之间高成本的密集映射。

假设有多个摄像头观察场景,目标是估计自行车周围车辆的二值占用网格。本文提出了一个基于transformer的架构“LaRa在扩展回BEV空间之前,将多个摄像机收集的信息有效地聚合为紧凑的潜表征。由于摄像机之间的几何关系应该指导每个摄像机视图的融合,建议用覆盖每个像素光线的几何来增强每个像素。

LaRa如图所示:通过共享CNN从图像中提取语义特征(绿色),并与光嵌入(多色)连接。后者提供几何信息,并在相机中与相机之间建立空间关联。然后,通过交叉注意(CA)和 L个自注意(SA)层(黄色)将表征融为紧凑的潜表征。通过交叉查询潜表征获得最终结果BEV图,然后用BEV CNN细化(红色)。

考虑到C摄像头,摄像头k生成的图像Ik,Rk和tk它们分别是外参旋转和平移分量。从这些输入中提取两种互补信息:原始图像的语义信息和摄像头校准参数的几何线索。

  • 来自原始图像的语义信息

共享图像编码器EIk提取特征图Fk = E(Ik),用预训练的EfficientNet主干实例化E,产生多摄像头特征。然后,这些空间特征图被重新排列为一系列特征向量。

  • 利用几何先验

为了用几何先验丰富相机的特性,在多个相机中嵌入常用的正弦和余弦空间是不清楚的。一个简单的解决方案是消除相机之间的歧义,除了傅立叶嵌入。但在设置中,相机之间的几何关系(由相机设备的结构定义)对于指导视图的集成至关重要。这促使摄像机的内外参数编码自车帧中每个像素的位置和方向。

更准确地说,编码相机通过为相机的每个像素构建观察光来校准参数。给定在相机图像中Ik像素坐标捕获x的射线方向rk(x)以下公式计算:

然后嵌入像素x,以充分描述捕获像素x的光线位置和方向rayk(x)计算如下:

该计算在相机和相机之间是一致的,并显示出一个有趣的特征:两个相机重叠区域具有相同的光嵌入。请注意,内部参考Ik和Fk缩放分辨率差异。最后,输入向量序列通过串联每个特征向量Fk(x)几何嵌入rayk(x)。


基于通用架构的发现,作者使用中等固定尺寸的潜水空间,而不是学习多摄像头的特性和特性BEV空间之间的二次all-to-all控制图像到对应关系BEV块的计算和内存费用。在形式上,来自所有相机的视觉表征Fk以及相应的几何嵌入rayk,注意将交叉压缩成N个可学习潜表征的集合。无论输入特征分辨率或摄像机数量如何,都能有效地整合所有摄像机处理的语义信息。该公式解耦了网络的深度多视图处理、输入和输出分辨率。因此,该架构可以使用BEV网格的完整分辨率。

从潜空间解码二值分割预测的最后一步。事实上,潜向量和BEV查询网格Q交叉参与(cross- attended)。查询网格的每个元素都是编码的特征向量BEV注意从潜表示中提取哪些信息。注意最后一个交叉BEV在空间中生成一个特征图,使用一个小的卷积编码器-解码器U-Net(BEV-CNN)进一步细化,最终预测二值BEV语义图。

具体来说,考虑两种查询的组合:BEV空间的归一化坐标和归一化径向距离。归一化坐标对BEV平面以自车为中心的归一化坐标进行编码。按以下公式计算:

归一化径向距离是图像像素相对中心的欧氏距离:

虽然网络可以使用MLPbev从Qcoords产生类似的嵌入,但发现沿线Qcoords引入这些径向嵌入改善了结果。此外,这种查询解码选择比更经典的傅立叶嵌入和学习查询嵌入更有利,如下表所示:

如图是uScenes 数据集的6个周视摄像头图像:

实验结果如下:

如图所示,车辆周围的六个摄像头视图和真实值的分割:真实值(GT)车辆在地图上显示蓝色(可见性)>40%)或紫色(可见性)<40%)。

本文仅进行学术分享。如有侵权行为,请联系删除。

1.自动驾驶领域的多传感器数据集成技术

2.自动驾驶领域3D点云目标检测全栈学习路线!(单模态 多模态/数据 代码)3.彻底了解视觉三维重建:原理分析、代码解释、优化和改进4.中国第一门面向工业级实战的点云处理课程5.激光-视觉-IMU-GPS融合SLAM算法梳理和代码解释6.彻底理解视觉-惯性-惯性SLAM:基于VINS-Fusion正式开课啦7.彻底了解基础LOAM框架的3D激光SLAM: 从源代码分析到算法优化8.室内外激光彻底分析SLAM关键算法原理、代码和实战(cartographer LOAM LIO-SAM)

9.从零开始建造一套结构光3D重建系统[理论 源码 实践]

10.单目深度估计方法:算法梳理和代码实现

11.在自动驾驶中部署深度学习模型

12.相机模型及标定(单目) 双目 鱼眼)

13.重磅!四旋翼飞机:算法与实战

14.ROS2从入门到精通:理论与实战:

15.国内首个3D缺陷检测教程:理论、源代码和实战

16.基于Open3D点云处理入门及实战教程

扫码添加小助手微信,可

也可以申请加入我们的细分交流群。目前主要有等微信群。

一定要备注:,例如:”3D视觉 + 上海交大 + 静静“。请按照格式备注,可快速被通过且邀请进群。也请联系。

▲长按加微信群或投稿

▲长按关注公众号

:针对3D视觉领域的五个方面进行深耕,更有各类大厂的算法工程人员进行技术指导。与此同时,星球将联合知名企业发布3D视觉相关算法开发岗位以及项目对接信息,打造成集技术与就业为一体的铁杆粉丝聚集区,近4000星球成员为创造更好的AI世界共同进步,知识星球入口:

学习3D视觉核心技术,扫描查看介绍,3天内无条件退款

 圈里有高质量教程资料、答疑解惑、助你高效解决问题

标签: tk7480传感器

锐单商城拥有海量元器件数据手册IC替代型号,打造 电子元器件IC百科大全!

锐单商城 - 一站式电子元器件采购平台