点击上方“3D视觉车间,选择星标
第一时间送达干货
作者丨黄浴
来源丨计算机视觉深度学习和自动驾驶
arXiv2022年6月27日上传的论文LaRa: Latents and Rays for Multi-Camera Bird’s-Eye-View Semantic Segmentation作者来自法国Valeo.ai 和Inria。
最近广泛应用于自动驾驶工作BEV语义图是世界的中间表征。这些BEV地图的在线预测涉及到不同的一般操作,如多摄像头数据提取、集成和投影到共同顶视网格。这通常需要几何操作(如单应性或单目深度估计的逆投影)或BEV昂贵的直接密集映射(例如,MLP或注意机制)实现。
提出这项工作LaRa基于高效的编码器解码器transformer该模型从多个摄像头划分车辆语义。该方法采用交叉注意系统,将多个传感器的信息聚合成紧凑但丰富的潜表集。这些潜表集经过一系列自注意块处理BEV通过第二次交叉注意机制重投影空间。
为了安全规划和驾驶,自动驾驶汽车需要通过多个不同的传感器(如摄像头、雷达和激光雷达)准确地感知和了解周围环境。来自每个传感器的独立预测,大多数方法慢慢聚合。这种后融合策略在场景级全局推理上有局限性,没有连接传感器的可用先验几何知识。或者,BEV代表空间,即顶视图占用网格,最近在社区引起了极大的兴趣。
BEV它是一个合适的自然空间,可以整合多个视图或传感器模态,捕捉语义、几何和动态信息。此外,它是下游驾驶任务的广泛选择,包括运动预测和规划。本文重点研究多摄像机BEV的感知。BEV在线估计通常通过以下方式完成:(i)施加强大的几何先验,如平面世界或像素列和BEV射线之间的对应关系,(ii)从2D提升到3D并投影到BEV,受组合误差影响的系统,或(iii)学习多摄像机特征和BEV网格像素之间高成本的密集映射。
假设有多个摄像头观察场景,目标是估计自行车周围车辆的二值占用网格。本文提出了一个基于transformer的架构“LaRa在扩展回BEV空间之前,将多个摄像机收集的信息有效地聚合为紧凑的潜表征。由于摄像机之间的几何关系应该指导每个摄像机视图的融合,建议用覆盖每个像素光线的几何来增强每个像素。
LaRa如图所示:通过共享CNN从图像中提取语义特征(绿色),并与光嵌入(多色)连接。后者提供几何信息,并在相机中与相机之间建立空间关联。然后,通过交叉注意(CA)和 L个自注意(SA)层(黄色)将表征融为紧凑的潜表征。通过交叉查询潜表征获得最终结果BEV图,然后用BEV CNN细化(红色)。
考虑到C摄像头,摄像头k生成的图像Ik,Rk和tk它们分别是外参旋转和平移分量。从这些输入中提取两种互补信息:原始图像的语义信息和摄像头校准参数的几何线索。
来自原始图像的语义信息
共享图像编码器EIk提取特征图Fk = E(Ik),用预训练的EfficientNet主干实例化E,产生多摄像头特征。然后,这些空间特征图被重新排列为一系列特征向量。
利用几何先验
为了用几何先验丰富相机的特性,在多个相机中嵌入常用的正弦和余弦空间是不清楚的。一个简单的解决方案是消除相机之间的歧义,除了傅立叶嵌入。但在设置中,相机之间的几何关系(由相机设备的结构定义)对于指导视图的集成至关重要。这促使摄像机的内外参数编码自车帧中每个像素的位置和方向。
更准确地说,编码相机通过为相机的每个像素构建观察光来校准参数。给定在相机图像中Ik像素坐标捕获x的射线方向rk(x)以下公式计算:
然后嵌入像素x,以充分描述捕获像素x的光线位置和方向rayk(x)计算如下:
该计算在相机和相机之间是一致的,并显示出一个有趣的特征:两个相机重叠区域具有相同的光嵌入。请注意,内部参考Ik和Fk缩放分辨率差异。最后,输入向量序列通过串联每个特征向量Fk(x)几何嵌入rayk(x)。
基于通用架构的发现,作者使用中等固定尺寸的潜水空间,而不是学习多摄像头的特性和特性BEV空间之间的二次all-to-all控制图像到对应关系BEV块的计算和内存费用。在形式上,来自所有相机的视觉表征Fk以及相应的几何嵌入rayk,注意将交叉压缩成N个可学习潜表征的集合。无论输入特征分辨率或摄像机数量如何,都能有效地整合所有摄像机处理的语义信息。该公式解耦了网络的深度多视图处理、输入和输出分辨率。因此,该架构可以使用BEV网格的完整分辨率。
从潜空间解码二值分割预测的最后一步。事实上,潜向量和BEV查询网格Q交叉参与(cross- attended)。查询网格的每个元素都是编码的特征向量BEV注意从潜表示中提取哪些信息。注意最后一个交叉BEV在空间中生成一个特征图,使用一个小的卷积编码器-解码器U-Net(BEV-CNN)进一步细化,最终预测二值BEV语义图。
具体来说,考虑两种查询的组合:BEV空间的归一化坐标和归一化径向距离。归一化坐标对BEV平面以自车为中心的归一化坐标进行编码。按以下公式计算:
归一化径向距离是图像像素相对中心的欧氏距离:
虽然网络可以使用MLPbev从Qcoords产生类似的嵌入,但发现沿线Qcoords引入这些径向嵌入改善了结果。此外,这种查询解码选择比更经典的傅立叶嵌入和学习查询嵌入更有利,如下表所示:
如图是uScenes 数据集的6个周视摄像头图像:
实验结果如下:
如图所示,车辆周围的六个摄像头视图和真实值的分割:真实值(GT)车辆在地图上显示蓝色(可见性)>40%)或紫色(可见性)<40%)。
本文仅进行学术分享。如有侵权行为,请联系删除。
1.自动驾驶领域的多传感器数据集成技术
2.自动驾驶领域3D点云目标检测全栈学习路线!(单模态 多模态/数据 代码)3.彻底了解视觉三维重建:原理分析、代码解释、优化和改进4.中国第一门面向工业级实战的点云处理课程5.激光-视觉-IMU-GPS融合SLAM算法梳理和代码解释6.彻底理解视觉-惯性-惯性SLAM:基于VINS-Fusion正式开课啦7.彻底了解基础LOAM框架的3D激光SLAM: 从源代码分析到算法优化8.室内外激光彻底分析SLAM关键算法原理、代码和实战(cartographer LOAM LIO-SAM)
9.从零开始建造一套结构光3D重建系统[理论 源码 实践]
10.单目深度估计方法:算法梳理和代码实现
11.在自动驾驶中部署深度学习模型
12.相机模型及标定(单目) 双目 鱼眼)
13.重磅!四旋翼飞机:算法与实战
14.ROS2从入门到精通:理论与实战:
15.国内首个3D缺陷检测教程:理论、源代码和实战
16.基于Open3D点云处理入门及实战教程
扫码添加小助手微信,可
一定要备注:
▲长按加微信群或投稿
▲长按关注公众号
学习3D视觉核心技术,扫描查看介绍,3天内无条件退款
圈里有高质量教程资料、答疑解惑、助你高效解决问题