LaRa：用于多摄像头BEV语义分割的潜表征和光线嵌入-锐单电子商城

点击上方“3D视觉车间，选择星标

第一时间送达干货

作者丨黄浴

来源丨计算机视觉深度学习和自动驾驶

arXiv2022年6月27日上传的论文LaRa: Latents and Rays for Multi-Camera Bird’s-Eye-View Semantic Segmentation作者来自法国Valeo.ai 和Inria。

最近广泛应用于自动驾驶工作BEV语义图是世界的中间表征。这些BEV地图的在线预测涉及到不同的一般操作，如多摄像头数据提取、集成和投影到共同顶视网格。这通常需要几何操作(如单应性或单目深度估计的逆投影)或BEV昂贵的直接密集映射(例如，MLP或注意机制)实现。

提出这项工作LaRa基于高效的编码器解码器transformer该模型从多个摄像头划分车辆语义。该方法采用交叉注意系统，将多个传感器的信息聚合成紧凑但丰富的潜表集。这些潜表集经过一系列自注意块处理BEV通过第二次交叉注意机制重投影空间。

为了安全规划和驾驶，自动驾驶汽车需要通过多个不同的传感器（如摄像头、雷达和激光雷达）准确地感知和了解周围环境。来自每个传感器的独立预测，大多数方法慢慢聚合。这种后融合策略在场景级全局推理上有局限性，没有连接传感器的可用先验几何知识。或者，BEV代表空间，即顶视图占用网格，最近在社区引起了极大的兴趣。

BEV它是一个合适的自然空间，可以整合多个视图或传感器模态，捕捉语义、几何和动态信息。此外，它是下游驾驶任务的广泛选择，包括运动预测和规划。本文重点研究多摄像机BEV的感知。BEV在线估计通常通过以下方式完成：（i）施加强大的几何先验，如平面世界或像素列和BEV射线之间的对应关系，（ii）从2D提升到3D并投影到BEV，受组合误差影响的系统，或（iii）学习多摄像机特征和BEV网格像素之间高成本的密集映射。

假设有多个摄像头观察场景，目标是估计自行车周围车辆的二值占用网格。本文提出了一个基于transformer的架构“LaRa在扩展回BEV空间之前，将多个摄像机收集的信息有效地聚合为紧凑的潜表征。由于摄像机之间的几何关系应该指导每个摄像机视图的融合，建议用覆盖每个像素光线的几何来增强每个像素。

LaRa如图所示：通过共享CNN从图像中提取语义特征（绿色），并与光嵌入（多色）连接。后者提供几何信息，并在相机中与相机之间建立空间关联。然后，通过交叉注意（CA）和 L个自注意（SA）层(黄色)将表征融为紧凑的潜表征。通过交叉查询潜表征获得最终结果BEV图，然后用BEV CNN细化(红色)。

考虑到C摄像头，摄像头k生成的图像Ik，Rk和tk它们分别是外参旋转和平移分量。从这些输入中提取两种互补信息：原始图像的语义信息和摄像头校准参数的几何线索。

来自原始图像的语义信息

共享图像编码器EIk提取特征图Fk = E（Ik），用预训练的EfficientNet主干实例化E，产生多摄像头特征。然后，这些空间特征图被重新排列为一系列特征向量。

利用几何先验

为了用几何先验丰富相机的特性，在多个相机中嵌入常用的正弦和余弦空间是不清楚的。一个简单的解决方案是消除相机之间的歧义，除了傅立叶嵌入。但在设置中，相机之间的几何关系(由相机设备的结构定义)对于指导视图的集成至关重要。这促使摄像机的内外参数编码自车帧中每个像素的位置和方向。

更准确地说，编码相机通过为相机的每个像素构建观察光来校准参数。给定在相机图像中Ik像素坐标捕获x的射线方向rk（x）以下公式计算：

然后嵌入像素x，以充分描述捕获像素x的光线位置和方向rayk（x）计算如下：

该计算在相机和相机之间是一致的，并显示出一个有趣的特征：两个相机重叠区域具有相同的光嵌入。请注意，内部参考Ik和Fk缩放分辨率差异。最后，输入向量序列通过串联每个特征向量Fk（x）几何嵌入rayk（x）。

基于通用架构的发现，作者使用中等固定尺寸的潜水空间，而不是学习多摄像头的特性和特性BEV空间之间的二次all-to-all控制图像到对应关系BEV块的计算和内存费用。在形式上，来自所有相机的视觉表征Fk以及相应的几何嵌入rayk，注意将交叉压缩成N个可学习潜表征的集合。无论输入特征分辨率或摄像机数量如何，都能有效地整合所有摄像机处理的语义信息。该公式解耦了网络的深度多视图处理、输入和输出分辨率。因此，该架构可以使用BEV网格的完整分辨率。

从潜空间解码二值分割预测的最后一步。事实上，潜向量和BEV查询网格Q交叉参与（cross- attended）。查询网格的每个元素都是编码的特征向量BEV注意从潜表示中提取哪些信息。注意最后一个交叉BEV在空间中生成一个特征图，使用一个小的卷积编码器-解码器U-Net（BEV-CNN）进一步细化，最终预测二值BEV语义图。

具体来说，考虑两种查询的组合：BEV空间的归一化坐标和归一化径向距离。归一化坐标对BEV平面以自车为中心的归一化坐标进行编码。按以下公式计算：

归一化径向距离是图像像素相对中心的欧氏距离：

虽然网络可以使用MLPbev从Qcoords产生类似的嵌入，但发现沿线Qcoords引入这些径向嵌入改善了结果。此外，这种查询解码选择比更经典的傅立叶嵌入和学习查询嵌入更有利，如下表所示:

如图是uScenes 数据集的6个周视摄像头图像：

实验结果如下：

如图所示，车辆周围的六个摄像头视图和真实值的分割：真实值（GT）车辆在地图上显示蓝色(可见性)>40%)或紫色(可见性)<40%）。

本文仅进行学术分享。如有侵权行为，请联系删除。

3D视觉车间精品课程官网：3dcver.com

1.自动驾驶领域的多传感器数据集成技术

2.自动驾驶领域3D点云目标检测全栈学习路线！(单模态多模态/数据代码)3.彻底了解视觉三维重建：原理分析、代码解释、优化和改进4.中国第一门面向工业级实战的点云处理课程5.激光-视觉-IMU-GPS融合SLAM算法梳理和代码解释6.彻底理解视觉-惯性-惯性SLAM：基于VINS-Fusion正式开课啦7.彻底了解基础LOAM框架的3D激光SLAM: 从源代码分析到算法优化8.室内外激光彻底分析SLAM关键算法原理、代码和实战(cartographer LOAM LIO-SAM)

9.从零开始建造一套结构光3D重建系统[理论源码实践]

10.单目深度估计方法:算法梳理和代码实现

11.在自动驾驶中部署深度学习模型

12.相机模型及标定(单目) 双目鱼眼）

13.重磅！四旋翼飞机：算法与实战

14.ROS2从入门到精通:理论与实战:

15.国内首个3D缺陷检测教程：理论、源代码和实战

16.基于Open3D点云处理入门及实战教程

重磅！3DCVer-提交学术论文写作交流群已成立

扫码添加小助手微信，可申请加入3D视觉工坊-学术论文写作与投稿微信交流群旨在交流顶会、顶刊、SCI、EI等待写作和提交。

同时也可以申请加入我们的细分交流群。目前主要有3D视觉、CV&深度学习、SLAM、三维重建、点云后处理、自动驾驶，多传感器集成，CV入门，三维测量，VR/AR、3D人脸识别、医学影像、缺陷检测、行人重识别、目标跟踪、视觉产品着陆、视觉竞赛、车牌识别、硬件选择、学术交流、求职交流、ORB-LAM系列源码交流、深度估计等微信群。

一定要备注：研究方向+学校/公司+昵称，例如：”3D视觉 + 上海交大 + 静静“。请按照格式备注，可快速被通过且邀请进群。原创投稿也请联系。

▲长按加微信群或投稿

▲长按关注公众号

3D视觉从入门到精通知识星球：针对3D视觉领域的视频课程（三维重建系列、三维点云系列、结构光系列、手眼标定、相机标定、激光/视觉SLAM、自动驾驶等）、知识点汇总、入门进阶学习路线、最新paper分享、疑问解答五个方面进行深耕，更有各类大厂的算法工程人员进行技术指导。与此同时，星球将联合知名企业发布3D视觉相关算法开发岗位以及项目对接信息，打造成集技术与就业为一体的铁杆粉丝聚集区，近4000星球成员为创造更好的AI世界共同进步，知识星球入口：

学习3D视觉核心技术，扫描查看介绍，3天内无条件退款

圈里有高质量教程资料、答疑解惑、助你高效解决问题

觉得有用，麻烦给个赞和在看~

资讯详情

LaRa：用于多摄像头BEV语义分割的潜表征和光线嵌入

动力学技术KTU1121 USB Type-C 端口保护器的介绍、特性、及应用

LaRa：用于多摄像头BEV语义分割的潜表征和光线嵌入

动力学技术KTU1121 USB Type-C 端口保护器的介绍、特性、及应用

最近热搜

历史搜索 清除历史记录

历史搜索清除历史记录