本文提出了 VISTA,多视角融合策略,用于准确 3D 对象检测。为了使 VISTA 研究人员提出了限制学习注意力权重的方差,可以关注特定目标而不是一般点。解耦分类和返回任务以处理不平衡训练问题。 nuScenes 和 Waymo 数据集的基准测试证明 VISTA 该方法的有效性和泛化能力。这篇论文已经被发表了 CVPR 2022 接收。
简介
LiDAR(激光雷达)是一种重要的传感器,广泛应用于自动驾驶场景中提供物体的准确性 3D 信息。因此,基于 LiDAR 的 3D 目标检测引起了广泛关注。许多 3D 目标检测算法将无序和不规则的点云体素化,然后利用卷积神经网络处理体素数据。然而,3D 卷积计算效率低,容易消耗大量内存。为了缓解这些问题,一系列工作使用稀疏 3D 卷积网络作为 3D 骨干网络提取特征。如图 1 所示,这些工作将是 3D 特征图投影到鸟瞰图 (BEV) 或正视图 (RV) 从这些方法中使用各种方法 2D 特征图生成对象候选人 (Object Proposals)。
▲ 图1. 基于单视角检测和文章提出的文章 VISTA 多视角综合检测的对比
需要考虑不同视角的优缺点。在 BEV 在中间,对象不相互重叠,每个对象的大小与自行车的距离 (ego-vehicle) 距离无关。RV 是 LiDAR 点云的它能产生紧凑密集的特征。然而,无论是选择 BEV 还是 RV,投影将不可避免地受到损害 3D 空间信息在空间中传递的完整性。例如,由于 LiDAR 数据生成过程本身的特点和自遮挡效应,BEV 表征很稀疏,压缩了 3D 在 RV 由于深度信息的丢失,屏蔽和对象大小的变化将更加严重。
显然,多视角的联合学习,即多视角的融合,为我们提供了准确的服务 3D 目标测试的解决方案。以往的多视角融合算法从单个角度生成候选目标,并利用多视角特征细化候选目标。这种算法的性能高度依赖于生成的候选人的质量;然而,从单个角度生成的候选人不使用所有可用信息,这可能导致次优解。其他工作根据坐标投影关系的不同视角融合多视角特征。该集成方法的准确性取决于另一视角相应区域提供的补充信息;然而,屏蔽效应是不可避免的,这将导致低质量的多视角特征集成。
为了提高 3D 本文给出了目标检测的性能 BEV 和 RV 学习到的 3D 通过双跨视角空间注意力机制,提出了特征图 (VISTA) 用于预测候选人目标的高质量融合多视角特征,如图所示 1 所示。所提出的 VISTA 利用源自 Transformer 其中,注意机制 Transformer 已成功应用于各种研究环境(如自然语言处理)D 在计算机视觉中。与通过坐标投影直接融合相比,VISTA 内置注意机制利用全局信息,自适应地建模视角之间的所有成对相关性,将单个视角的特征视为特征元素序列。
为了全面建模跨视角的相关性,我们必须从两个视角考虑局部信息,因此我们用卷积算子替换传统注意力模块 MLP,我们在实验部分展示了这样做的有效性。尽管如此,如实验部分所示,学习视角之间的相关性仍然具有挑战性。多视角融合直接采用注意力机制带来的好处很小。我们认为这主要是因为 3D 由于目标检测任务本身的特点。
一般来说,3D 目标检测任务可分为分类和回归两个子任务。就像以前的工作一样 (LaserNet, CVCNet) 三D 检测整个目标检测器 3D 场景中的物体时面临许多挑战,例如遮挡、背景噪声和点云缺乏纹理信息。因此,注意力机制难以学习相关性,导致注意力机制倾向于取得整个场景的平均值,这是出乎意料的,因为注意力模块是为感兴趣的区域设计的。
此外,一方面,由于纹理信息的丢失,神经网络很难从点云中提取语义特征。另一方面,神经网络可以很容易地从点云中学习物体的几何特性。因此,在训练过程中,存在以回归为主的困难。我们正在提出这些挑战 VISTA 解耦这两个任务,学习根据不同的任务整合不同的线索。
我们提出的 VISTA 可用于近期先进目标分配的即插即用模块 (Target Assignment) 策略中。我们在 nuScenes 和 Waymo 基于两个基准数据集的测试 VISTA 多视角融合算法。验证集中的消融实验证实了我们的猜想。提出的 VISTA 因此,我们提出的方法比所有已公布开源的算法都要好。
1. 我们提出了一个新颖的即插即用融合模块:双跨视角空间注意力机制 (VISTA),为了产生良好的多视角融合特征,提高 3D 目标检测器的性能。我们提出的 VISTA 用卷积算子代替 MLP,这可以更好地处理注意力建模的局部线索。
2. 我们将 VISTA 回归和分类任务解耦,利用单独的注意力建模来平衡这两个任务的学习。我们将注意力方差约束应用于训练阶段 VISTA,这有助于学习注意力,让网络关注感兴趣的区域。
3. 我们在 nuScenes 和 Waymo 两个基准数据集进行了彻底的实验。我们提出的基础 VISTA 多视角融合可用于各种先进的目标分配策略,轻松提高原始算法,实现基准数据集中最先进的性能。具体来说,我们提出的方法在整体性能上比第二好 4.5%,在骑自行车的人等安全关键对象类别上高出 24%。
论文标题:
VISTA: Boosting 3D Object Detection via Dual Cross-VIew SpaTial Attention
收录会议:
CVPR 2022
论文链接:
https://arxiv.org/abs/2203.09704
代码链接:
https://github.com/Gorilla-Lab-SCUT/VISTA
双跨视角空间注意力机制
对于大多数基于体素的人来说, 3D 目标检测器密集地产生 pillar 在经验方面,生成信息丰富的特征图可以保证检测质量。在多视角 3D 在目标测试的情况下,目标候选人来自整合特征图,因此在整合过程中需要综合考虑整体空间。为此,我们寻求利用注意模块捕捉全局依赖关系的能力进行多视角融合,即跨视角空间注意力。
跨视角空间注意力模块需要聚合局部线索,在考虑全局上下文之前,从不同的角度构建相关性。因此,我们提出 VISTA,基于多层感知器 (MLP) 卷积层取代了标准注意力模块。然而,复杂 3D 场景中学习注意力是很困难的。我们进一步解耦了跨视角注意力的多视角融合 VISTA 应用提出的注意力约束来促进注意力机制的学习过程。
在本节中,我们将首先详细介绍所提出的双跨视角空间注意力机制(VISTA)的整体架构,然后详细阐述所提出的 VISTA 的解耦设计和注意力约束。
2.1 整体架构
▲ 图2. VISTA 整体架构
如图 2 所示,VISTA 将来自两个不同视角的特征序列作为输入,并对多视角特征之间的跨视角相关性进行建模。与使用线性投影转换输入特征序列的普通注意力模块不同,VISTA 通过 3x3 卷积操作子将输入特征序列 投影到 queries 和 keys (values )中。为了将分类和回归解耦开,Q 和 K 通过单独的 MLP 投影到 sem, geo 。为了计算 V 的加权和作为跨视角输出 F,我们应用缩放的点积来获得跨视角注意力权重 :
并且输出将是 。输出 将被馈送到单个前馈网络以 获得最终结果。我们采用先前工作中广泛使用的架构作为我们的 FFN,以确保非线性和多样性。我们提出的 VISTA 是一种单阶段方法,可根据跨视角融合的特征直接生成候选目标;这样的设计可以利用更多信息进行准确高效的 3D 目标检测。
2.2 解耦分类和回归任务
VISTA 将分类和回归任务解耦。在共享卷积算子之后,queries 和 keys 通过单独的线性投影进一步处理产生 和 ,然后它们将根据语义信息或几何信息参与不同的注意力建模。这种解耦的动机是分类和回归的监督信号对训练造成的不同影响。
此外,无论是单视角还是多视角,分类和回归结果都是从传统的基于体素的 3D 目标检测器中的相同特征图预测的。然而,由于 3D 场景的固有属性,3D 点云中不可避免地存在遮挡和纹理信息丢失,3D 检测器难以提取语义特征,给分类学习带来很大挑战。相反,3D 点云传达的丰富几何信息减轻了网络理解物体几何属性的负担,这是学习回归任务的基础。结果,在网络训练过程中,出现了分类和回归之间学习的不平衡现象,其中分类的学习被回归主导。
这种不平衡的学习是基于 3D 点云的,包含分类和回归任务的 3D 目标检测中的常见问题,这将对检测性能产生负面影响。具体来说,3D 检测器在具有相似几何特征的不同对象类别(例如卡车和公共汽车)上不会很鲁棒。
当学习从全局上下文中对跨视角相关性进行建模时,所提出的 VISTA 面临着许多挑战。3D 场景包含大量背景点(大约高达 95%),只有一小部分是有助于检测结果的兴趣点。在跨视角注意力的训练过程中,海量的背景点会给注意力模块带来意想不到的噪音。此外,复杂 3D 场景中的遮挡效应给注意力学习带来了不可避免的失真。因此,注意力模块倾向于关注不相关的区域。
注意力学习不佳的极端情况是全局平均池化(GAP)操作,正如我们在实验部分中所展示的,没有任何明确的监督,直接采用注意力模块进行多视角融合会产生类似于 GAP 的性能,这表明注意力模块不能很好地对跨视角相关性建模。
我们提出的 VISTA 的另一个关键设计是分类和回归任务的解耦。这两个任务的各自的注意力建模缓解了学习的不平衡问题,因此检测结果更加准确和可靠。为了展示我们设计的意义,我们在图中展示了解耦前后的检测结果。每行代表一个场景,左列显示解耦后的结果,另一列显示未解耦的结果。
如图 4(b)和 (d) 所示,没有解耦设计的 3D 目标检测器很容易将物体 A 误认为具有相似几何特性的另一个物体 B,我们将这种现象称为 A-to-B,例如公共汽车(紫色)到卡车(黄色)、公共汽车(紫色)到拖车(红色)和自行车(白色)到摩托车(橙色),证明了分类和回归任务之间存在不平衡训练。此外,当将右列与左列进行比较时,混淆的预测并不准确。相反,具有解耦设计的 VISTA 成功区分了对象的类别,并预测了紧密的框,如图 4(a)和 (c) 所示,证明了所提出的解耦设计的功效。
总结
在本文中,我们提出了 VISTA,一种新颖的即插即用多视角融合策略,用于准确的 3D 对象检测。为了使 VISTA 能够关注特定目标而不是一般点,我们提出限制学习的注意力权重的方差。我们将分类和回归任务解耦以处理不平衡训练问题。我们提出的即插即用 VISTA 能够产生高质量的融合特征来预测目标候选,并且可以应用于各种目标分配策略方法。nuScenes 和 Waymo 数据集的基准测试证明了我们提出的方法的有效性和泛化能力。