资讯详情

CVPR 2022 | 基于稀疏 Transformer 的单步三维目标识别器

点击上方“3D视觉车间,选择星标

第一时间送达干货

97c58b164c4e1de9f1300a817718ae49.png

作者丨paopaoslam

来源泡泡机器人SLAM

标题:Embracing Single Stride 3D Object Detector with Sparse Transformer

作者:Lue Fan,Ziqi Pang,Tianyuan Zhang,Yu-Xiong Wang,Hang Zhao,Feng Wang,Naiyan Wang,Zhaoxiang Zhang

来源:CVPR 2022

编译:

审核:阮建源、王志勇

自动驾驶 LiDAR 3D 对象检测与 2D 对象大小与输入场景大小的对比要小得多。许多 3D 检测器遵循 2D 检测器的常见做法也对点云量化后的特征图进行忽略了3D与2D相对尺寸的目标差异。在本文中,我们重新考虑了多步长计划 LiDAR 3D 物体检测器的影响。我们的实验指出,采样操作带来的优势很少,信息丢失是不可避免的。为此,我们提出了单步稀疏变换器(SST)从头到尾保持神经网络的分辨率不变。借助 Transformer,我们的方法解决了单步架构中野生缺陷的问题。它还与点云的稀疏性相匹配,避免了高计算。最后,我们的 SST 在大规模 Waymo 最佳结果是开放数据集。值得一提的是,由于单步长的特点,我们的方法可以在小物体(行人)检测中达到优异的性能(83.8 LEVEL 1 AP on validation split)。

代码将在https://github.com/TuSimple/SST 发布。

  1. 神经网络的步长是目前主流的3D主要问题是目标识别方法。

  2. 简单地缩短步长受到感觉野生缺陷的限制。因此,本文提出了基于 Transformer 单步长稀疏变换器 (SST):既避免了下采样带来的信息缺失,又保证了足够的感觉野。

  3. 应用SST,本文在 Waymo 开放数据集小物体检测上获得了极佳的表现

如图1所示,比传统的多步长3D检测器,SST 不对体素化特征图进行下采样和上采样;SST自注意卷积层,而是利用点云特征图稀疏应用自注意机制提取特征。

SST使用类似 PointPillars 该方法将点云转化为鸟瞰视角的伪特征图像。然后将获得的稀疏伪特征图像与 Vision Transformer 类似的方法分为不重叠的区域。自注意机制应用于同一区域。如图3所示,解决跨区域特征物体的问题,SST 局部自注后,区域分割整体平移进行第二次局部自注。这样,即使是区域边缘的特征也可以在第二次局部自我注意时注意到区域边缘另一侧的特征。

由于雷达点云数据的稀疏性,作为输入鸟瞰视角的伪特征图像也具有一定的稀疏性。自注意机制的操作复杂性与特征数量呈二次方关系,自然与自注意机制完美匹配。此外,自注意机制不需要像卷积层那样改进稀疏性。

将多个这样的 SST 模块堆叠,加一个将稀疏特征转换为密集特征图的模块,形成单步长稀疏变换器 (SST),输入是体素化的伪特征图像,输出是相同尺寸的伪特征图像。任何目标识别器都可以用来预测三维物体的类别、位置和大小。

实验结果

表2显示 SST 在 Waymo 车辆检测在公共数据集中的性能优于其他方法。

表3显示 SST 在 Waymo 行人检测在公共数据集中的性能优于其他方法。

下图显示了粉点的查询特征,其周围的其他特征具有相应的注意力重量。重量从红色到蓝色从高到低。可以看出,高注意力的重量与相应的物体高度相关。

  • 通过实验分析发现本文3D 目标识别不需要采样。

  • 提出了基于自注意机制的单步长稀疏,以解决取样带来的感觉野问题 Transformer(SST)。

  • 实验显示 SST 特别有利于检测小物体。

In LiDAR-based 3D object detection for autonomous driving, the ratio of the object size to input scene size is significantly smaller compared to 2D detection cases. Overlooking this difference, many 3D detectors directly follow the common practice of 2D detectors, which downsample the feature maps even after quantizing the point clouds. In this paper, we start by rethinking how such multi-stride stereotype affects the LiDAR-based 3D object detectors. Our experiments point out that the downsampling operations bring few advantages, and lead to inevitable information loss. To remedy this issue, we propose Single-stride Sparse Transformer (SST) to maintain the original resolution from the beginning to the end of the network. Armed with transformers, our method addresses the problem of insufficient receptive field in single-stride architectures. It also cooperates well with the sparsity of point clouds and naturally avoids expensive computation. Eventually, our SST achieves state-of-the-art results on the large scale Waymo Open Dataset. It is worth mentioning that our method can achieve exciting performance (83.8 LEVEL 1 AP on validation split) on small object (pedestrian) detection due to the characteristic of single stride. Codes will be released atthis https URL

本文仅进行学术分享。如有侵权行为,请联系删除。

后台回复:下载国外大学沉淀3年D Vison精品课件

后台回复:即可下载3D视觉领域的经典书籍pdf

后台回复:即可学习3D视觉领域的精品课程

1.面向自动驾驶领域的多传感器数据融合技术

2.面向自动驾驶领域的3D点云目标检测全栈学习路线!(单模态+多模态/数据+代码)3.彻底搞透视觉三维重建:原理剖析、代码讲解、及优化改进4.国内首个面向工业级实战的点云处理课程5.激光-视觉-IMU-GPS融合SLAM算法梳理和代码讲解6.彻底搞懂视觉-惯性SLAM:基于VINS-Fusion正式开课啦7.彻底搞懂基于LOAM框架的3D激光SLAM: 源码剖析到算法优化8.彻底剖析室内、室外激光SLAM关键算法原理、代码和实战(cartographer+LOAM +LIO-SAM)

9.从零搭建一套结构光3D重建系统[理论+源码+实践]

10.单目深度估计方法:算法梳理与代码实现

11.自动驾驶中的深度学习模型部署实战

12.相机模型与标定(单目+双目+鱼眼)

13.重磅!四旋翼飞行器:算法与实战

14.ROS2从入门到精通:理论与实战

15.国内首个3D缺陷检测教程:理论、源码与实战

扫码添加小助手微信,可

也可申请加入我们的细分方向交流群,目前主要有等微信群。

一定要备注:,例如:”3D视觉 + 上海交大 + 静静“。请按照格式备注,可快速被通过且邀请进群。也请联系。

▲长按加微信群或投稿

▲长按关注公众号

:针对3D视觉领域的五个方面进行深耕,更有各类大厂的算法工程人员进行技术指导。与此同时,星球将联合知名企业发布3D视觉相关算法开发岗位以及项目对接信息,打造成集技术与就业为一体的铁杆粉丝聚集区,近5000星球成员为创造更好的AI世界共同进步,知识星球入口:

学习3D视觉核心技术,扫描查看介绍,3天内无条件退款

 圈里有高质量教程资料、答疑解惑、助你高效解决问题

标签: at三维激光传感器常熟sst氧传感器

锐单商城拥有海量元器件数据手册IC替代型号,打造 电子元器件IC百科大全!

锐单商城 - 一站式电子元器件采购平台