来源!机器之心
密歇根大学和其他机构的研究人员提出了一个新颖和全面的数据集 ModelNet40-C ,对失真的稳定性进行系统测试,进一步提高点云识别模型。
3D 点云广泛应用于 3D 在识别技术中。一些特殊的应用领域通常是正确的 3D 点云识别的安全性要求较高,如自动驾驶、医疗图像处理等。目前,学术界对点云安全性的研究集中在对抗攻击的稳定性上。与对抗攻击相比, 自然失真和扰动在现实世界中更为常见。然而,目前还没有 3D 对失真稳定性的系统研究。
论文地址: https://arxiv.org/abs/2201.12296
项目主页: https://sites.google.com/umich.edu/modelnet40c
开源 Github: https://github.com/jiachens/ModelNet40-C
密歇根大学和其他机构的研究人员最近提出了一个新颖和全面的数据集 ModelNet40-C ,对失真的稳定性进行系统测试,进一步提高点云识别模型。ModelNet40-C 包含 185000 来自点云数据的点云数据 15 不同类型的点云失真,每种类型都有 5 严重程度不同。这些点云失真分为 3 大类:密度 (density) 失真、噪音 (noise) 扭曲,变换 (transformation) 失真。
实验表明,目前具有代表性 3D 点云识别模型(如:PointNet、PointNet 、DGCNN 以及 PCT)在 ModelNet40-C 错误率比在原来 ModelNet40 数据集的错误率高于 3 倍,如下图 1 这证明了点云深度模型框架仍然很容易受到常见失真的影响。
图 1. 深度点云识别代表性模型 ModelNet40 和 ModelNet40-C 数据集中的错误率。
根据这一发现,研究进一步对不同模型架构、数据增强和自适应方法对失真稳定性的影响进行了大量测试。根据实验结果,研究人员总结了许多帮助的发现 3D 点云识别技术的开发者设计了更稳定的模型和训练方案。例如,研究人员发现基于此 Transformer 点云识别架构在提高模型失真稳定性方面具有很大优势;不同类型的数据增强策略对各种类型的失真有不同的优势;自适应性方法对某些严重失真具有良好的稳定性等。
图 2. ModelNet40-C 数据集失真类型图。
失真稳定性在 2D 图像受到广泛关注,其中 CIFAR-C 和 ImageNet-C 失真数据集是通过模拟不同的天气、噪声和模糊来构建的。然而,研究人员发现, 3D 点云的失真和 2D 图像之所以根本不同,是因为点云的数据结构更加灵活和不规则。例如,点云中点的数量可以同时改变 3D 点云位置的变化也容易影响语义信息。研究者提出 3 点构建 ModelNet40-C 的原则:1) 语义不变性,2) 3) 保证数据集质量的失真多样性。
ModelNet40-C 失真分为密度 (density) 失真,噪音 (noise) 失真,变换 (transformation) 失真三类。
包括密度失真 遮挡 (LiDAR),局部密度上升,局部密度下降,局部缺失 5 它们模拟了现实中不同传感器生成点云密度的不同特征,如屏蔽 扫描中模拟传感器 3D 受角度限制,物体只能产生部分点云。
噪声失真包括 均匀分布 噪声,它们模拟传感器在现实生成和程序预处理过程中不可避免的数字噪声和误差。
变换失真包括旋转、错切、自由变形、径向基变形和反径向基变形。前两种模拟了处理点云数据和动态采集数据时的非对准状态,后三种模拟 AR/VR 游戏和生成模型 (GAN) 输出点云失真。
图 3. 在 ModelNet40-C 上 6 平均混淆矩阵的模型。
研究人员解释说,这些失真在点云应用中非常常见,并确保生成的数据集仍然保持原始语义,如图所示 2 所示。图 3 展示了在 ModelNet40-C 上 6 平均混淆矩阵,对角线的比例仍然很高,这也被交叉验证 ModelNet40-C 语义不变性。
在构建 ModelNet40-C 之后,该研究进行了大量的基准测试,包括不同的模型架构设计、不同的数据增强方法和不同的自适应方法。
表 1. 在标准训练下,不同的模型 ModelNet40-C 错误率。
如表 1 所示,研究在 PointNet, PointNet , DGCNN, RSCNN, PCT, 以及 SimpleView 基准测试在六个模型上进行。研究人员总结了一些发现: 1) “遮挡”和 激光雷达 给点云识别模型造成了极高的错误率。2) 小角度的 “旋转” 点云识别性能仍将受到很大影响。3) “背景”和 “脉冲” 噪音给大多数模型带来了意想不到的挑战。
这些发现也可以反映在模型设计上。1) PointNet 密度失真相对稳定,但整体性能不佳。这是因为 PointNet 只编码整体特征,没有局部特征,一直被认为是 PointNet 主要缺点。但是,密度失真是局部特征损失,反而是对的 PointNet 但这种机制确实导致了有限的影响 PointNet 对其它类型的失真非常敏感。研究人员建议将来对 PointNet 应用场景应考虑在使用中。
2) 球查询 (ball query) 的聚类方法对 “背景” 而且脉冲噪音更稳定。这是因为球聚类比球聚类更稳定。 kNN 聚类限制了最大聚类半径,有助于帮助模型去除异常值的影响。
3) 基于 Transformer 的点云识别模型对变换失真更加稳健,这是因为自注意力 (self-attention) 该机制可以使模型学习到更稳定、更全面的整体特征, Transformer 架构还实现了更大的模型容量,使其对整体变形失真更加稳定。
表 2. 在标准训练下不同模型在 ModelNet40-C 错误率。
如表 2 所示,本研究采用 PointCutMix-R, PointCutMix-K, PointMixup, RSMix, 对抗训练 (Adversarial Training) 作为 5 增强数据的训练方法。研究人员发现: 1) 虽然这些数据增强方案在清洁数据集中对模型性能的改进有限,但在点云失真场景中显著提高了模型的稳定性。2) 没有数据增强方案可以主宰所有类型的失真。
PointCutMix-R 噪声失真的稳定性很好,因为它随机采样两种不同类型的点云并直接合成,所以生成的点云是两个现有点云采样的重叠,所以每个点云都相当于另一半的噪声失真。因此,这种数据增强模式可以大大提高噪声失真的稳定性。
PointMixup 变换失真的性能更好,因为 PointMixup 最小距离配对两个不同类别的点云并插值 采样时,产生的点云形状介于两种类型之间,接近变换失真中的整体变形,因此变换失真更稳定。
RSMix 虽然密度失真稳定, RSMix 整体思路与 PointCutMix 但严格规定刚性合成,即两种不同类型的点云采样后 3D 空间仍然是独立的,没有叠加。这种合成相当于两个局部缺失的独立点云,因此对密度失真具有更好的稳定性。
表 3. 在标准训练下,不同的模型 ModelNet40-C 错误率。
本研究首次将自适应方法应用于点云识别任务。研究者采用 BN 和 TENT 更新模型批标准化层的方法 (BatchNorm Layer)的参数,他们发现: 1) 在测试过程中,自适应方法可以稳定地提高模型的稳定性,但总体而言,数据增强效果不好;2) 测试自适应方法对某些困难的失真类型有意想不到的效果。
例如,平均而言,TENT 有助于遮挡 (错误率 = 47.6%),激光雷达(错误率 = 54.1%), 和“旋转” (错误率 = 19.8%) 失真类型下实现最强的稳健性,分别比最佳数据增强方法高出 6.7%,1.9%,和 7.9%。这证明了自适应方法在提高点云识别失真稳健性的巨大潜力。
研究者最终将数据增强中整体表现最好的 PointCutMix-R 与自适应方法 TENT 结合,发现基于 Transformer 架构的 PCT 模型达到了目前最好的整体失真稳健性 (错误率 = 13.9%)。这一发现同时验证了 Transformer 在模型稳健性的成功,与之前的研究 (Bai, Yutong, et al. ,2021) 在 Transformer 对 2D 图像的结论基本吻合。
该研究提出了一个新颖并且全面的 3D 点云识别稳健性分析数据集 ModelNet40-C。研究者提出并构建了了 75 种不同的失真类型和程度来模拟真实场景中由于物理限制、传感器准确度限制、以及处理过程中造成的点云失真和损坏。ModelNet40-C 包含 185000 个不同的点云数据。
实验表明,目前代表性的模型在 ModelNet40-C 上的错误率比在原本 ModelNet40 数据集上的错误率高出~ 3 倍。该研究通过大量的基准测试展现了不同模型架构,不同数据增强策略,以及自适应方法在 ModelNet40-C 上的性能并总结了有用的发现来帮助 3D 点云社区设计更稳健的识别模型。我们期待着 ModelNet40-C 数据集能加速今后更多的点云识别稳健性的研究!
本文仅做学术分享,如有侵权,请联系删文。
1.面向自动驾驶领域的多传感器数据融合技术
2.面向自动驾驶领域的3D点云目标检测全栈学习路线!(单模态+多模态/数据+代码)3.彻底搞透视觉三维重建:原理剖析、代码讲解、及优化改进4.国内首个面向工业级实战的点云处理课程5.激光-视觉-IMU-GPS融合SLAM算法梳理和代码讲解6.彻底搞懂视觉-惯性SLAM:基于VINS-Fusion正式开课啦7.彻底搞懂基于LOAM框架的3D激光SLAM: 源码剖析到算法优化8.彻底剖析室内、室外激光SLAM关键算法原理、代码和实战(cartographer+LOAM +LIO-SAM)
9.从零搭建一套结构光3D重建系统[理论+源码+实践]
10.单目深度估计方法:算法梳理与代码实现
11.自动驾驶中的深度学习模型部署实战
12.相机模型与标定(单目+双目+鱼眼)
13.重磅!四旋翼飞行器:算法与实战
14.ROS2从入门到精通:理论与实战
扫码添加小助手微信,可
也可申请加入我们的细分方向交流群,目前主要有、、、、、等微信群。
一定要备注:
▲长按加微信群或投稿
▲长按关注公众号
学习3D视觉核心技术,扫描查看介绍,3天内无条件退款
圈里有高质量教程资料、答疑解惑、助你高效解决问题