资讯详情

CrossPoint:自监督3D点云场景理解(CVPR2022)

作者,普通学者@知乎

来源丨https://zhuanlan.zhihu.com/p/482785806

编辑丨3D视觉工坊

4ece96d88f03fedd9c164b01727deea4.png

原文标题

由于其不规则性,大规模人工标记的点云数据集在三维物体的分类、分割和检测中往往费力。Self-supervised学习,不需要人为标记,是一种很有前途的解决方案。在现实世界中,人类可以从2开始D图像中学到的视觉概念映射到3D世界中。受此启发,作者提出CrossPoint,学习可转移的3D点云表示。

(1)使用2D-3D对比自监督学习中的数据,有利于网络对点云的特征学习

(2)提出端到端自监督学习的目标封装intra-model以及cross-model损失函数,这使得2D图像特征能更好的嵌入到3D从而有效避免特定增强的偏差。

(3)将CrossPoint广泛应用于各种下游任务,效果优于原无监督学习。

(4)在CIFAR-FS少镜头的图像分类在数据集上执行,以证明从CrossPoint预处理后的图像性能优于标准基线。(也就是说,添加图片对点云后续任务更好)

1. 学习点云的表征

由于点云的不规则结构和处理点数据所需的替换不变性,点云的表征学习比其他表征学习(如图像)更加困难,具有直接应用于点云的先锋——PointNet,许多点云深度学习网络诞生了。虽然网络性能很好,但它依赖于人工标记信息的数据集,这很难获得。于是,CrossPoint其诞生是从大量无标记信息的数据中提取可转移的特征信息,并将其应用于下游任务分类和分割。

2. 点云上的自监督学习

首先,我们应该对自我监督学习有一个概念。众所周知,机器学习分为三类:监督、无监督和自我监督。前两个定义非常明确。在这里,我们简要介绍了论文原文中的自我监督学习。

自监督学习分为两类,Generative Method(包括GNN以及AE,目的是重建给定的数据集);Contrastive Method(对比学习,论文使用的架构),你可以在这里学习Siamese neural network(孪生神经网络:https://zhuanlan.zhihu.com/p/35040994)

我觉得其实是通过两个共享权值的网络,通过最小化同类输入输出的距离,最大化反类输入的距离来更新参数。至于距离测量的选择,它被称为Contrastive Loss的东西了。

3. Cross-Modal Learning

根据我的理解,作者说他用跨模型学习,分别是2D图像以及3D模型之间的特征迁移和嵌入了一个特征pixel-to-point 的image features extractor

Learning from 2D网络架构原文

大概意思是用一个backprojection function此外,还设计了一个称为二维和三维的特征upsampling feature projection layer学习细粒度3D表示。然后利用二维图像对网络进行预训练,从而优化下游任务的性能。

面向自动驾驶领域的3D点云目标检测全栈学习路线!(单模态 多模态/数据 代码)

CrossPoint的网络架构

1. 整体分析

上半部分有两个P输入,作者称之为augmented versions。其实是原3D模型的随机变换(如旋转、放缩和平移)实际上与上述模型非常相似Siamese neural network,两层网络共享权重,最终获得Z取两个平均值。

2. 损失函数

易于理解,我们不妨转换上述公式

为了最小化 L,分母项需要增加,分子项需要减少(这里不太明白为什么求和时两者都是k,按照原本的NT-Xent输出与损失函数进行比较batch中2N-两个样本之间的相似性,2N一个是自己,一个是augmented version)。详情点击Normalized Temperature-scaled Cross Entropy Losss(https://paperswithcode.com/method/nt-xent)

而且从原文作者描述也能看到

最后总Loss两者相加

1.1 2D渲染数的选择

作者发现一张图片效果最好,所以后续实验选择了渲染图片。

1.2 分类任务

1.3 分割任务

1.4 IMID和CMID效果

1.5 在CIFAR-FS少镜头分类

后续云下游任务未使用image的extractor,而单单把该extractor用于分类,效果不理想。原作者说是因为原来用的是3D点云模型的渲染图不能很好地泛化为预训练CIFAR数据集(效果差异很大)。

这篇是在CVPR202203年的文章,还是很新的深度学习点云学习,个人认为亮点是引入self-supervised learning中的contrastive learning做pretrain,值得一读。以上都是我论文的阅读笔记。如有错误,请在评论区指出。

参考

[1].Learning from 2D: Contrastive Pixel-to-Point Knowledge Transfer for 3D Pretraining

[2].Self-Supervised Learning 入门介绍

[3].对比无监督预训练简介(Contrastive Pre-training)

[4].Siamese network 双胞胎神经网络-一个简单而神奇的结构

[5].contrastive loss 详解

[6].介绍余弦距离

[7].Normalized Temperature-scaled Cross Entropy Loss

[8].CrossPoint

本文仅进行学术分享。如有侵权行为,请联系删除。

1.自动驾驶领域的多传感器数据集成技术

2.自动驾驶领域3D点云目标检测全栈学习路线!(单模态 多模态/数据 代码)3.彻底了解视觉三维重建:原理分析、代码解释、优化和改进4.中国第一门面向工业级实战的点云处理课程5.激光-视觉-IMU-GPS融合SLAM算法梳理和代码解释6.彻底理解视觉-惯性-惯性SLAM:基于VINS-Fusion正式开课啦7.彻底了解基础LOAM框架的3D激光SLAM: 从源代码分析到算法优化8.室内外激光彻底分析SLAM关键算法原理、代码和实战(cartographer LOAM LIO-SAM)

9.从零开始建造一套结构光3D重建系统[理论 源码 实践]

10.单目深度估计方法:算法梳理和代码实现

11.在自动驾驶中部署深度学习模型

12.相机模型及标定(单目) 双目 鱼眼)

13.重磅!四旋翼飞机:算法与实战

14.ROS2从入门到精通:理论与实战:

15.国内首个3D缺陷检测教程:理论、源代码和实战

扫码添加小助手微信,可

也可申请加入我们的细分方向交流群,目前主要有等微信群。

一定要备注:,例如:”3D视觉 + 上海交大 + 静静“。请按照格式备注,可快速被通过且邀请进群。也请联系。

▲长按加微信群或投稿

▲长按关注公众号

:针对3D视觉领域的五个方面进行深耕,更有各类大厂的算法工程人员进行技术指导。与此同时,星球将联合知名企业发布3D视觉相关算法开发岗位以及项目对接信息,打造成集技术与就业为一体的铁杆粉丝聚集区,近4000星球成员为创造更好的AI世界共同进步,知识星球入口:

学习3D视觉核心技术,扫描查看介绍,3天内无条件退款

 圈里有高质量教程资料、答疑解惑、助你高效解决问题

标签: nt1传感器

锐单商城拥有海量元器件数据手册IC替代型号,打造 电子元器件IC百科大全!

锐单商城 - 一站式电子元器件采购平台