作者,普通学者@知乎
来源丨https://zhuanlan.zhihu.com/p/482785806
编辑丨3D视觉工坊

原文标题
由于其不规则性,大规模人工标记的点云数据集在三维物体的分类、分割和检测中往往费力。Self-supervised学习,不需要人为标记,是一种很有前途的解决方案。在现实世界中,人类可以从2开始D图像中学到的视觉概念映射到3D世界中。受此启发,作者提出CrossPoint,学习可转移的3D点云表示。
(1)使用2D-3D对比自监督学习中的数据,有利于网络对点云的特征学习
(2)提出端到端自监督学习的目标封装intra-model以及cross-model损失函数,这使得2D图像特征能更好的嵌入到3D从而有效避免特定增强的偏差。
(3)将CrossPoint广泛应用于各种下游任务,效果优于原无监督学习。
(4)在CIFAR-FS少镜头的图像分类在数据集上执行,以证明从CrossPoint预处理后的图像性能优于标准基线。(也就是说,添加图片对点云后续任务更好)
1. 学习点云的表征
由于点云的不规则结构和处理点数据所需的替换不变性,点云的表征学习比其他表征学习(如图像)更加困难,具有直接应用于点云的先锋——PointNet,许多点云深度学习网络诞生了。虽然网络性能很好,但它依赖于人工标记信息的数据集,这很难获得。于是,CrossPoint其诞生是从大量无标记信息的数据中提取可转移的特征信息,并将其应用于下游任务分类和分割。
2. 点云上的自监督学习
首先,我们应该对自我监督学习有一个概念。众所周知,机器学习分为三类:监督、无监督和自我监督。前两个定义非常明确。在这里,我们简要介绍了论文原文中的自我监督学习。
自监督学习分为两类,Generative Method(包括GNN以及AE,目的是重建给定的数据集);Contrastive Method(对比学习,论文使用的架构),你可以在这里学习Siamese neural network(孪生神经网络:https://zhuanlan.zhihu.com/p/35040994)
我觉得其实是通过两个共享权值的网络,通过最小化同类输入输出的距离,最大化反类输入的距离来更新参数。至于距离测量的选择,它被称为Contrastive Loss的东西了。
3. Cross-Modal Learning
根据我的理解,作者说他用跨模型学习,分别是2D图像以及3D模型之间的特征迁移和嵌入了一个特征pixel-to-point 的image features extractor
Learning from 2D网络架构原文
大概意思是用一个backprojection function此外,还设计了一个称为二维和三维的特征upsampling feature projection layer学习细粒度3D表示。然后利用二维图像对网络进行预训练,从而优化下游任务的性能。
面向自动驾驶领域的3D点云目标检测全栈学习路线!(单模态 多模态/数据 代码)
CrossPoint的网络架构
1. 整体分析
上半部分有两个P输入,作者称之为augmented versions。其实是原3D模型的随机变换(如旋转、放缩和平移)实际上与上述模型非常相似Siamese neural network,两层网络共享权重,最终获得Z取两个平均值。
2. 损失函数
易于理解,我们不妨转换上述公式
为了最小化 L,分母项需要增加,分子项需要减少(这里不太明白为什么求和时两者都是k,按照原本的NT-Xent输出与损失函数进行比较batch中2N-两个样本之间的相似性,2N一个是自己,一个是augmented version)。详情点击Normalized Temperature-scaled Cross Entropy Losss(https://paperswithcode.com/method/nt-xent)
而且从原文作者描述也能看到
最后总Loss两者相加1.1 2D渲染数的选择
作者发现一张图片效果最好,所以后续实验选择了渲染图片。1.2 分类任务
1.3 分割任务
1.4 IMID和CMID效果
1.5 在CIFAR-FS少镜头分类
后续云下游任务未使用image的extractor,而单单把该extractor用于分类,效果不理想。原作者说是因为原来用的是3D点云模型的渲染图不能很好地泛化为预训练CIFAR数据集(效果差异很大)。这篇是在CVPR202203年的文章,还是很新的深度学习点云学习,个人认为亮点是引入self-supervised learning中的contrastive learning做pretrain,值得一读。以上都是我论文的阅读笔记。如有错误,请在评论区指出。
参考
[1].Learning from 2D: Contrastive Pixel-to-Point Knowledge Transfer for 3D Pretraining
[2].Self-Supervised Learning 入门介绍
[3].对比无监督预训练简介(Contrastive Pre-training)
[4].Siamese network 双胞胎神经网络-一个简单而神奇的结构
[5].contrastive loss 详解
[6].介绍余弦距离
[7].Normalized Temperature-scaled Cross Entropy Loss
[8].CrossPoint
本文仅进行学术分享。如有侵权行为,请联系删除。
1.自动驾驶领域的多传感器数据集成技术
2.自动驾驶领域3D点云目标检测全栈学习路线!(单模态 多模态/数据 代码)3.彻底了解视觉三维重建:原理分析、代码解释、优化和改进4.中国第一门面向工业级实战的点云处理课程5.激光-视觉-IMU-GPS融合SLAM算法梳理和代码解释6.彻底理解视觉-惯性-惯性SLAM:基于VINS-Fusion正式开课啦7.彻底了解基础LOAM框架的3D激光SLAM: 从源代码分析到算法优化8.室内外激光彻底分析SLAM关键算法原理、代码和实战(cartographer LOAM LIO-SAM)
9.从零开始建造一套结构光3D重建系统[理论 源码 实践]
10.单目深度估计方法:算法梳理和代码实现
11.在自动驾驶中部署深度学习模型
12.相机模型及标定(单目) 双目 鱼眼)
13.重磅!四旋翼飞机:算法与实战
14.ROS2从入门到精通:理论与实战:
15.国内首个3D缺陷检测教程:理论、源代码和实战
扫码添加小助手微信,可
一定要备注:
▲长按加微信群或投稿
▲长按关注公众号
学习3D视觉核心技术,扫描查看介绍,3天内无条件退款
圈里有高质量教程资料、答疑解惑、助你高效解决问题