点击上方“3D视觉车间,选择星标
第一时间送达干货
作者泡泡机器人
来源丨泡泡机器人SLAM
SLIM: Self-Supervised LiDAR Scene Flow and Motion Segmentation
Stefan Andreas Baur, David Josef Emmerichs, Frank Moosmann, Peter Pinggera1, Ommer and Andreas Geiger
ICCV 2021
cristin
zh
大家好,今天给大家带来的文章SLIM: Self-Supervised LiDAR Scene Flow and Motion Segmentation
近年来,监督学习框架中出现了几种基于点云的三维场景。Sceneflow固有地将每个场景分为多个移动场景agent聚类遵循刚体运动。然而,现有的方法并没有在自我监督和训练程序中使用数据的特性,这可以改善和稳定流量预测。基于鲁棒刚性自我运动估计与原始流量预测的差异,我们生成了自我监督运动分割信号。反过来,我们的算法用于关注静止点,聚集场景静态部分的运动信息。我们通过反向传输梯度学习我们的模型端到端kabch并证明这可以改进ego-motion从而改善场景流估计。在消融研究中,我们进一步分析了在联合运动分割和场景流时的性能增益。我们还提出了一种新的网络架构三维激光雷达场景流,可以处理比以前训练中点多一个数量级。
project_home:https://baurst.github.io/slim/
1. 我们的方法是基于点云的第一种场景流估计方法,它将点分为运动和静止。
2. 我们的方法在基于点云的场景流估计方面明显优于以前的方法,特别是在前所未见的数据泛化方面。我们在多个数据集中演示了这些数据,包括自我监督和完全监督设置。
3. 我们新颖的网络架构可以处理比目前弱或自我监督方法多得多的点。
估计三维场景流使用两个连续输入点云Pt∈RN×3, Pt 1∈RM×3.预测第一点云中每个点的三维位移向量,代表每个点的运动w.r.t。
图1 我们的网络架构概述。卷积门控循环单元(ConvGRU)根据预测的flo进行相关搜索、迭代预测流和日志更新
支柱特征网引入[20](共享权值)(PFN)将输入点云Pt, Pt 1分别编码为BEV伪图像,得到的值It, It 1∈RH×W ×C再由骨干处理。我们使用相同的数据集BEV覆盖自行车周围的范围35m≤x, y≤35m的正方形,x, y为横轴。我们使用的分辨率是h =W= 640对应一个11左右cm柱的大小。
我们的主干在很大程度上受到了影响raft用于预测图像上的密集光流。它的核心组件是更新隐藏状态的阻塞和流预测,每次迭代产生更精细、更准确的流。因此,我们利用独立编码的输入图像构建相关体,利用之前的流量预测来找到相关值,从而将流量引导到更准确的匹配像素区域。尽管RAFT它是为密集光流设计的,但我们表明它分布稀疏BEV域也很适用,可以很好的推广。与常规图像相比,BEV该域由更分散、更小的区域和非常独立的运动模式(移动交通参与者)组成。
我们采用RAFT处理流量预测,迭代更新两个额外的对数,如图2所示。第一个logit 映射Lcls将点分类为静态或移动的世界框架作为输出信号。由于无特征表面不适合流量估计,流量预测的准确性在一个场景中会发生很大的变化。第二个logit Lwgt它被用来克服这个问题,允许网络显示其对流量估计的信心。这两种对数用于聚合和提高静态和动态场景元素的准确性。
Lclsis处理类似于流量处理,但可信度加权的任务与流量预测更密切相关,因此数据流在信息处理过程中耦合。除了这个小变化,我们还保留了它RAFT一般框架包括梯度不仅在输入流上归零,而且在每个更新块的输入日志上归零。
首先,输出解码器使用这些BEV对输入点云进行映射pt注释每个点,使用一个流矢量搜索和两个logits Lcls,i,Lwgt,根据相应柱单元的值。通过这样做,我们假设柱子中所有点的行为都非常相似。我们相信这对于几乎所有室外测量的激光雷达点云都是正确的,因为所有移动的交通参与者都需要占用一些场地。
此外,大多数激光雷达系统的光束不向上。请注意,虽然我们的网络架构是专门用于这种方式的,但我们的损失框架适用于任何3D场景流预测不需要假设2D流动。输出解码器为了规范和改进静态场景中的流量预测,将其分类为still点聚合为单个相关的刚性运动测程变换Tr∈R4×4。
我们使用kabch算法[17]采用奇异值分解计算可微Tr值。每个点的权重wi每个流量矢量预测决定最终结果Tr影响程度。我们首先应用信度对数sigmoid激活它们,然后根据分类对数掩码它们。然后,我们将所有权重整合为1,以确保值的稳定性。
置信度logits只通过计算Tr接受梯度更新,是端到端训练,无需进一步监督
置信度logits只通过计算Tr接受梯度更新,是端到端训练,无需进一步监督
图2 对KITTI-SF定性比较场景的方法。AccR流量的准确估计是蓝色的,不准确的预测是红色的。从左到右:PointPWCNet (PPWC), PoseFlowNet (PF), Ours
对于传
图3左:地面真实运动分割,右:预测动态,移动概率更高更亮
点击, 本文下载链接即可获得。
本文仅进行学术分享。如有侵权行为,请联系删除。
1.自动驾驶领域的多传感器数据集成技术
2.自动驾驶领域3D点云目标检测全栈学习路线!(单模态 多模态/数据 代码)3.彻底了解视觉三维重建:原理分析、代码解释、优化和改进4.中国第一门面向工业级实战的点云处理课程5.激光-视觉-IMU-GPS融合SLAM算法梳理和代码解释6.彻底理解视觉-惯性-惯性SLAM:基于VINS-Fusion正式开课啦7.彻底了解基础LOAM框架的3D激光SLAM: 从源代码分析到算法优化8.室内外激光彻底分析SLAM关键算法原理、代码和实战(cartographer LOAM LIO-SAM)
9.从零开始建造一套结构光3D重建系统[理论 源码 实践]
10.单目深度估计方法:算法梳理和代码实现
11.在自动驾驶中部署深度学习模型
12.相机模型及标定(单目) 双目 鱼眼)
13.重磅!四旋翼飞行器:算法与实战
14.ROS2从入门到精通:理论与实战
15.国内首个3D缺陷检测教程:理论、源码与实战
16.基于Open3D的点云处理入门与实战教程
扫码添加小助手微信,可
一定要备注:
▲长按加微信群或投稿
▲长按关注公众号
学习3D视觉核心技术,扫描查看介绍,3天内无条件退款
圈里有高质量教程资料、答疑解惑、助你高效解决问题