资讯详情

SegICP:一种集成深度语义分割和位姿估计的框架(附代码)

在公众号「」,后台回复「」,可直接下载。

尽管近年来机器人相关技术发展迅速,但如何在复杂真实的场景中快速可靠地感知与任务相关的对象仍然是一项非常具有挑战性的工作。作者提出提高机器人系统的感知速度和鲁棒性 SegICP,这是一象识别和位置估计的集成解决方案。SegICP 结合卷积神经网络和多假设点云匹配,实现鲁棒的像素级语义分割和相关对象的准确性和实时性 6 自由姿态估计。该架构在没有初始解的情况下实现了实时1 cm 位置误差和 小于5°角度误差。最后,根据运动捕获生成的带注释基准数据集完成SegICP的评估。

1)提出了度并行化的综合语义分割和多假设物体姿态估计方法,其单视图操作精度为1cm。在70-270毫秒(4-14赫兹)的时间内,不需要任何先验位置。

2) 提出新的点云配准评价指标,对点云的配准质量进行评分,允许在许多潜在假设中独立、准确地初始化位置。

3) 通过使用运动捕捉系统带注释的语义分割和位置数据集,提出高效的自动数据收集框架。

5387ae9b7d2ca757398b7aeb4934347e.png

图1 给定RGB图像(左)和深度帧,SegICP 该方法以像素级分割对象,并以1分割对象 cm位置误差小于5°角度误差(右)估计每个对象6 DOF姿态。

机器人必须能够识别周围环境中的相关操作,机器人必须能够识别周围环境中的相关物体和特征,并相应规划其运动和交互。

尤其是最近 DARPA Robotics Challenge和Amazon Picking Challenge自主操作挑战的努力取得了显著成果,使系统能够感知、推理和与周围环境互动。然而,现有的闭环操作任务识别和姿态估计解决方案通常有以下问题:

(1) 不鲁棒在有部分遮挡的混乱环境中;

(2) 无法实时操作 (<1 Hz);

(3) 不够准确;

(4) 没有良好的初始条件,就无法获得高精度。

作者对这些问题提出了新的建议pipeline,它紧密集成了基于模型的深度语义分割和对象姿态估计,实现了实时姿态估计。中等位态误差为 1 cm 且小于5°。解决方案(SegICP)使用 RGB-D 传感器在高度并行化的架构中提供场景中所有相关对象的位置(见图 1)的语义分割。该方法以机器人移动操作任务及其相关对象的感知为基础。机器人系统必须能够首先识别与任务相关的实体,并推断它们的相对姿势,最终操纵它们并与之互动。因此,作者在相关工作部分讨论了对象识别和姿态估计的相关文献。

图2 在混乱的环境中完全运行 SegICP pipeline。系统检测对象,估计每个对象 6-DOF 姿态。右上角分割图像中的彩色叠加像素对应蓝色漏斗(红色)、油瓶(蓝色)和发动机(紫色),安装在图像上 PR2 机器人顶部 Kinect1 检测。左下角显示了油瓶对象的多假设准确性及其对齐分数,用于确定最佳对象姿态。

在如图 2 所示的SegICP架构中,RGB帧首先通过 CNN输出带有像素级语义对象标签的图像。然后用标记图像划分相应的点云,并为每个检测对象生成单独的点云。然后使用它ICP匹配每个对象的点云及其完整的点云数据库模型,并估计目标对象对传感器的态度。

关键环节如下:

与经典的分割问题相反,该框架特别关注如何在深度图上生成合适的mask为了做出准确的位置估计。为了解决这个问题,作者尝试了各种方法CNN所有这些架构都可以完成感兴趣对象的语义分割。

通过两种不同CNN架构:SegNet和DilatedNet作者发现了上述实验 SegICP的最佳适用模型是SegNet,这是一个有3000万参数的27层全卷积神经网络。该网络采用交叉熵标准,结合图像旋转、切割、水平和垂直翻转组成的数据增强,对切割和采样后的图像进行训练。

从场景云中提取每个对象的3D点云。然后使用SegNet从对象模型库中检索每个分割对象的语义标签D网格模型。网格模型转换为点云形式后进行采样,并对其分割点云进行配准。

点云配准分为获取和跟踪两个阶段。获取阶段的目标是找到每个对象的模型与相应的场景点云之间的初始最佳对齐。该对齐用于确定模型的可见侧(模型切割)和初始跟踪阶段。其目标是整合相机和机器人的运动信息,即使在相机运动和屏蔽期间也能保持对物体的准确和实时的姿势估计。SegICP使用点对点 ICP配准算法。本文的贡献之一是测量模型和场景的对齐度,以确定在获取和跟踪阶段的准确性和切换质量。

获取阶段用于找到对象网格模型与当前点云的最佳对齐和切割。通过渲染可见对象的模型,并切割模型,以保持正面。同时,每个候选人都初始化在对象场景点云的中间,以去除分割中的噪声,防止ICP局部最优。

图3(a)生成的蓝色分割块用于生成(b)待裁剪场景点云突出显示。(c-e)说明各种候选模型对象(橙色)与切割场景云(蓝色)的匹配,以及各自的对齐分数。

图3显示了分割模型的切割例子及其对齐分数。作者还指出了一些问题,如ICP 拟合得分(欧几里得分)和IOU配准和错误配准不能有效区分。相比之下,作者提出的指标解决了高度对称的物体(如油瓶)的直接缺点。如果任何候选人的分数都高于一个阈值ε,SegICP它将切换到未来帧的跟踪阶段。

初始跟踪阶段采用对齐分数最高的候选模型位置和裁剪。为了使跟踪对象在边界上的缺陷具有鲁棒性,通过删除最新匹配模型位置的边界框外的点来进一步修剪对象的场景点云。卡尔曼滤波器中的测量更新采用配准获得的位置,以跟踪每个对象的6-DoF姿势和速度。滤波器可以处理临时对象屏蔽和异常位置估计,通过将机器人可用里程计的已知相机运动集成。对拟合中提出的对齐度量进行评估,以测量当前姿态测量的不确定性,并相应地通知卡尔曼滤波器。如果分数低于最小阈值,卡尔曼滤波器将根据里程计算对象的姿态,同时切换回访模式。

作者训练了由汽车实体(如发动机、油瓶、漏斗等)组成的7500个室内场景标记图像SegNet。在这些图像中,大约三分之二是人工标记的(使用)LabelMe),剩下的三分之一是由D InvestigatorTM动作捕捉(MoCap)自动生成放置在相机和物体上的系统和活动标记(如图所示 4所示)。

图4(a)使用NDI 3D Investigator 设置动作捕捉系统。RGB-D圆形活动标记安装在相机和用于姿态测量的对象上。PR2的Kinect1 (b)和 Kinect2 (c)上面的标记示例。

考虑到图像训练涉及多个传感器硬件(Microsoft Kinect1、Asus Xtion Pro Live、Microsoft Kinect2 和 Carnegie Robotics Multisense SL),每个硬件都有不同的分辨率,因此很难获得用于分割和位置估计的大型数据集。为此,作者还提出了一个自动注释图5所示图像的运动捕捉系统。

图5给定输入的RGB 系统的输出分割和对象姿态(底输出分割和对象姿态(底行)以轴角格式自动标记。

作者在数据集上对 SegICP 数据集通过基准测试 MoCap 系统获得的1246个带注释的对象位置。

作者探索了两种语义分割结构:SegNet和DilatedNet。SegNet用于逐像素语义分割的自动编码器解码器。自编码器架构对每个像素分类至关重要,因为它可以从每个层的输出重建输入,学习如何在最终分类层之前重建输入。DilatedNet在不损失准确性的情况下,使用扩展的卷积模块来聚合多尺度的上下文信息。两种网络架构均采用VGG图像分类的卷积层,SegNet使用 VGG 层作为其编码器 DilatedNet 将后层转换为膨胀的卷积模块。作者使用在ImageNet上预训练的VGG-16模型在训练期间初始化权重。最后,使用7500多张带注释的图像(平均)epoch这两个网络的数据集训练时间约为一小时,并获得了表1中列出的性能指标。

表1 网络性能的语义分割

两种架构之间的一个关键区别是,DilatedNet旨在通过合并扩展卷积模块来提高召回率SegNet似乎可以实现更高精度的测量。这两个网络的视觉差异如图6所示,其中SegNet和DilatedNet输出显示为相同的场景。需要注意的是,分割的质量会影响点云标记,并估计框架中用于对象姿态的点姿态配准方法的性能产生直接影响。尽管如此,作者仍然考虑了一个问题,那就是:更高的分割IOU是否会导致更好的位姿估计?更高的精度?和更高的召回率?并给出相关讨论。

图6 :给定来自PR2的Kinect1的相同RGB输入图像(左),分别输出两种网络的结果(中、右);与DilatedNet相比,SegNet似乎产生更精确的分割。

在作者的基准测试中,在获取阶段为每个对象使用了30个模型裁剪的集合,并发现在六核i7-6850K(30线程)上的总体平均运行时间为270毫秒。需要注意的是,这里的时间评估取决于目标物体的数量和机器的CPU。

在图7中,作者说明了在1246个对象姿态注释的基准数据集上评估SegICP的结果。为了对分割标记对最终姿态估计的影响进行全面分类,作者使用带注释的分割和两个分割网络架构的输出运行SegICP。结果表明,与DilatedNet (66%)相比,SegNet实现了更高的性能 (77%)。

同时,作者将误差超过5厘米和轴角度超过15°的情况归类为失败。在成功的场景中,SegICP实现了1 cm的位置误差和< 5°的角度误差;这一准确度水平接近所有基准实例的80%。图7显示了给定分割的姿态估计误差的分布。

有趣的是,SegICP的性能与传感器技术和校准高度相关。当仅考虑466个Kinect1实例(具有更好RGB-D 校准的结构光传感器)时,SegICP 分别使用来自注释、SegNet 和 DilatedNet的标记分别实现了90%、73%和72%的成功度量。

图7 不同的神经网络架构(例如 SegNet 和 DilatedNet)导致的不同分割标记之间的错误。

此外,与TOF传感器(例如 Kinect2)相比,SegICP 在结构光传感器(例如 Kinect1)上的运行性能似乎更高。作者发现,由于TOF引起的点云变形,具有高度几何对称性和具有反射表面的物体(例如油瓶)会导致ICP拟合不佳。图8说明了这种特殊现象,其中油瓶表面存在较大变形,导致配准不准确。最后,由于该架构使用分割标记来裁剪点云,所以RGB和深度帧的传感器校准对于准确的姿态估计至关重要。

图8 由于物体表面反射造成的配准错误

本文提出了一种高度并行化的架构,用于语义分割和准确的位姿估计(1 cm 位置误差和 <5°的角度误差)。所提架构最直接的好处是不需要足够接近解决方案的初始估计,并且本质上是可并行化的,允许实时同时处理多个对象(跟踪和采集模式分别为70-270毫秒)。此外,作者详细阐述了一种运动捕捉方法来收集潜在的大量带注释的分割和位姿数据集,使该架构能够快速扩展其他的领域。

同时作者表示,目前正在努力改进感知架构,扩展框架以包含更大的对象集,并将其与非结构化环境中复杂交互的集成任务和运动规划联系起来。

作者也是我们特邀嘉宾:

本文仅做学术分享,如有侵权,请联系删文。

扫码添加小助手微信,可申请加入3D视觉工坊-学术论文写作与投稿 微信交流群,旨在

也可申请加入我们的细分方向交流群,目前主要有等微信群,请扫描下面微信号加群,备注:”研究方向+学校/公司+昵称“,例如:”3D视觉 + 上海交大 + 静静“。请按照格式备注,否则不予通过。添加成功后会根据研究方向邀请进去相关微信群。也请联系。

▲长按加微信群或投稿

▲长按关注公众号

:针对3D视觉领域的五个方面进行深耕,更有各类大厂的算法工程人员进行技术指导。与此同时,星球将联合知名企业发布3D视觉相关算法开发岗位以及项目对接信息,打造成集技术与就业为一体的铁杆粉丝聚集区,近4000星球成员为创造更好的AI世界共同进步,知识星球入口:

学习3D视觉核心技术,扫描查看介绍,3天内无条件退款

 圈里有高质量教程资料、可答疑解惑、助你高效解决问题

标签: bca73sl072传感器

锐单商城拥有海量元器件数据手册IC替代型号,打造 电子元器件IC百科大全!

锐单商城 - 一站式电子元器件采购平台