(NeurIPS 2019) Learning Object Bounding Boxes for 3D Instance Segmentation on Point Clouds-锐单电子商城

Abstract

在3中，我们提出了一个概念简单的新颖通用框架D实例分割在点云上。我们的方法叫3D-BoNet，遵循每点多层感知器(MLP)简单的设计理念。该框架直接返回点云中所有实例的3D边界框，同时预测每个的点级（point-level）mask。1)边界框回归和2)点由一个主网络和两个并行网络分支组成mask预测。3D-BoNet是单阶段、anchor-free和端到端可以训练。此外，它的计算效率非常高，因为它不需要任何后处理步骤，如非极值抑制、特征采样、聚类或投票。大量的实验表明，我们的方法已经超越了ScanNet和S3DIS数据集中的现有工作提高了计算效率约10倍。综合消融研究证明了我们设计的有效性。

1 Introduction

让机器理解3D场景是自动驾驶、增强现实和机器人技术的基本必要条件。点云等3D几何数据的核心问题包括语义分割、目标检测和实例分割。在这些问题中，在文献中开始解决实例分割。主要障碍是点云本质上是无序、非结构化和不均匀的。广泛使用的卷积神经网络需要3D点云体素化，产生高计算和内存成本。

第一个直接处理3D实例分割的神经算法是SGPN [50]它通过相似矩阵学习分组每个点的特征。类似地，ASIS [51]、JSIS3D[34]、MASC[30]、3D-BEVIS[8]和[28]分组相同的每个特征pipeline应用于分割3D实例。 Mo等人把例子分成几个部分PartNet[32]逐点特征分类问题。然而，这些proposal-free由于目标边界没有明确的检测，方法的学习片段没有很高的目标。此外，它们不可避免地需要后处理步骤，如平均偏移聚类[6]来获得最终的实例标签，这在计算上很重。另一个pipeline是基于proposal的3D-SIS[15]和GSPN[58]他们通常依靠两个阶段的训练和昂贵的非最大抑制来修剪密集的目标proposal。

本文提出了一个优雅、高效、新颖的3D通过使用高效的实例分割框架MLPs的单前向阶段，对物体进行松散但唯一的检测，然后通过一个简单的点级二进制分类器对每个实例进行精确分割。为此，我们引入了一个新的边界框预测模块和一系列精心设计的损失函数来直接学习目标边界。基于我们的框架和现有框架proposal和proposal-free方法有很大的不同，因为我们可以有效地划分所有高目标的例子，但不依赖昂贵和密集的目标proposal。我们的代码和数据可以在https://github.com/Yang7879/3D-BoNet获得。

图 1：在3D实例分割实例分割3D-BoNet框架。

如图1所示，我们的框架被称为3D-BoNet，是单阶段，anchor-free和端到端可以训练的神经架构。首先，它利用现有的骨干网络为每个点提取一个局部特征向量，并为整个输入点云提取一个全局特征向量。主干后有两个分支：1）实例级边界框预测，2）实例分割点mask预测。

边界框预测分支是我们框架的核心。这个分支的目的是single forward在不依赖预定义空间的情况下，每个实例都预测了一个独特的、无方向的矩形边界框anchors或区域proposal网络[39]。如图2所示，我们认为实例粗略绘制3D由于输入点云以实现，因为输入点云明确包含3D由于合理的边界框可以保证学习片段的高度目标性，因此在处理点级实例分割之前，几何信息是非常有益的。然而，学习实例框涉及到关键问题：1）总实例的数量是可变的，即从1到许多，2）所有实例都没有固定的顺序。这些问题对网络的正确优化提出了巨大的挑战，因为没有直接预测框和信息ground truth连接标签以监督网络。然而，我们展示了如何优雅地解决这些问题。该框预测分支简单地输入了局特征向量，并直接输出大量固定数量的边界框和可信度分数。这些分数用于指示框是否包含有效实例。为了监督网络，我们设计了一个新的边界框关联层，然后是多标准损失函数。给定一组ground-truth例如，我们需要确定哪个预测框最适合它们。我们将此关联过程描述为现有求解器的最佳分配。框架最佳关联后，我们的多标准损失函数不仅最小化了配对框的欧几里德距离，而且最大化了预测框中有效点的覆盖率。

图 2.粗略的实例框。

然后将预测框与点和整体特征输入后续点mask预测分支，为每个实例预测一个点级二进制mask。该分支的目的是分类边界框中的每个点是有效的例子还是背景。假设估计的例子框相当好，很可能会得到准确的点mask，因为这个分支只是拒绝不属于检测到的实例点。随机猜测可能会带来50%的修正。

总的来说，我们的框架有三个方面和所有现有的3D实例分割方法不同。1）与proposal-free pipeline相比之下，我们的方法是通过显式学习3D目标边界分割高目标实例。 2)基于广泛应用的基础proposal与方法相比，我们的框架不需要昂贵和密集proposal。3)由于实例级，我们的框架非常高效（instance-level）masks是单次前进（single-forward）在传递中学习，不需要任何后处理步骤。我们的主要贡献是：

我们提出了一个在3D实例分割在点云上的新框架。这个框架是单阶段的，anchor-free不需要任何后处理步骤就可以在端到端训练。
我们设计了一个新的边界框关联层，然后是监控框预测分支的多标准损失函数。
我们是对的baselines的显着改进，并通过广泛的消融研究为我们的设计选择提供了直觉依据。

图 3：3D-BoNet框架的一般工作流程。

2 3D-BoNet

2.1 Overview

如图3所示，我们的框架由骨干网络顶部的两个分支组成。给出共享 N N N点输入点云 P \boldsymbol{P} P，即 P ∈ R N × k 0 \boldsymbol{P} \in \mathbb{R}^{N \times k_{0}} P∈RN×k0，其中 k 0 k_{0} k0是每个点的位置 { x , y , z } \{x, y, z\} { x,y,z}和颜色 { r , g , b } \{r, g, b\} { r,g,b}等通道数，骨干网络提取点局部特征，记为 F l ∈ R N × k \boldsymbol{F}_{l} \in \mathbb{R}^{N \times k} Fl∈RN×k，聚合一个全局点云特征向量，记为 F g ∈ R 1 × k \boldsymbol{F}_{g} \in \mathbb{R}^{1 \times k} Fg∈R1×k，其中 k k k是特征向量的长度。

边界框预测分支简单地将全局特征向量 F g \boldsymbol{F}_{g} Fg作为输入，并直接回归预定义和固定的一组边界框，记为 B \boldsymbol{B} B，以及相应的框分数，记为 B s \boldsymbol{B}_{s} Bs。我们使用ground truth边界框信息来监督这个分支。在训练期间，预测的边界框 B \boldsymbol{B} B和ground truth框被输入框关联层。该层旨在自动将唯一且最相似的预测边界框与每个ground truth框相关联。关联层的输出是关联索引 A A A的列表。索引重新组织预测框，使得每个ground truth框与唯一的预测框配对，用于后续损失计算。在计算损失之前，预测的边界框分数也会相应地重新排序。然后将重新排序的预测边界框输入到多标准损失函数中。基本上，这个损失函数不仅旨在最小化每个ground truth框与相关预测框之间的欧几里得距离，而且还最大化每个预测框内有效点的覆盖范围。请注意，边界框关联层和多准则损失函数都仅为网络训练而设计。它们在测试期间被丢弃。最终，该分支能够直接预测每个实例的正确边界框以及框得分。

为了预测每个实例的point-level二进制mask，每个预测框连同先前的局部和全局特征，即 F l \boldsymbol{F}_{l} Fl 和 F g \boldsymbol{F}_{g} Fg，被进一步送入点掩码预测分支。该网络分支由不同类别的所有实例共享，因此非常轻巧紧凑。这种与类别无关的方法本质上允许跨看不见的类别进行一般分割。

2.2 Bounding Box Prediction

边界框编码：在现有的目标检测网络中，边界框通常由中心位置和三个维度的长度[3]或对应的残差[60]以及方向来表示。相反，为简单起见，我们仅通过两个min-max顶点参数化矩形边界框：

{ [ x min ⁡ y min ⁡ z min ⁡ ] , [ x max ⁡ y max ⁡ z max ⁡ ] } \left\{\left[\begin{array}{lll} x_{\min } y_{\min } & z_{\min } \end{array}\right],\left[\begin{array}{lll} x_{\max } & y_{\max } & z_{\max } \end{array}\right]\right\} { [xminyminzmin],[xmaxymaxzmax]}

神经层：如图4所示，全局特征向量 F g \boldsymbol{F}_{g} Fg通过两个全连接层馈送，其中Leaky ReLU作为非线性激活函数。然后是另外两个平行的全连接层。一层输出一个 6 H 6H 6H维向量，然后将其重新整形为 H × 2 × 3 H \times 2 \times 3 H×2×3张量。 H H H是预定义且固定数量的边界框，整个网络预计最大预测。另一层输出一个 H H H维向量，后跟sigmoid函数来表示边界框分数。分数越高，预测框越有可能包含实例，因此该框更有效。

边界框关联层：给定先前预测的 H H H个边界框，即 B ∈ R H × 2 × 3 B \in \mathbb{R}^{H \times 2 \times 3} B∈RH×2×3，使用表示为 B ‾ ∈ R T × 2 × 3 \overline{\boldsymbol{B}} \in \mathbb{R}^{T \times 2 \times 3} B∈RT×2×3的ground truth框来监督网络，因为在我们的框架中没有预定义的anchors可以将每个预测框追溯到相应的ground truth框。此外，对于每个输入点云 P \boldsymbol{P} P，ground truth框 T T T的数量是不同的，并且通常与预定义的数量 H H H不同，尽管我们可以安全地假设所有输入点云的预定义数量 H ≥ T H \geq T H≥T。此外，预测框或ground truth框都没有框顺序。

图 4：边界框回归分支的架构。在计算多标准损失之前，预测的 H H H个框与 T T T个ground truth框最佳关联。

最优关联公式：为了将 B \boldsymbol{B} B中的唯一预测边界框与 B ‾ \overline{\boldsymbol{B}} B的每个ground truth框相关联，我们将此关联过程表述为最优分配问题。形式上，让 A A A是一个布尔关联矩阵，其中 A i , j = 1 \boldsymbol{A}_{i, j}=1 Ai,j=1，当且仅当第 i i i个预测框被分配给第 j j j个ground truth框。 A A A在本文中也称为关联指数。令 C C C为关联cost矩阵，其中 C i , j \boldsymbol{C}_{i, j} Ci,j表示将第 i i i个预测框分配给第 j j j个ground truth框的cost。基本上，cost C i , j \boldsymbol{C}_{i, j} Ci,j表示两个框之间的相似度；cost越低，两个框就越相似。因此，边界框关联问题是寻找总体cost最小的最优分配矩阵 A A A：

A = arg ⁡ min ⁡ A ∑ i = 1 H ∑ j = 1 T C i , j A i , j subject to ∑ i = 1 H A i , j = 1 , ∑ j = 1 T A i , j ≤ 1 , j ∈ { 1.. T } , i ∈ { 1.. H } ( 1 ) \boldsymbol{A}=\underset{\boldsymbol{A}}{\arg \min } \sum_{i=1}^{H} \sum_{j=1}^{T} \boldsymbol{C}_{i, j} \boldsymbol{A}_{i, j} \quad \text { subject to } \sum_{i=1}^{H} \boldsymbol{A}_{i, j}=1, \sum_{j=1}^{T} \boldsymbol{A}_{i, j} \leq 1, j \in\{1 . . T\}, i \in\{1 . . H\} \quad\quad\quad\quad(1) A=Aargmini=1∑Hj=1∑TCi,jAi,j subject to i=1∑HAi,j=1,j=1∑TAi,j≤1,j∈{ 1..T},i∈{ 1..H}(1)

为了解决上述最优关联问题，现有的Hungarian算法[20； 21]应用。关联矩阵计算：为了评估第 i i i个预测框和第 j j j个ground truth之间的相似性，一个简单直观的标准是两对最小-最大顶点之间的欧几里德距离。然而，它不是最优的。基本上，我们希望预测框包含尽可能多的有效点。如图5所示，输入点云通常是稀疏的，并且在3D空间中分布不均匀。对于相同的ground truth框#0（蓝色），候选框#2（红色）被认为比候选框#1（黑色）要好得多，因为框#2有更多的有效点与#0重叠。因此，在计算cost矩阵 C C C时，应包括有效点的覆盖范围。在本文中，我们考虑以下三个标准：

图 5：稀疏输入点云。

算法1 一种计算预测框内点概率的算法。 H H H是预测边界框 B \boldsymbol{B} B的数量， N N N是点云 P \boldsymbol{P} P中的点数， θ 1 \theta_{1} θ1和 θ 2 \theta_{2} θ2是数值稳定性的超参数。我们在所有实现中使用 θ 1 = 100 \theta_{1} = 100 <

标签：直通组装式连接器矩形连接器he006

锐单商城拥有海量元器件数据手册、 IC替代型号，打造电子元器件IC百科大全！

资讯详情

(NeurIPS 2019) Learning Object Bounding Boxes for 3D Instance Segmentation on Point Clouds

Abstract

1 Introduction

2 3D-BoNet

2.1 Overview

2.2 Bounding Box Prediction

亚马逊云科技宣布基于自研Amazon Graviton4的Amazon EC2 R8g实例正式可用

(NeurIPS 2019) Learning Object Bounding Boxes for 3D Instance Segmentation on Point Clouds

Abstract

1 Introduction

2 3D-BoNet

2.1 Overview

2.2 Bounding Box Prediction

亚马逊云科技宣布基于自研Amazon Graviton4的Amazon EC2 R8g实例正式可用

最近热搜

历史搜索 清除历史记录

历史搜索清除历史记录