Sensor Fusion 论文精读系列(3)
《PointRCNN: 3D Object Proposal Generation and Detection from Point Cloud》
1 简介
《PointRcnn》发表于2019 arXiv,香港中文大学时小帅。
2 摘要
本文提出了原点云的三维对象检测PointRCNN。整个框架由两个阶段组成:第一阶段自下向上的三维提案生成第二阶段为详细规范坐标下的策略,以获得最终的测试结果。我们的第一阶段网络不像以前的方法那样,从RGB图像或投影点云产生鸟视图或元素,但将整个场景点云分为前景点和背景,从下到上产生少量高质量的3D提案。在第二阶段,子网络将每个方案的收集点转换为标准坐标,以学习更好的局部空间特征,并结合第一阶段每个点的整体语义特征,以实现准确的盒子细化和可信度预测。在KITTI在数据集的三维检测基准上进行的大量实验表明,我们提出的架构只使用点云作为输入,其性能优于最先进的方法。
3 引言
基于这一观察结果,我们提出了一种新的两阶段三维对象检测框架PointRCNN,它直接运行在三维点云上,实现鲁棒和准确的三维检测性能(见图)。 该框架包括两个阶段。第一阶段旨在在自下而上的方案中生成三维边界盒方案。地面真相分割掩码采用三维边界框生成。第一阶段是前景点,少量边界框建议从分割点生成。这个策略避免在整个三维空间中使用大量的三维锚盒,并且节省了大量的计算。 PointRCNN第二阶段对标准化的三维盒进行细化。生成三维建议后,从第一阶段学到的点表示采用点云区域池操作。不同于现有直接估计全球框坐标的三维方法,合并的三维点转换为标准坐标,并与合并的点特征和第一阶段的分割掩模相结合,用于学习相对坐标的细化。该策略充分利用了鲁棒第一阶段分割和提案子网络提供的所有信息。我们还提出了更有效的坐标改进生成和改进基于箱的三维箱回归损失,消融实验表明,它的回归损失收敛速度比其他三维箱快,召回率更高。 我们的贡献可以概括为:(1)提出了一种新的基于自下而上的点云的三维边界盒提案生成算法,该算法通过将点云分割为前景对象和背景,生成少量高质量的三维提案。从分割中学到的点不仅擅长生成提案,而且有助于以后细化框架。(2)提出的标准化三维边界框改进利用了我们从第一阶段产生的高召回率框建议,并学习了基于箱损失预测的标准坐标中箱坐标的改进。(3)我们提出的3D检测框架PointRCNN截至2018年11月16日,优于最先进的方法具有显著优势KITTI的3D在测试板上,它在所有已发表的作品中排名第一。
3. PointRCNN for Point Cloud 3D Detection
本节提出了我们提出的两阶段检测框架,PointRCNN,用于检测不规则点云中的三维物体。整体结构如图所示。它由自下而上的三维提案生成阶段和规范的边界框细化阶段组成。 我们提出了一点云分割的第一阶段子网络,我们提出了一种精确的三维边界框生成算法。我们观察到三维场景中的物体是自然分离的,不会重叠。所有三维对象的分割代码都可以通过其三维边界框注释直接获得,即三维框中的三维点被视为前景点。因此,我们建议使用它自下而向上生成三维边界框的方法。具体来说,我们学习点云的特征来分割原始点云,并从分割的前景点生成三维建议。基于这种自下而上的策略,我们的方法避免了在三维空间中使用大量的预定义三维框架,并显著限制了三维边界框生成的搜索空间。实验表明,我们提出的三维盒提案比基于三维锚的提案生成方法具有更高的召回率。 采用PointNet 作为点云特征提取器。 前景点提供了关于预测其相关对象的位置和方向的丰富信息。通过学习对前景点的分割,点云网络被迫捕获上下文信息,以进行准确的点向预测,这也有利于三维数据盒的生成。我们设计了自下而上的三维方案生成方法,直接从前景点生成三维盒方案,即同时生成前景分割和三维盒方案。 给出了骨干点云网络编码的点向特征。我们增加了一个分割头来估计前景模型,另一个盒式回归头用于生成三维方案。对于点分割,地面真相分割代码自然由三维地面真相盒提供。前景点的数量通常远小于大型户外场景的背景点。因此,我们使用焦点损失[19]来处理类别不平衡 正如我们上面提到的,一个三维框架的回归头也被用来生成具有前景点分割的自下而上的三维建议。在训练过程中,我们只需要盒子从前景返回到三维边界框的位置。请注意,虽然框架没有从背景点返回,但由于点云网络的接受域,这些点也提供了生成框架的支持信息。 激光雷达坐标系中的三维边界框表示(x、y、z、h、w、l、θ),其中(x、y、z)对象中心位置,(h、w、l)是对象的大小,θ是鸟视图中的对象方向。为了约束三维框架的生成,我们提出了基于bin三维边界框用于估计对象的回归损失。 如图所示,用于估计物体的中心位置。 我们沿X轴和Z轴将每个前景点的周边区域分成一系列离散区域bin。具体来说,我们为当前景点的每个X轴和Z轴设置了搜索范围S,每个一维搜索范围分为均匀长度δ的bin,以表示X-Z平面上不同对象的中心(x、z)。我们观察到,基于交叉熵损失的X轴和Z轴使用bin分类不光滑,不光滑L鲁棒的中心定位可以更准确地回归损失。 X或者Z轴的定位损失由两个项组成,一个项是关于每个X和Z轴的bin另一个项目是关于分类的bin残余回归。对于垂直Y轴的中心位置y,我们直接使用平滑L1因为大多数对象的y值都在很小的范围内,所以会回归损失。L损失足以获得准确的y值。因此,定位目标可以表示为 其中(x§、y§、z§)是前景感兴趣点的坐标,(xp、yp、zp)是对应对象的中心坐标,bin(xp)和bin(zp)是X轴和Z轴地面的真实赋值,res(xp)和res(zp)是指定箱内进一步细化的地面真实残值,C是标准化的bin长度。 ==方向θ和大小(h、w、l)估计目标与[25]相似。我们将方向2π分为n箱,分为x或xz同样的预测计算bin分类目标bin(θp)以及剩余的回归目标res(θp)。==计算残差(res(hp)、res(wp)、res§l)w.r.t,直接回到物体的大小(h、w、l)。整个训练集中在每个类的平均对象大小上。 在推理阶段,的推理阶段bin的预测参数x、z、θ,我们首先选择最高的预测信心bin中心,添加预测残的参数,包括其他直接回归的参数,包括y、h、w和l,我们将预测的剩余值添加到它们的初始值中。具有不同训练损失项的整体三维边界框回归损失Lreg可以表示为 其中Npos是前景点的数量,binu)和resu)是预测的bin值与前景点的残差,binu和resu是上述计算的地面真实目标,Fcls表示交叉熵分类损失,Freg表示平滑L1损失。 在获得三维边界框方案后,我们的目标是根据之前生成的盒子方案来完善盒子的位置和方向。为了了解每个方案的更具体的局部特征,我们建议根据每个三维方案的位置从第一阶段的三维点及其相应的点特征。 对于每一个3D盒提案,bi=(xi,yi,zi,hi,wi,li,θi),让我们稍微放大它,创建一个新的3D盒,bei=(xi,yi,zi,hi η,wi η,li η,θi)从上下文中编码额外信息,包括η用于扩大方框大小的恒定值。