文章目录
-
- 摘要
- 1.介绍
- 2.相关工作
-
-
- 2.1 3D Vision Understanding
- 2.2 Unsupervised Domain Adaptation (UDA)
-
- 3.Model
-
-
- 3.1 Problem Definition and Notation
- 3.2 Local Feature Alignment
- 3.3 Global Feature Alignment
- 3.4 训练过程
-
- 4.PointDA-10 Dataset
- 5.实验
-
-
- 5.1 实验设置
- 5.2 PointDA-10数据集的分类结果
- 5.3 定量分析
- 5.4 结果可视化
-
- 6.总结
摘要
域自适应(DA)在广泛的机器学习和计算机视觉任务(即分类、检测和分割)中,该方法得到了显著的改进。然而,很少有方法可以直接在3D域自适应在点云数据上实现。点云数据的独特挑战在于其丰富的空间几何信息,而整个对象的语义是通过包含区域几何结构来实现的。具体来说,大多数都是通用的DA方法难以实现全局特征对齐并且忽略了局部几何信息,因此不适用于3D域对齐。本文提出了一种新的点云数据三维自适应网络(PointDAN)。PointDAN全局和局部功能多层次联合对齐。对于局部对齐,我们提出了动态感觉野的自适应(SA)对齐域可区分局部结构的节点模块建模。为了表示分层缩放的特征,进一步引入节点注意模块来加权对象和域之间的特征SA节点关系。对于全局对齐,采用对抗训练策略学习和对齐跨域的全局特征。由于3D点云DA场景没有一般的评价基准,我们从三个流行的三个开始D对象/场景数据集ModelNet、ShapeNet和ScanNet)提取一个通用基准(即PointDA-10)用于跨域3D对象分类。在PointDA-10上的大量实验表明,我们的模型优于最先进的通用模型DA方法。
1.介绍
3D视觉在现实世界(如自动驾驶汽车、机器人和监控系统)的广泛应用中取得了希望。如今,深度相机或激光雷达传感器捕获了大量的三维点云数据。需要复杂的3D分析视觉和机器学习算法的内容,以便进一步发展。最近,深度神经网络(DNN)3的出现大大提高了3D视觉理解的性能包括分类、检测和分割任务。尽管DNN它取得了令人印象深刻的成功,但它需要大量的标记数据来训练,既耗时又昂贵。这个问题极大地限制了它在现实世界中的推广。
域适配(DA)利用标签丰富的数据集(源域)知识建立模型来解决这个问题,在标签稀缺的数据集(目标域)中具有良好的泛化性。但由于分布在不同域/数据集之间的变化,一个域训练的模型在其他域通常表现不佳。大多数DA该方法将原始特征映射到共享子空间或最小化实例级距(如MMD、CORALetc)混合跨域特征来解决这个问题。目前,受生成性对抗网络(GAN)对抗训练的灵感DA方法,如DANN、ADDA、MCDA等,在DA性能令人满意,并引起了越来越多的关注。它们在鉴别器和生成器之间进行零和博弈,以不变的学习域表示。然而,大多数现有的DA方法主要针对2D视觉任务,调整不同领域之间的分布变化。对于三维点云数据,可以详细描述三维空间中的几何结构,不同的局部结构也有明确的语义意义,如椅腿,反过来形成整个对象的整体语义。如图1所示,两个3D对象在整体情况下可能很难对齐,但有类似的3D局部结构更容易对齐。因此,迫切需要一个领域适应框架来关注3D DA局部几何结构在场景中。 为此,本文介绍了一种基于点的新型无监督域自适应网络(PointDAN),无监督域自适应三维点云数据(UDA)。我们方法的关键是联合调整多尺度,即端到端提供点云数据的全局和局部特征。特别提出了与动态感觉野相关的自适应(SA)节点动态地收集和对齐跨域的局部特征。此外,还设计了一个节点注意模块来探索和解释节点之间的关系及其对齐的贡献。同时,为了调整全球功能,部署了对抗训练策略。因为以前很少针对3,D数据(即点云)的DA我们是3D vision DA一种新的基准测试,名为PointDA-10 dataset。它通过三个流行的数据集(即ModelNet、ShapeNet和ScanNet)由10个重叠类别的样本生成。 贡献:
- 介绍了基于3的新基础D通过局部和全局对齐3点的无监督域自适应方法D对象在不同域的分布。
- 对于局部特征对齐,我们提出了节点注意的自适应(SA)利用局部几何信息,动态收集区域结构,对齐不同区域的局部分布。
- 收集新的3D点云DA基准,命名为PointDA-公平评价310数据集D DA方法。在PointDA-10上的大量实验表明,我们的模型优于最先进的通用模型DA方法。
2.相关工作
2.1 3D Vision Understanding
3D vision多视图、体素网格、3D网格和点云数据。在上述模式中,一组三维坐标{x,y,z}点云是保存三维空间信息最直接的表示。激光雷达传感器可以直接获取点云,从场景分割到自动驾驶等多种三维环境理解应用。PointNet它是第一个直接处理点云的深度神经网络,它提出了对称函数和空间变换网络,以获得对点置换的不变性。然而,局部几何信息对于描述三维空间中的物体至关重要,PointNet但忽略了这一点。因此,最近的工作主要集中在如何有效利用局部特征上。例如,在PointNet 中,一系列PointNet结构应用于不同大小的局部点集,局部特征应分层收集。PointCNN提出了x-Conv来聚合局部pitch中间的特征,自底向上的网络结构,类似于典型的CNN。 点云数据虽然应用广泛,但在标记效率上存在明显的缺点。在贴标签的过程中,人们需要旋转几次,从不同的角度观察来识别物体。在激光雷达扫描点云数据的真实环境中,某些部分也会丢失或堵塞(如桌子失腿),这使得有效标记更加困难。在这种情况下,需要一个特定的基础3D缓解源标记数据与目标未标记数据之间的域间隙。
2.2 Unsupervised Domain Adaptation (UDA)
UDA主要挑战是目标域和源域之间的分布转移(即域差距)。它违背了传统机器学习算法的基本假设,即训练样本和测试样本分布相同。为弥补领域差距,UDA该方法通过特征对齐匹配域之间的边际分布或条件分布。它通过学习映射函数来解决这个问题,将原始图像特征投射到跨域共享特征空间中。大多数算法都试图使类间差异最大化,同时最小化子空间中的类内距离。 除上述方法外,许多基于上述方法的方法DNN由于其强大的表征学习能力,提出了领域自适应方法。这些方法的关键是应用端到端的训练场景DNN学习领域的不变特征。另一种方法是利用对抗训练策略获得域不变表示。它包括识别器和生成器,其中生成器旨在欺骗识别器,直到识别器无法区分两个域之间的特征。这些方法包括对抗区域的自适应(ADDA),域对抗神经网络(DANN),最大分类器差异(MCD)等。 大多数UDA方法都是为2D设计视觉任务,主要关注不同域的整体图像特征对齐。而在三维数据分析任务中,区域和局部几何信息对于实现良好的学习性能至关重要。我们提出了一个基于3的通用基础D点的UDA框架。它保留了局部结构,探索了所有局部特征的全局相关性。进一步采用对抗训练策略,调整源域和目标域的分布和转移。
3.Model
3.1 Problem Definition and Notation
在基于3D点的UDA我们可以访问标签源域 S = { x i s , y i s } i = 1 n s \mathcal{S}=\{x_i^s,y_i^s\}_{i=1}^{n_s}
3.2 Local Feature Alignment
局部几何信息在描述点云对象和域对齐中起着重要的作用。如图1所示,对于相同的“table”类,来自ScanNet的table由于激光雷达扫描遇到障碍物而丢失了部分腿。对齐这两个"table”的关键是提取和匹配相似结构的特征,如桌面,同时忽略不同的部分。为了利用局部几何信息,我们提出自适应选择和更新关键节点,以更好地拟合局部对齐。 这里给出点云中节点的定义。对于每个点云,我们将它的n个局部几何结构表示为n个点集 { S c ∣ S c = { x c ^ , x c 1 , . . . , x c k } , x ⊆ R 3 } c = 1 n \{S_c | S_c=\{\hat{x_c}, x_{c1},..., x_{ck}\}, x \subseteq \R^3\}^n_{c=1} { Sc∣Sc={ xc^,xc1,...,xck},x⊆R3}c=1n,其中第c个区域 S c S_c Sc包含一个节点 x c ^ \hat{x_c} xc^和它周围的k个近邻点 { x c 1 , . . . , x c k } \{x_{c1},..., x_{ck}\} { xc1,...,xck}。节点的位置决定了局部区域的位置以及包含哪些点。 为了获取局部特征,以往的工作通常采用直接采用最远点采样或随机采样来获取中心节点的方法。这些方法保证了对整个点云的完全覆盖。然而,对于域对齐,必须确保这些节点覆盖3D几何空间中具有共同特征的结构,并丢弃特定对象特有的部分。这样,具有相似结构的局部区域更适合对齐,而不常见的区域则会带来负面的迁移影响。 受二维视觉中可变形卷积的启发,我们提出了一种新的几何引导移位学习模型,使输入节点在网络的感受野中自适应。与利用语义特征预测偏移量的可变形卷积不同,我们在学习过程中利用局部边缘向量作为指导。如图2所示,我们的模块将每条边的语义信息转换为它的权重,然后将加权的边向量聚合在一起,得到我们预测的偏移方向。直观地说,预测偏移是由周围具有不同重要性的边缘的投票决定的。该算法首先通过点云上最远的点采样来初始化节点的位置,得到节点,然后将它们最近的邻近点集合在一起形成区域。对于第c个节点,其偏移量计算为: 其中 x ^ \hat{x} x^和 x c j x_{cj} xcj表示节点及其邻接点的位置,所以 x c j − x ^ c x_{cj}-\hat{x}_c xcj−x^c表示边的方向。 v c j v_{cj} vcj和 v ^ c \hat{v}_c v^c是它们从编码器 v = E ( x ∣ Θ E ) v=E(x|\Theta_E) v=E(x∣ΘE)的提取的中层点特征, R T R_T RT是一个卷积图层中用于迁移特征的权重。我们使用PointNet底层的3个特征提取层作为编码器E。 Δ x ^ c \Delta\hat{x}_c Δx^c是第c个节点的预测位置偏移量。 在获得学习偏移 Δ x ^ c \Delta\hat{x}_c Δx^c后,我们通过将偏移加回到节点 x ^ c \hat{x}_c x^c并寻找其k近邻点来实现节点及其区域的自适应更新。 然后,通过收集其区域内的所有点的特征来计算最终的节点特征 v ^ c \hat{v}_c v^c: 其中 R G R_G RG是一个卷积层的权重,用于聚集点特征,其中 R G ∪ R T = R R_G \cup R_T= \mathcal{R} RG∪RT=R,输出节点特征用于局部对齐。为了更好地结合SA节点的特征,我们还按照通过插值策略将它们插回到每个点,并将它们与跳跃连接的原始点特征进行融合。融合后的特征被输入到下一级生成器中进行更高级别的处理。 即使实现SA节点,假设每个SA节点对域对齐的目标贡献相等也是不合理的。Attention模块用于建模节点之间的关系,用于权衡不同SA节点对域对齐的贡献,并在更大的空间尺度上捕捉特征。受通道attention的启发,通过引入具有残差结构的瓶颈网络,我们应用节点attention网络来对每个SA节点的贡献进行建模以进行排列: 其中 z c = E ( v ^ c ( k ) ) z_c=E(\hat{v}_c(k)) zc=E(v^c(k))表示表示第c个节点特征的平均值。 δ ( ⋅ ) 和 φ ( ⋅ ) \delta(\cdot)和\varphi(\cdot) δ(⋅)和φ(⋅)分别表示ReLU函数和Sigmoid函数。 W D W_D WD是1×1卷积核的卷积层的权重集,它按比例 r 减少通道数。通道升级层 W U W_U WU,其中 W U ∪ W D = W W_U \cup W_D= \mathcal{W} WU∪WD= 标签: 3rg传感器3rg4014