P3Depth: Monocular Depth Estimation with a Piecewise Planarity Prior
面向可解释深度网络的单目深度估计
0 Abstract
??单目深度估计对场景理解和后续任务至关重要。本文致力于改进监督方法,其中地面真实值仅用于培训。基于对真实3D我们提出了一种有选择地利用共面像素信息来提高预测深度的方法。我们介绍了一种分段平面先验知识,即种子像素与前者共享相同的平面3D曲面。基于此,我们设计了一个两个头的网络。第一个投输出像素平面级系数,而第二个头输出密集偏移向量场,该向量场识别种子像素的位置,然后使用种子像素的平面稀疏来预测每个位置的深度,预测结果通过学习置信度自适应的和第一个头的初始预测进行融合,已解释与精准局部平面度的潜在偏差。提到的方法可以实现预测规则的深度贴图,边缘锋利。
1 Introduction
??深度估计是计算机视觉的基本问题。它广泛应用于机器人视觉和自动驾驶自行车。相关数据显示,深度信息是执行动作和语义分割最重要的视觉线索。监督单目深度的主要问题是规模模糊,因为同一图像的输入是无限的D生成场景。 ??目前,解决这项任务的趋势是使用完全卷积的神经网络输出密集的深度预测。常用的方法包括基于重建视图的标准监督深度和自监督单目的深度估计。目前,大多数监督方法都是基于像素级损失约束,忽略了3D世界的高度规则会产生分段平滑的深度地图。 ??对3D世界上最常见的几何结构模型是平面描述,平面是局部微深度图的局部泰勒近似,可以很容易地使用三个独立系数进行参数描述。一旦像素与平面相关,变像素的深度可以从相关平面系数中恢复,在某些方法中,可以用来预测学习表示平面。 ??本文采用了上述平面表示方法,但本文不是用它来进行显式平面预测,而是用它作为基于平面的先验知识来定义像素之间的适当输出空间。本网络的第一个头用于输出密集的平面系数,然后将其转换为深度图。在理想情况下,同一平面上的两个像素点应具有相同的平面系数和不同的深度。因此,如果p,q使用p的平面系数来预测q的深度应该是正确的结果。(呃。。。为什么不直接用q的平面系数来预测q的深度,只是为了增加约束? ??我们利用这一特征来学习识别和检测同一平面的种子像素。该方法由分段平面先验知识驱动。对于关联3D平面的每一个像素p,种子像素存在于p领域q,像素q与像素p的平面有关。为了使用上述特性,我们需要预测p-q识别(1)先验知识有效区域(2)区域内的种子像素。因此,我们设计了第二个网络头来输出密集的向量偏移图和信心度图。预测偏移用于重新采样第一头的平面系数,并产生第二深度预测。然后,使用置信图作为权重参数进行两个深度预测的集成权重,主要取决于分段平面试验无效区域的基本深度预测。最后,我们提出了加强我们预测的3平均平面损失D曲面与现实世界的一阶一致性。
2 Related work
??监督单目深度估计是假设地面真实值可用于训练,通过推理单个图像来预测深度信息。早期的方法是Mark3D,在场景中手工绘制分段平面结构,并利用马尔可夫随机场局部学习相关参数。Eigen通过学习从图像到深度图的端到端映射,提出的多尺度网络率先在深度图中使用cnn。目前的研究工作主要在以下几个方向。(1)更先进的网络结构,如残网、卷积神经场、频域多尺度融合登等。(2)更适合深度损失的约束,如反向损失Huber损失、分类损失、顺序回归损失、成对排序损失登。(3)用法线和语义标签联合学习深度。我们的方法属于这一类,通过利用场景的规律性,将深度信息放在适当的位置。其他深度估计包括无监督和半监督的深度估计和基于三维的深度估计。(以下是一些方法的描述,这里省略)几何先验知识引起了广泛的关注,传统上用于多视图立体和三维重建。设计显式深度平面并将这些平面拟合到3D在点云的超像素上。
3 Method
??一个编码器对应两个解码器,第一个解码器用于预测平面系数,并通过平面系数获得深度图Di,第二个解码器输出密集像素偏移O和置信图F,在细化偏移量后,找到种子像素,并通过种子像素的平面系数预测深度图Ds,深度图通过置信图F将深度图Di和Ds加权融合获得深度图Df,将深度图Di,Ds和Df与真值D*进行损失计算,构建约束。 ??本文通过选择性地结合每个像素和种子像素的深度来估计深度。本文采用了平面系数表示来实现像素深度和平面信息的一般表示,并将其推向了平面系数与深度信息之间的分析关系。平面系数表示法的主要优点是,假设两个像素位于同一平面上,可以通过不同像素的平面系数直接计算像素中的深度信息。最后,本文提出了面片级的平均平面损失,有助于网络独立学习规则深度图。 ??监督深度估计可视为从二维像素中预测深度信息I(u,v)为图片,D(u,v)对应的深度图,fθ其中就是映射过程θ为参数,T为训练集,L用于约束预测和实际图像的损失函数D*整个过程可以描述为以下公式。 ??给定深度图D(u,v)我们可以用反向投影将每个像素点投影到3D例如,给定焦距fx,fy和主点(u0,v0),每个像素p(u,v)的三维点P(X,Y,z)满足以下条件。 ??假设反向投影3D点P对应3D场景的平面部分,点-法中的相关方程可以写成nP d=0,其中n=(a,b,c)平面法向量,d将P点坐标带入公式后,即可获得以下公式。 ??通过公式简化后可以得到如下公式,其中α, β, γ, ρ它们都是与平面相关的参数,引入C=(α, β, γ, ρ),C被称为平面系数,因此深度信息Z=h(C,u,v),h是映射函数。 ??本文不直接预测深度,预测平面信息的间接方式也不会带来直接优势。然而,统一平面的两个像素通常具有相同的平面系数C,然而,它有不同的深度,这使得我们利用种子像素的平面系数来预测目标像素的深度。 ??假设像素p位于3D在空间的平面上,这个平面是一样的C,理想情况下,我们只需要预测一个像素q来计算平面上的所有深度。这个像素q被描述为种子像素。为了准确定义种子像素及其相同深度的区域,我们使用神经网络来完成这个过程。 ??对于具有相关平面的像素点p,种子像素点存在于其领域q,这一点也与平面相关,定义p,q偏移量为O(p)=p-q,由于p,q平面系数相同,需要C(p)=C(q),即C(p)=C(p O(p)),重新采样的平面系数计算深度预测公式如下所示。 ??然而,基于种子位置的深度信息并不完全准确,因此第二个编码器也输出了置信图F∈[0,1]最终深度图由两个深度图加权获得。 ??平均平面损失如下。
4 Experimental results
??NYU数据比较。Kitti数据对比。