资讯详情

用于单目深度估计的神经窗口全连接CRF(CVPR2022)

fig1

目录

  • 摘要
  • 1.引言
  • 2.Related Work
    • 2.1.Traditional Monocular Depth Estimation
    • 2.2.Neural Networks Based Monocular Depth
    • 2.3.Neural CRFs for Monocular Depth
  • 3.Neural Window FC-CRF
    • 3.1.随机场全连接条件
    • 3.2.Window FC-CRF
    • 3.3.Neural Window FC-CRF
    • 3.4.Network Structure
  • 4.Experiments

摘要

从图像中估计准确的深度是一个挑战,因为它本身是模糊和不适的。虽然最近的工作设计越来越复杂和强大的网络直接回到深度图,但我们选择了CRF优化路径。由于计算量大,CRF通常在邻域之间执行,而不是在整个图中执行。充分利用全连接CRF我们将输入分为窗口,并在每个窗口完全连接CRF优化降低了计算的复杂性,使全连接CRF可行。为了更好地捕捉图中节点之间的关系,我们使用多头注意力机制来计算多头势函数,该函数被传输到网络,以输出优化深度图。然后我们建了一个bottom-up-top-down的结构,其中Neural Window FC CRF模块作为解码器,vision transformer作为编码器。实验表明,与以前的方法相比,我们的方法是KITTI和NYUv数据集的所有指标都显著提高了性能。此外,该方法可直接应用于全景图像(panorama images),并且在MatterPort3D数据集的性能优于以往所有全景图像方法。

1.引言

深度预测是计算机视觉中的一项经典任务,对于三维重建、自动驾驶和机器人航行至关重要。这种视觉任务旨在从单个图像中估计深度图,这是一个不稳定和固有的模糊问题,因为无限的3D场景可以投影到同一个2D场景。因此,这项任务对传统方法来说是一个挑战,通常局限于低维和稀疏距离,或已知和固定对象。

近年来,许多工作使用深度网络直接回到深度图,并取得了良好的性能。然而,由于没有几何限制,大多数工作的重点是设计一个更强大、更复杂的网络。这使得这项任务在没有其他指导的情况下成为一个困难的拟合问题。

  • 图1:Neural Window FC CRF以图像特征 F F F和上层预测 X X X计算每个窗口中的全连接能量进行输入 E E E,然后反馈给网络,输出优化深度图。

在传统的单目深度估计中,马尔可夫随机场有一些方法(MRF)或条件随机场(CRF)构建能量函数。他们利用观察线索,如纹理和位置信息,以及最终预测来构建能量函数,然后优化能量以获得深度预测。这种方法指导深度估计方面得到了证明。然而,由于计算量大,它们仅限于相邻的CRF,而不是全连接CRF(FC CRF),而全连接CRF捕捉图中任何节点之间的关系,并且更强大。

为了应对上述挑战,我们将输入分割到多个窗口,并在每个窗口建立完全连接CRF能量可以大大降低计算的复杂性,使全连接CRF变得可行。为了捕捉图中节点之间的更多关系,我们使用多注意机制来计算CRF的pair-wise势能,构建新的神经CRF如图1所示。用这个Neural Window FC-CRF作为解码器,以及vision transformer作为编码器,我们建立了一个简单的bottom-up-top-down网络估计深度。为了弥补每个窗口的封闭信息(isolation),通过聚合实施窗口移位操作global average pooling解决这些窗口的整体特征FC CRF缺乏全局信息。

在实验中,我们的方法是户外数据集KITTI和室内数据集NYUv2上都比以前的方法有显着的优势。虽然KITTI和NYUv2的最新性能已经饱和了一段时间,但我们的方法进一步大大降低了这两个数据集error。具体而言,KITTI的Abs-Rel error和RMS error分别降低了10.3%和9.8%,NYUv2的Abs-Rel error和RMS error分别降低了7.8%和8.2%。我们的方法是KITTI的在线benchmark在所有提交中排名第一。此外,我们在全景图像中评估了我们的方法。众所周知,为perspective images全景数据集中设计的网络通常表现不佳。值得注意的是,我们的方法仍在全景数据集中MatterPort3D达到新的最先进性能。这表明我们的方法可以处理单目深度预测任务中的常见场景。

2.Related Work

2.1.Traditional Monocular Depth Estimation

在深度学习出现之前,单目深度估计是一项具有挑战性的任务。许多已发表的工作要么局限于估计障碍物的一维距离,要么局限于估计几个已知和固定的物体。然后,Saxena当人们声称局部特征不足以预测像素的深度时,需要考虑整个图像的整体背景来推断深度。因此,他们使用不同训练的马尔可夫机场(MRF)结合多尺度局部和全局图像特征,建模不同像素深度之间的关系。这样,他们就可以从单目线索(如颜色、像素位置、屏蔽、已知对象大小、雾度、散焦等)中推断出良好的深度图。从那时起,传统的方法,MRF和CRF单目深度估计已广泛应用。然而,

2.2.Neural Networks Based Monocular Depth

如今,在单目深度估计中,基于神经网络的方法占了大多数benchmark。从图像到深度图的映射学习主要有两种方法。

  • 从图像中的信息聚合中直接回归连续值的深度图。在这种方法中,coarse and fine networks首先引入,然后通过多层局部平面引导层(multi-stage local planar guidance layer)进行改进。基于双向注意力模块,利用前馈特征映射,结合全局上下文过滤模糊性。最近,更多的方法开始使用vision transformer聚合图像信息。
  • 尝试第二种方法depth space将深度预测转化为分类或顺序回归问题。在一些论文中,为了更合理地一些论文采用了增加间距的量化策略。然后,通过神经网络计算自适应容器划分,以实现更好的深度量化。此外,还有其他方法可以引入辅助信息来帮助深度网络训练,如稀疏深度(sparse depth)或语义分割信息。。他们的网络结构变得越来越复杂。

与这些工作相反,我们使用全连接CRF构建能量,然后优化能量以获得高质量的深度图。

2.3.Neural CRFs for Monocuar Depth

由于像MRF和CRF这样的图模型在传统深度估计中是有效的,一些方法试图将它们嵌入神经网络。这些方法将像素块视为节点,并进行图优化(graph optimization)。,CRF的后处理功能被证明是有效的。然而,CRF与神经网络是分离的。为了更好地结合CRF和网络,其他方法将CRF集成到神经网络的层中,并端到端地训练整个框架。但由于计算复杂度高,它们都局限于CRF,而不是全连接的CRF。

在我们的工作中,我们将整个graph划分成多个sub-windows,使得FC-CRF可行。此外,受vision transformer最近工作的启发,我们使用多头注意机制捕捉FC CRF中的pair-wise关系,并提出了一个Neural Window FC-CRF模块。该模块嵌入到网络中起到解码器的作用,使得整个框架可以端到端地进行训练。

3.Neural Window FC-CRF

3.1.全连接条件随机场

在传统方法中,马尔可夫随机场(MRF)或条件随机场(CRF)被用来处理密集的预测任务,如单目深度估计和语义分割。结果表明,基于当前节点和相邻节点的信息,它们在纠正错误预测方面是有效的。标签指定给空间和颜色接近的节点。

因此,在这项工作中,我们使用CRF来帮助深度预测。由于当前像素的深度预测由一幅图像中的远程像素(long-range pixels)决定,为了增加感受野,我们使用全连接的CRF来构建能量。在图模型中,全连通CRF的能量函数通常定义为: E ( X ) = ∑ i ϕ u ( x i ) + ∑ i j ϕ p ( x i , x j ) E(X)=\sum_{i}\phi_{u}(x_{i})+\sum_{ij}\phi_{p}(x_{i},x_{j}) E(X)=i∑​ϕu​(xi​)+ij∑​ϕp​(xi​,xj​)其中, x i x_{i} xi​是节点 i i i的预测值, j j j代表图中的其他所有节点。预测器predictor根据图像特征计算每个节点的一元势函数(unary potential function) ϕ u \phi_{u} ϕu​。

二元势函数(pair-wise potential function) ϕ p \phi_{p} ϕp​连接节点对: ϕ p = μ ( x i , x j ) f ( x i , x j ) g ( I i , I j ) h ( p i , p j ) \phi_{p}=\mu(x_{i},x_{j})f(x_{i},x_{j})g(I_{i},I_{j})h(p_{i},p_{j}) ϕp​=μ(xi​,xj​)f(xi​,xj​)g(Ii​,Ij​)h(pi​,pj​)其中,当 i = j i=j i=j时 μ ( x i , x j ) \mu(x_{i},x_{j}) μ(xi​,xj​)为1,否则为0。 I i I_{i} Ii​是节点 i i i的颜色, p i p_{i} pi​是节点 i i i的位置。二元势通常会考虑颜色和位置信息来执行一些启发式惩罚,这使得预测值 x i , x j x_{i},x_{j} xi​,xj​更合理和合乎逻辑。

在常规CRF中,二元势只计算当前节点和相邻节点之间的边连接。然而,在完全连接的CRF中,需要计算图中当前节点和任何其他节点之间的连接,如图2a所示。

  • 图2:全连接CRF和窗口全连接CRF的图模型。在全连接CRF graph中,以橙色节点为例,它连接到图中的所有其他节点。然而,在窗口全连接的CRF中,橙色节点仅连接到一个窗口内的所有其他节点。

3.2.Window FC-CRF

虽然全连接CRF可以带来全局范围的连接,但其缺点也很明显。一方面,连接图像中所有像素的边的数量很多,这使得这种二元势的计算相当耗费资源。另一方面,像素的深度通常不是由long-range的像素决定的。只需要考虑一定距离内的像素。

因此,在这项工作中,我们提出了基于窗口的全连接CRF。我们将图像分割成多个patch-based的窗口。每个窗口包含 N × N N\times N N×N个图像块,每个图像块由 n × n n\times n n×n个像素组成。在我们的图模型中,每个patch被视为一个节点而不是每个像素。一个窗口内的所有patch都用边完全连接,而不同窗口的patch不连接,如图2b所示。在这种情况下,二元势的计算只考虑一个窗口内的patch,因此计算复杂度显著降低。

选择一张具有 h × w h\times w h×w patches 的图像,FC-CRF和Window FC-CRF的计算复杂度为: Ω ( F C − C R F s ) = h w × Ω ( ϕ u ) + h w ( h w − 1 ) × Ω ( ϕ p ) \Omega(FC-CRFs)=hw\times\Omega(\phi_{u})+hw(hw-1)\times\Omega(\phi_{p}) Ω(FC−CRFs)=hw×Ω(ϕu​)+hw(hw−1)×Ω(ϕp​) Ω ( W i n d o w F C − C R F s ) = h w × Ω ( ϕ u ) + h w ( N 2 − 1 ) × Ω ( ϕ p ) \Omega(WindowFC-CRFs)=hw\times\Omega(\phi_{u})+hw(N^{2}-1)\times\Omega(\phi_{p}) Ω(WindowFC−CRFs)=hw×Ω(ϕu​)+hw(N2−1)×Ω(ϕp​)其中, N N N是窗口的大小。

在窗口全连接CRF中,所有窗口都不重叠,这意味着任何窗口之间都没有信息连接。然而,相邻的窗口是有联系的。为了解决这种窗口之间的isolation,我们在图像中通过 ( N / 2 , N / 2 ) (N/2,N/2) (N/2,N/2)的patches移动窗口,并且计算移动窗口后的能量。这样,孤立的相邻像素在移位窗口中连接起来。因此,每次计算能量函数时,我们都会依次计算两个能量函数,一个用于原始窗口,另一个用于移位窗口。

3.3.Neural Window FC-CRF

在传统的CRF中,一元势函数通常由预测值的分布决定,比如 ϕ u ( x i ) = − l o g P ( x i ∣ I ) \phi_{u}(x_{i})=-logP(x_{i}|I) ϕu​(xi​)=−logP(xi​∣I)其中 I I I是输入的彩色图像, P P P是值预测的概率分布。二元势函数根据像素对的颜色和位置计算: ϕ p ( x i , x j ) = μ ( x i , x j ) ∣ ∣ x i − x j ∣ ∣ e − ∣ ∣ I i − I j ∣ ∣ 2 σ 2 e − ∣ ∣ p i − p j ∣ ∣ 2 σ 2 \phi_{p}(x_{i},x_{j})=\mu(x_{i},x_{j})||x_{i}-x_{j}||e^{-\frac{||I_{i}-I_{j}||}{2\sigma^{2}}}e^{-\frac{||p_{i}-p_{j}||}{2\sigma^{2}}} ϕp​(xi​,xj​)=μ(xi​,xj​)∣∣xi​−xj​∣∣e−2σ2∣∣Ii​−Ij​∣∣​e−2σ2∣∣pi​−pj​∣∣​这种势函数鼓励不同颜色和远处的像素进行不同的值预测,同时惩罚相似颜色和相邻像素中的值差异。

这些势函数是手工设计的,不能太复杂。因此,它们很难表示高维信息和描述复杂的连接。因此,在这项工作中,我们建议使用神经网络来执行势函数的功能。

对于一元势,它是根据图像特征计算出来的,因此可以通过网络直接获得:

标签: q24j4pj连接器

锐单商城拥有海量元器件数据手册IC替代型号,打造 电子元器件IC百科大全!

锐单商城 - 一站式电子元器件采购平台