fig1

摘要

从图像中估计准确的深度是一个挑战，因为它本身是模糊和不适的。虽然最近的工作设计越来越复杂和强大的网络直接回到深度图，但我们选择了CRF优化路径。由于计算量大，CRF通常在邻域之间执行，而不是在整个图中执行。充分利用全连接CRF我们将输入分为窗口，并在每个窗口完全连接CRF优化降低了计算的复杂性，使全连接CRF可行。为了更好地捕捉图中节点之间的关系，我们使用多头注意力机制来计算多头势函数，该函数被传输到网络，以输出优化深度图。然后我们建了一个bottom-up-top-down的结构，其中Neural Window FC CRF模块作为解码器，vision transformer作为编码器。实验表明，与以前的方法相比，我们的方法是KITTI和NYUv数据集的所有指标都显著提高了性能。此外，该方法可直接应用于全景图像（panorama images），并且在MatterPort3D数据集的性能优于以往所有全景图像方法。

1.引言

深度预测是计算机视觉中的一项经典任务，对于三维重建、自动驾驶和机器人航行至关重要。这种视觉任务旨在从单个图像中估计深度图，这是一个不稳定和固有的模糊问题，因为无限的3D场景可以投影到同一个2D场景。因此，这项任务对传统方法来说是一个挑战，通常局限于低维和稀疏距离，或已知和固定对象。

近年来，许多工作使用深度网络直接回到深度图，并取得了良好的性能。然而，由于没有几何限制，大多数工作的重点是设计一个更强大、更复杂的网络。这使得这项任务在没有其他指导的情况下成为一个困难的拟合问题。

图1：Neural Window FC CRF以图像特征 F F F和上层预测 X X X计算每个窗口中的全连接能量进行输入 E E E，然后反馈给网络，输出优化深度图。

在传统的单目深度估计中，马尔可夫随机场有一些方法（MRF）或条件随机场（CRF）构建能量函数。他们利用观察线索，如纹理和位置信息，以及最终预测来构建能量函数，然后优化能量以获得深度预测。这种方法指导深度估计方面得到了证明。然而，由于计算量大，它们仅限于相邻的CRF，而不是全连接CRF（FC CRF），而全连接CRF捕捉图中任何节点之间的关系，并且更强大。

为了应对上述挑战，我们将输入分割到多个窗口，并在每个窗口建立完全连接CRF能量可以大大降低计算的复杂性，使全连接CRF变得可行。为了捕捉图中节点之间的更多关系，我们使用多注意机制来计算CRF的pair-wise势能，构建新的神经CRF如图1所示。用这个Neural Window FC-CRF作为解码器，以及vision transformer作为编码器，我们建立了一个简单的bottom-up-top-down网络估计深度。为了弥补每个窗口的封闭信息（isolation），通过聚合实施窗口移位操作global average pooling解决这些窗口的整体特征FC CRF缺乏全局信息。

在实验中，我们的方法是户外数据集KITTI和室内数据集NYUv2上都比以前的方法有显着的优势。虽然KITTI和NYUv2的最新性能已经饱和了一段时间，但我们的方法进一步大大降低了这两个数据集error。具体而言，KITTI的Abs-Rel error和RMS error分别降低了10.3%和9.8%，NYUv2的Abs-Rel error和RMS error分别降低了7.8%和8.2%。我们的方法是KITTI的在线benchmark在所有提交中排名第一。此外，我们在全景图像中评估了我们的方法。众所周知，为perspective images全景数据集中设计的网络通常表现不佳。值得注意的是，我们的方法仍在全景数据集中MatterPort3D达到新的最先进性能。这表明我们的方法可以处理单目深度预测任务中的常见场景。

2.Related Work

2.1.Traditional Monocular Depth Estimation

在深度学习出现之前，单目深度估计是一项具有挑战性的任务。许多已发表的工作要么局限于估计障碍物的一维距离，要么局限于估计几个已知和固定的物体。然后，Saxena当人们声称局部特征不足以预测像素的深度时，需要考虑整个图像的整体背景来推断深度。因此，他们使用不同训练的马尔可夫机场（MRF）结合多尺度局部和全局图像特征，建模不同像素深度之间的关系。这样，他们就可以从单目线索（如颜色、像素位置、屏蔽、已知对象大小、雾度、散焦等）中推断出良好的深度图。从那时起，传统的方法，MRF和CRF单目深度估计已广泛应用。然而，传统方法仍难以准确估计高分辨率密集深度图。

2.2.Neural Networks Based Monocular Depth

如今，在单目深度估计中，基于神经网络的方法占了大多数benchmark。从图像到深度图的映射学习主要有两种方法。

从图像中的信息聚合中直接回归连续值的深度图。在这种方法中，coarse and fine networks首先引入，然后通过多层局部平面引导层（multi-stage local planar guidance layer）进行改进。基于双向注意力模块，利用前馈特征映射，结合全局上下文过滤模糊性。最近，更多的方法开始使用vision transformer聚合图像信息。
尝试第二种方法depth space将深度预测转化为分类或顺序回归问题。在一些论文中，为了更合理地一些论文采用了增加间距的量化策略。然后，通过神经网络计算自适应容器划分，以实现更好的深度量化。此外，还有其他方法可以引入辅助信息来帮助深度网络训练，如稀疏深度（sparse depth）或语义分割信息。所有这些方法都试图直接从图像特征中返回深度图，这是一个难以拟合的问题。他们的网络结构变得越来越复杂。

与这些工作相反，我们使用全连接CRF构建能量，然后优化能量以获得高质量的深度图。

2.3.Neural CRFs for Monocuar Depth

由于像MRF和CRF这样的图模型在传统深度估计中是有效的，一些方法试图将它们嵌入神经网络。这些方法将像素块视为节点，并进行图优化（graph optimization）。其中一种方法首先使用网络对粗略深度图进行回归，然后利用CRF对其进行细化，CRF的后处理功能被证明是有效的。然而，CRF与神经网络是分离的。为了更好地结合CRF和网络，其他方法将CRF集成到神经网络的层中，并端到端地训练整个框架。但由于计算复杂度高，它们都局限于CRF，而不是全连接的CRF。

在我们的工作中，我们将整个graph划分成多个sub-windows，使得FC-CRF可行。此外，受vision transformer最近工作的启发，我们使用多头注意机制捕捉FC CRF中的pair-wise关系，并提出了一个Neural Window FC-CRF模块。该模块嵌入到网络中起到解码器的作用，使得整个框架可以端到端地进行训练。

3.Neural Window FC-CRF

3.1.全连接条件随机场

在传统方法中，马尔可夫随机场（MRF）或条件随机场（CRF）被用来处理密集的预测任务，如单目深度估计和语义分割。结果表明，基于当前节点和相邻节点的信息，它们在纠正错误预测方面是有效的。具体来说，在图模型中，这些方法有利于将相似的标签指定给空间和颜色接近的节点。

因此，在这项工作中，我们使用CRF来帮助深度预测。由于当前像素的深度预测由一幅图像中的远程像素（long-range pixels）决定，为了增加感受野，我们使用全连接的CRF来构建能量。在图模型中，全连通CRF的能量函数通常定义为： E ( X ) = ∑ i ϕ u ( x i ) + ∑ i j ϕ p ( x i , x j ) E(X)=\sum_{i}\phi_{u}(x_{i})+\sum_{ij}\phi_{p}(x_{i},x_{j}) E(X)=i∑ϕu(xi)+ij∑ϕp(xi,xj)其中， x i x_{i} xi是节点 i i i的预测值， j j j代表图中的其他所有节点。预测器predictor根据图像特征计算每个节点的一元势函数（unary potential function） ϕ u \phi_{u} ϕu。

二元势函数（pair-wise potential function） ϕ p \phi_{p} ϕp连接节点对： ϕ p = μ ( x i , x j ) f ( x i , x j ) g ( I i , I j ) h ( p i , p j ) \phi_{p}=\mu(x_{i},x_{j})f(x_{i},x_{j})g(I_{i},I_{j})h(p_{i},p_{j}) ϕp=μ(xi,xj)f(xi,xj)g(Ii,Ij)h(pi,pj)其中，当 i = j i=j i=j时 μ ( x i , x j ) \mu(x_{i},x_{j}) μ(xi,xj)为1，否则为0。 I i I_{i} Ii是节点 i i i的颜色， p i p_{i} pi是节点 i i i的位置。二元势通常会考虑颜色和位置信息来执行一些启发式惩罚，这使得预测值 x i , x j x_{i},x_{j} xi,xj更合理和合乎逻辑。

在常规CRF中，二元势只计算当前节点和相邻节点之间的边连接。然而，在完全连接的CRF中，需要计算图中当前节点和任何其他节点之间的连接，如图2a所示。

图2：全连接CRF和窗口全连接CRF的图模型。在全连接CRF graph中，以橙色节点为例，它连接到图中的所有其他节点。然而，在窗口全连接的CRF中，橙色节点仅连接到一个窗口内的所有其他节点。

3.2.Window FC-CRF

虽然全连接CRF可以带来全局范围的连接，但其缺点也很明显。一方面，连接图像中所有像素的边的数量很多，这使得这种二元势的计算相当耗费资源。另一方面，像素的深度通常不是由long-range的像素决定的。只需要考虑一定距离内的像素。

因此，在这项工作中，我们提出了基于窗口的全连接CRF。我们将图像分割成多个patch-based的窗口。每个窗口包含 N × N N\times N N×N个图像块，每个图像块由 n × n n\times n n×n个像素组成。在我们的图模型中，每个patch被视为一个节点而不是每个像素。一个窗口内的所有patch都用边完全连接，而不同窗口的patch不连接，如图2b所示。在这种情况下，二元势的计算只考虑一个窗口内的patch，因此计算复杂度显著降低。

选择一张具有 h × w h\times w h×w patches 的图像，FC-CRF和Window FC-CRF的计算复杂度为： Ω ( F C − C R F s ) = h w × Ω ( ϕ u ) + h w ( h w − 1 ) × Ω ( ϕ p ) \Omega(FC-CRFs)=hw\times\Omega(\phi_{u})+hw(hw-1)\times\Omega(\phi_{p}) Ω(FC−CRFs)=hw×Ω(ϕu)+hw(hw−1)×Ω(ϕp) Ω ( W i n d o w F C − C R F s ) = h w × Ω ( ϕ u ) + h w ( N 2 − 1 ) × Ω ( ϕ p ) \Omega(WindowFC-CRFs)=hw\times\Omega(\phi_{u})+hw(N^{2}-1)\times\Omega(\phi_{p}) Ω(WindowFC−CRFs)=hw×Ω(ϕu)+hw(N2−1)×Ω(ϕp)其中， N N N是窗口的大小。

在窗口全连接CRF中，所有窗口都不重叠，这意味着任何窗口之间都没有信息连接。然而，相邻的窗口是有联系的。为了解决这种窗口之间的isolation，我们在图像中通过 ( N / 2 , N / 2 ) (N/2,N/2) (N/2,N/2)的patches移动窗口，并且计算移动窗口后的能量。这样，孤立的相邻像素在移位窗口中连接起来。因此，每次计算能量函数时，我们都会依次计算两个能量函数，一个用于原始窗口，另一个用于移位窗口。

3.3.Neural Window FC-CRF

在传统的CRF中，一元势函数通常由预测值的分布决定，比如 ϕ u ( x i ) = − l o g P ( x i ∣ I ) \phi_{u}(x_{i})=-logP(x_{i}|I) ϕu(xi)=−logP(xi∣I)其中 I I I是输入的彩色图像， P P P是值预测的概率分布。二元势函数根据像素对的颜色和位置计算： ϕ p ( x i , x j ) = μ ( x i , x j ) ∣ ∣ x i − x j ∣ ∣ e − ∣ ∣ I i − I j ∣ ∣ 2 σ 2 e − ∣ ∣ p i − p j ∣ ∣ 2 σ 2 \phi_{p}(x_{i},x_{j})=\mu(x_{i},x_{j})||x_{i}-x_{j}||e^{-\frac{||I_{i}-I_{j}||}{2\sigma^{2}}}e^{-\frac{||p_{i}-p_{j}||}{2\sigma^{2}}} ϕp(xi,xj)=μ(xi,xj)∣∣xi−xj∣∣e−2σ2∣∣Ii−Ij∣∣e−2σ2∣∣pi−pj∣∣这种势函数鼓励不同颜色和远处的像素进行不同的值预测，同时惩罚相似颜色和相邻像素中的值差异。

这些势函数是手工设计的，不能太复杂。因此，它们很难表示高维信息和描述复杂的连接。因此，在这项工作中，我们建议使用神经网络来执行势函数的功能。

对于一元势，它是根据图像特征计算出来的，因此可以通过网络直接获得：

标签： q24j4pj连接器

锐单商城拥有海量元器件数据手册、 IC替代型号，打造电子元器件IC百科大全！

资讯详情

用于单目深度估计的神经窗口全连接CRF(CVPR2022)

目录

摘要