来源丨我爱计算机视觉
光场相机可以将3D场景编码到4D光场图像,以记录光的强度和方向信息。近年来,卷积神经网络广泛应用于各种光场图像处理任务中。然而,由于光场的空间信息与角度信息的视差高度耦合,现有的卷积网络难以有效地处理高维光场数据。
鉴于此,本文提出了一种通用的光场解耦机制,通过设计一系列解耦卷积,将高维光场解耦到多个低维子空间,实现了光场数据的有效处理。基于提到的解耦机制,分别设计了空间超分辨率、角度超分辨率和视差估计任务DistgSSR、DistgASR以及DistgDisp三个网络。
实验结果表明,本文提到的网络在上述三项任务中具有一致性和优异性能,验证了光场解耦机制的有效性、高效性和通用性。相关论文收录IEEE TPAMI代码已开源的期刊。
论文:https://arxiv.org/pdf/2202.10603.pdf
主页:https://yingqianwang.github.io/DistgLF/
▊引言(Introduction)
光场(light field,LF)相机可以同时记录光的强度和角度信息,广泛应用于聚焦、深度估计、虚拟现实和增强现实。随着深度学习的发展,卷积神经网络应用于各种光场图像处理任务,并不断提高性能。
然而,光场图像的空间信息与角度信息高度耦合(disparity),使得卷积神经网络难以直接从高维光场中提取有用信息。现有方法通常采用分而治之的策略,通过处理一些光场图像(如相邻视角、极平面图像或行列子光场)来降低数据维度。虽然这种策略可以解决高维光场数据处理的问题,但它不能充分利用所有视角的信息,从而限制算法的性能。
本文提出了一个通用性光场解耦机制实现高维光场数据的处理。基于光场图像的结构先验,设计了空间、角度和极平面的解耦卷积,将光场解耦到不同的二维子空间,然后通过设计相应的模块整合不同子空间提取的信息。
与基于卷积网络的现有光场图像处理框架相比,本文提到的解耦机制具有三个显著优点:
结合光场的结构先验,充分利用所有视角的信息;
2)降低了单个子空间内卷积层的学习难度,从而提高了网络的性能;
3)提到的解耦机制是通用的,可应用于不同的光场图像处理任务。
本文所提光场解耦机制,本文分别提出DistgSSR、DistgASR以及DistgDisp三个网络用于三个典型的光场图像处理任务:空间超分辨率、角度超分辨率和视差估计。实验结果表明,本文提到的网络在上述三项任务中具有一致性和优异性能,验证了光场解耦机制的有效性、高效性和通用性。
▊光场解耦机制(The LF Disentangling Mechanism)
光场的表现和可视化
图1 光场图像阵列图像(SAI)极平面图像(EPI)示意图
光场图像在不同图像具有不同的特性。如图1所示(a)4维光场可视化为U×V阵列子图像(sub-aperture image,SAI),每幅图像的分辨率都是H×W。
此外,如图1(b)和图1(c)所示,当固定一个空间维度(如h)角度维度(如u)4D光场可视化为极平面图像(epipolar plane image,EPI)。场景中物体在不同视角图像上的投影是极平面图像上的斜线,斜线的斜率反映了不同视角图像之间物体的视差(disparity),与物体的深度有关。
图2 光场图像阵列图像(SAI)宏像元图像(MacPI)示意图
如果按照视角顺序排列每个阵列图像相同空间位置的像元,则可以构成图2(b)所示宏像元图像(macro-pixel image,MacPI)。在宏像元图像中,每个视角的信息被紧密地编码在空间相邻的像元中。基于这种特殊的结构,本文通过设计特定的卷积算子,灵活地结合特定维度的信息,实现了光场的解耦。
光场解耦机制
图3 本文提示了光场解耦卷积算子示意图。图中红色卷积为角度特征提取子(AFE),提取紫色卷积的空间特征(SFE),绿色卷积水平/垂直极平面特征提取子(EFE-H/EFE-V)。
图3为简化的光场宏像元图像示意图。在这个例子中,光场的空间分辨率为3×4.角度分辨率为3×3.图中涂有不同背景色的区域表示不同的宏像元,每个宏像元中的像元标有不同的字母,表示其视角不同。光场图像的角度分辨率为A×A,解耦卷积算子的定义如下:
-提取空间特征SFE定义为kernel size=3×3,stride=1,dilation=A的卷积;
-角度特征提取子AFE定义为kernel size=A×A,stride=A的卷积;
-水平极平面特征提取子EFE-H定义为kernel size=1×(A^2),stride=[1, A]的卷积;
-垂直极平面特征提取子EFE-V定义为kernel size= (A^2)×1,stride=[A ,1]的卷积;
将AFE应用于宏像元图像时,只有单个宏像元(不同视角、相同空间位置)的像元参与卷积运算,而不同宏像元之间的信息不交换;将SFE应用于宏像元图像时,只有属于相同视角的像元参与卷积运算,而属于不同视角的像元不交换。
因此,通过采用AFE与SFE,4D光场可以解耦U-V和H-W两个正交的二维子空间使后续的卷积层能够独立处理光场的空间和角度特征,降低了光场特征学习的难度。
此外,考虑到极平面图像中的斜线能很好地反映空间与角度之间的关系EFE用于宏像元图像(等价于极平面图像)A×A卷积可以解耦4维光场U-H和V-W两个相互正交的二维极平面空间。结合同行(列)视角的局部空间角度信息,可以增强网络与光场空间角度相关的建模能力。
上述特征提取物(解耦卷积)可以将4D光场解耦到不同的子空间。在每个子空间中,光场的特征分布更有规律,从而降低了卷积层学习特征的难度。在各种光场图像处理任务中应用解耦机制时,不同类型的解耦卷积可以组合成不同的模块。通过堆叠多个解耦模块,提到的解耦卷积可以实现协同工作,多子空间可以共同学习复杂的光场数据,通过扩大网络的感觉野度来覆盖空变的视差。
▊基于光场解耦的空间超分辨率(DistgSSR)
光场空间超分辨(LF spatial super-resolution),也常被称为光场图像超分辨(LF image super-resolution),通过低分辨率光场图像(如128)×重建高分辨率光场图像(如512×512像素)。基于所提光场解耦机制,该文构建了用于空间超分辨的DistgSSR网络。
网络结构
图4 DistgSSR网络结构图
DistgSSR如图4所示,该网络将具有低分辨率(HA×WA)高分辨率的光场图像恢复(αHA×αWA)光场图像,其中α(α=2, 4)空间采样系数。
性能比较
本文在5个公共数据集中DistgSSR结果如下:
表1 不同图像的超分辨方法PSNR与SSIM比较数值结果
由表1可见,DistgSSR可以在每个数据集中获得领先的性能。图5显示了不同超分辨算法的视觉效果,DistgSSR能产生更真实、更丰富的细节,能更好地保持光场的结构特征(EPI线更清晰)。
图5 不同图像超分辨方法的视觉效果比较
表2比较了不同图像超分辨算法的运行效率和性能。如表所示,即使将DistgSSR主通道数从64减少到32(参数减少到原模型的1/4),网络仍能达到领先的超分辨率,参数和计算量远小于resLF、LF-InterNet、LF-DFnet等网络。
这主要是因为光场通过提到的解耦机制解耦到不同的子空间,降低了卷积网络学习特征映射的难度,因此更好的性能可以通过较少的参数来实现。这充分说明了提到的解耦机制在空间超分辨任务中的有效性。
表2 不同超分辨方法的运行效率比较
以下视频显示DistgSSR网络输出的光场不仅细节丰富,而且角度一致性更高。
视频链接:https://wyqdatabase.s3.us-west-1.amazonaws.com/DistgLF-SpatialSR.mp4
▊超分辨率基于光场解耦的角度(DistgASR)
光场角超分辨(LF angular SR),也常被称为光场重建(LF reconstruction)或视角合成(view synthesis),用于通过角度维度稀疏采样的光场(如2)×2视角)重建密集视角采样的光场(如7×7视角)。基于提光场解耦机制,本文构建了角度超分辨率DistgASR网络。
网络结构
图6 DistgASR网络结构图
DistgASR网络结构如图6所示,该网络将稀疏采样(HA×WA)光场图像恢复为密集采样(βHA×βWA)光场图像,其中β为度上采样系数(对于2×2→7×7的角度超分辨而言β=7/2)。
算法性能比较
该文在5个公开数据集上将DistgASR与领域多个角度超分辨算法进行了比较,结果如下:
表3 不同光场角度超分辨方法PSNR与SSIM数值结果比较
由表3可见,DistgASR在4个数据集上取得最优的光场重建性能。图7展示了不同角度超分辨算法的视觉效果与重建误差,DistgASR能够更加精确地重建出新视角,且能够较好地保持光场的结构特性(EPI线更加清晰)。以上结果验证了该文所提解耦机制在光场角度超分辨任务上的有效性。
图7 不同光场角度超分辨方法视觉效果与重建误差比较
以下视频展示了DistgASR网络重建出的光场具有丰富的细节和更高的角度一致性。
视频链接:https://wyqdatabase.s3.us-west-1.amazonaws.com/DistgLF-AngularSR.mp4
▊ 基于光场解耦的视差估计(DistgDisp)
光场视差估计(LF disparity estimation),也常被称为光场深度估计(LF depth estimation),旨在估计场景中的物体在各个视角图像之间的相对位移值。由于视差与光场相机的基线长度以及物体所处的深度相关,因此可以通过视差推断出物体所在的深度。基于所提光场解耦机制,该文构建了用于光场视差估计的DistgDisp网络。
网络结构
图8 DistgDisp网络结构图
如图8所示,DistgDisp网络的输入是宏像元形式的光场图像,输出是中心视角的视差图。网络主要分为 特征提取、匹配代价构建、匹配代价聚合 以及 视差回归 四个阶段。DistgDisp网络在特征提取阶段采用含批归一化的SFE对输入光场的空间邻域信息进行解耦与建模。
在匹配代价构建阶段,DistgDisp网络基于所提解耦机制设计了视差选择性角度特征提取子(disparity-selective angular feature extractor,DS-AFE)。将DS-AFE应用于宏像元图像可以实现预定视差下的角度信息提取,即匹配代价的构建。
算法性能比较
该文在HCI 4D LF Benchmark上将DistgDisp与领域多个视差估计算法进行了比较,结果如下。
表4 不同光场视差估计方法的数值结果比较
图9 不同视差估计算法的视觉效果展示
由表4和图9可见,DistgDisp网络能够达到领域先进的视差估计性能,具有较小的视差估计误差。作者将DistgDisp提交至HCI 4D LF Benchmark并与Benchmark上的其他方法做了广泛的比较,结果如图10所示。在共计81个提交算法中,DistgDisp的各项误差指标均排名前4。
值得一提的是,由于所提DS-AFE能够替代耗时的特征位移操作而通过卷积的方式构建匹配代价,因此在运行时间方面具有较大优势(在benchmark上排名第一)。
图10 HCI 4D LF Benchmark上的排名截图(2021年7月)。在当时81个提交结果中,DistgDisp算法在各项误差指标上排前4名,运行时间排第1名。
作者在该文最后将所提DistgSSR、DistgASR以及DistgDisp进行了集成,从稀疏采样的低分辨率光场(2×2×256×256)重建出密集采样的高分辨率光场(7×7×512×512),且通过重建的光场估计了场景的视差(相对深度)分布。而后,作者根据所估计的视差图引导重聚焦算法进行深度辅助的光场重聚焦,展示了所提算法的应用前景。
视频链接:https://wyqdatabase.s3.us-west-1.amazonaws.com/DistgLF-demo.mp4
▊ 结论(Conclusion)
该文提出了一个通用的光场解耦机制,通过设计空间、角度和极平面特征提取子将四维光场解耦至不同的子空间,促进了卷积神经网络学习光场的内里结构。该文所提解耦机制高效紧凑且适用于不同的光场图像处理任务。
基于所提解耦机制,作者设计了DistgSSR、DistgASR和DistgDisp分别应用于空间超分辨、角度超分辨和视差估计三个典型的光场图像处理任务。实验结果表明所提三个网络在各自任务中均达到了领域领先的性能,从而验证了所提解耦机制的有效性与通用性。
本文仅做学术分享,如有侵权,请联系删文。
1.面向自动驾驶领域的多传感器数据融合技术
2.面向自动驾驶领域的3D点云目标检测全栈学习路线!(单模态+多模态/数据+代码)3.彻底搞透视觉三维重建:原理剖析、代码讲解、及优化改进4.国内首个面向工业级实战的点云处理课程5.激光-视觉-IMU-GPS融合SLAM算法梳理和代码讲解6.彻底搞懂视觉-惯性SLAM:基于VINS-Fusion正式开课啦7.彻底搞懂基于LOAM框架的3D激光SLAM: 源码剖析到算法优化8.彻底剖析室内、室外激光SLAM关键算法原理、代码和实战(cartographer+LOAM +LIO-SAM)
9.从零搭建一套结构光3D重建系统[理论+源码+实践]
10.单目深度估计方法:算法梳理与代码实现
11.自动驾驶中的深度学习模型部署实战
12.相机模型与标定(单目+双目+鱼眼)
13.重磅!四旋翼飞行器:算法与实战
14.ROS2从入门到精通:理论与实战
扫码添加小助手微信,可
也可申请加入我们的细分方向交流群,目前主要有、、、、、等微信群。
一定要备注:
▲长按加微信群或投稿
▲长按关注公众号
学习3D视觉核心技术,扫描查看介绍,3天内无条件退款
圈里有高质量教程资料、答疑解惑、助你高效解决问题