Target-aware Dual Adversarial Learning and a Multi-scenario Multi-Modality Benchmark to Fuse Infrared and Visible for Object Detection--论文笔记
- ABSTRACT
- INTRODUCTION
- METHOD
-
- Problem formulation
- Cooperative training strategy
- Multi-scenario Multi-modality Benchmark
- Experiments
- CONCLUSION
ABSTRACT
本研究解决了红外和可见图像的集成问题,这些图像在物体检测中表现不同。为了生成视觉质量高的图像,以前的方法在两种模式下发现了共同点,并通过迭代优化或深度网络在共同空间中集成。这些方法忽略了暗示互补信息的模态差异,这对集成和后续检测任务非常重要。本文提出了一个双层优化公式,然后扩展到目标感知 ** 双对抗学习(TarDAL) ** 网络集成和常用的检测网络。具有生成器和双识别器的集成网络在学习差异的同时寻求共同点。它保留了红外的目标结构信息和可见光的纹理细节。此外,我们还建立了一个校准红外和光学传感器的同步成像系统,并收集了覆盖广泛场景的最全面的基准。在几个公共数据集和我们的基准上进行的大量实验表明,我们的方法不仅在视觉上具有吸引力,而且比最先进的方法输出更高mAP。
INTRODUCTION
随着传感器硬件的快速发展,多模态成像在监控[28]和自动驾驶[5]中得到了广泛的应用。特别是红外和可见光传感器的结合在后续智能处理[11、38、39]方面具有显著的优势。可见光成像在定义明确的照明条件下提供了丰富的空间分辨率细节,红外传感器捕捉到了对照明变化不敏感的热目标结构。不幸的是,红外图像通常伴随着空间分辨率较低的模糊细节。 由于其明显的外观差异,通过充分利用红外和可见光的互补信息,将具有视觉吸引力的图像像和/或支持更高层次的视觉任务,如分割 [4、29]、跟踪 [2、7] 和检测 [32]。 在过去的几十年里,许多红外许多红外和可见图像融合 ,旨在提高视觉质量(IVIF) 方法。传统的多尺度变换 [10,24]、优化模型 [16,20,41]、备用表示 [37,43] 和子空间方法试图找到两种模式的共同特征,并设计适当的加权规则进行整合.这些方法通常需要调用耗时的迭代优化过程。最近,当冗余图像可用于培训时,研究人员通过学习强大的特征表达和/或加权策略将深度网络引入 IVIF [8,12,21–23、35]。融合结果证明是一个有效的推理过程,可以产生有效的质量改进。 然而,无论是传统还是深度 IVIF 方法正在努力提高质量,而忽略了后续的测试,这是许多实际计算机视觉应用程序的关键。整合更强调求同存异,而忽略了这两种方法在呈现目标结构信息和环境背景纹理细节方面的差异。这些差异在区分目标的不同特征和进行目标检测方面起着关键作用,并产生高对比度、清晰的外观,有利于人类检查。 此外,从这些差异中学习(实际上是互补信息)需要从两种模式中全面收集成像数据。在照明和天气变化的场景中捕获的图像显示出与这两种模式明显不同的特征。不幸的是,现有的数据收集只涵盖了有限的条件,并设置了学习补充信息和验证有效性的障碍。 本文提出了一个双层优化公式,以解决集成和测试的联合问题。该公式是由一个生成器、两个目标感知识别器和一个常用的测试网络组成的精心设计的双对抗集成网络。一个识别器将前景热目标与红外成像图像区域区分开来,另一个识别器将背景纹理细节与可见图像的梯度区域区分开来。我们还推出了一种合作的培训策略来学习这两个网络的最佳参数。 1 表明,最先进的技术 (SOTA) 相比之下,我们的方法从不同的目标和视觉吸引力的力的集成中检测到对象的时间和参数更少。我们的贡献有四个方面:
METHOD
本节详细介绍了我们的方法,从集成和测试的双层优化公式开始。然后,我们详细阐述了集成的目标感知双对抗学习网络。最后,我们给出了学习集成和测试的最佳参数的合作培训计划。
Problem formulation
与以往满足高视觉质量的方法不同,我们指出 IVIF 必须生成有利于视觉检查和计算机感知的图像,即面向检测的集成。假设红外线、可见性和集成是灰度,大小是m×n,分别表示列向量x、y和u 2 Rmn×1。根据 Stackelberg 理论 [14、18、27],我们将面向检测的融合制定为双层优化模型: 其中 Ld 是特定于测试的训练损失,Ψ 具有学习参数的测试网络!d。f(·) 包含融合图像 u 和源图像 x 和 y 基于能量的保真度项, gT (·) 和 gD (·) 是红外和可见光定义的两种可行性约束。 图 2(a) 表明,这种双层公式可以找到相互支持集成和测试的解决方案。然而,解决方案并不容易(2) 通过传统优化技术作为集成任务并不是一个简单的等式/不等式约束。相反,我们引入了一个具有学习参数的集成网络 Φ!f 并将双层优化转化为单层:
因此,我们将优化为两个学习网络 Φ 和 Ψ。我们采用 YOLOv53 作为检测网络 Ψ 主干,包括 Ld 也遵循其设置,并仔细设计集成网络 Φ 如下。 典型的深度集成方法在两种不同模式下努力学习共同特征。相反,我们的集成网络寻求共同点,并从暗示这两个成像的互补特征之间的差异中学习。通常,红外突出了不同的目标结构,而可见光提供了背景的纹理细节。 我们引入了一款由一个生成器和两个识别器组成的对抗性游戏,将两种模式的共同特征与不同特征结合起来,如图 2所示(b) 所示。鼓励生成器 G 提供逼真的集成图像,同时欺骗两个识别器。目标识别器 DT从 G 屏蔽目标在融合中的强度一致性(图 2(b) 第一行);细节鉴别器 DD 区分可见梯度分布和集成梯度分布(图 2(b) 的底线)。由于目标表现出一致的强度分布,梯度表示纹理,这两个识别器在不同的域中工作。 生成器:生成器有助于生成与源图像相似的整体结构和强度分布。常用的结构相似性指数(SSIM)[34]作为损失函数:
其中 LSSIM 表示结构相似性损失。为了平衡源图像的像素强度分布,我们引入了基于显著度的权重(SDW)像素损失x在第k个像素的显著性值可以自由Sx(k) = 255 Pi =0 Hx(i)jx(k) ? ij 得到,其中x(k)为第k个像素值,Hx为像素值 i 直方图,我们将失去像素 Lpixel 定义为:
我们使用 5 层密集块 [6] 作为 G 提取共同特征,然后用三个卷积层的合并块聚合特征。每个卷积层由一个卷积操作、批量集成和 组成ReLU 激活函数组成。生成的集成图像 u 大小与源相同。 目标和细节鉴别器:目标鉴别器DT细节鉴别器用于将融合结果的前景热目标与红外区分开来DD用于将融合结果的背景细节与可见光区分开来。我们采用预训练的显着性检测网络 [3] 从红外图像中计算目标掩码 m,这样两个识别器就可以在各自的区域(目标和背景)上执行。因此,我们将对抗损失 Ladv f 定义为:
其中 R = x m 和 R^ = 1 - R,将目标与背景区分开来,并表示逐点乘法。r(·) 表示梯度运算,如 Sobel。 这些判别器的对抗性损失函数计算 Wasserstein 散度,以相互识别前景热目标和背景纹理细节是否真实,定义为:
其中 r~(x) 表示与 p~(x) 相似的样本空间。 通常,k 和 p 分别设置为 2 和 6。 两个判别器 DT 和 DD 共享相同的网络结构,具有四个卷积层和一个全连接层。图 3 展示了生成器和双重鉴别器的详细架构。 总的来说,Lf 是上述三个主要部分的组合:
其中 α 和 β 是权衡参数。
Cooperative training strategy
双层优化自然衍生出一种合作训练策略来获得最优的网络参数! = (!d; !f)。我们引入了一个融合正则化器 Lf 并转换 Eq。 (3) 将融合约束下的检测优化为相互优化: 其中 λ 是权衡参数。该正则化器无需设计加权规则,而是可以很好地平衡融合和检测。 图 2(c)说明了梯度传播的流程,以协同训练融合和检测网络。 !d 和 !f 的损失梯度计算如下:
这些方程揭示了检测损失 w.r.t 的梯度。检测参数以及那些 w.r.t. 融合参数都是反向传播的,后者还包括融合损失 w.r.t 的梯度。融合参数。 最后,该策略不仅可以生成视觉上吸引人的图像,而且可以在给定训练好的网络参数的情况下输出准确的检测,使我们能够找到面向检测的融合的最佳解决方案,并且比独立训练方案更有效地收敛。
Multi-scenario Multi-modality Benchmark
现有的具有红外和可见图像的数据集很难用于从多模态数据中学习和/或评估检测。我们的基准 M3FD 包含高分辨率的红外和可见图像,涵盖各种场景下的各种对象类型,如表 1 的最后一行所示。 我们构建了一个包含一个双目光学相机和一个双目红外传感器的同步系统(如图 5 所示),以捕获自然场景的相应双模态图像。可见光和红外双目相机的基线(双目镜头焦心之间的距离)分别为12cm和20cm。可见光传感器和红外传感器之间的光学中心距离为 4cm。可见光图像具有1024×768的高分辨率和宽广的成像范围,而红外图像的标准分辨率为640×512,波长范围为8-14μm。 我们首先校准所有相机以估计它们的内部和外部参数,然后计算一个单应矩阵,将红外图像的坐标投影到可见光的坐标。最终,我们通过将所有图像扭曲到一个共同的坐标,获得了大小为 1024 × 768 的对齐良好的红外/可见图像对。 我们对所有 4 个进行了分类; M3FD 中的 200 个对齐对分为四种典型类型,即 Daytime、Overcast、Night 和 Challenge,其中有 10 个子场景如图 4 所示。同时,我们注释了 33 个;人、车、客车、摩托车、卡车、车灯六大类603个对象,常见于监控和自动驾驶中。 M3FD 的数量和多样性为通过融合图像学习和评估目标检测提供了可能性。
Experiments
CONCLUSION
在本文中,提出了一种用于联合实现融合和检测的双层优化公式。通过将模型展开到设计良好的融合网络和常用的检测网络,我们可以为融合和目标检测生成视觉友好的结果。为了促进该领域的未来研究,我们提出了具有可见红外传感器的同步成像系统,并收集了多场景多模态基准。 链接: TarDAL