文章目录
- 摘要
- 1 介绍
- 2 相关工作
-
- 2.1 小波分解和拉普拉斯滤波器
- 2.2 基于分解的融合方法
- 2.3 基于深度学习的融合方法
- 3 提出的融合方法
-
- 3-A 网络结构
- 3-B 损失函数
- 3-C 图像融合
- 3-D 融合策略
- 4 实验与分析
-
- 4-A 细节的训练和测试
- 4-B 对抗损失的作用
- 4-C 分解图像的细节
- 4-D 比较最先进的方法
- 5 结论
摘要
??图像分解是图像处理领域的一个重要课题。它能从源图像中提取显著特征。基于卷积神经网络,我们提出了一种新的图像分解方法。该方法可应用于许多图像处理任务。本文将图像分解网络应用于图像集成任务。我们输入红外图像和可见光图像,分为三个高频特征图像和一个低频特征图像。利用特定的融合策略整合两组特征图像,获得融合特征图像。最后,重构特征图像,获得集成图像。与最先进的融合方法相比,该方法在主观和客观评价方面取得了更好的表现。
关键词:图像融合;图像分解;深度学习;红外图像;可见图像
1 介绍
??图像集成是图像处理中的一项重要任务。它旨在从多模态信号源的图像中提取重要特征,并使用一定的集成策略生成包含多个图像互补信息的集成图像。我们的工作是融合可见光图像和红外图像[1]的常见图像融合任务之一。集成的图像不仅包含被遮挡物体的辐射信息,还保留了足够的纹理细节。目前,安全监控、自动驾驶、目标跟踪、目标识别等领域广泛应用于生产和生活中。
??有许多优秀的集成方法,可以分为两类:传统的和基于深度学习的[2]。大多数传统的方法都是基于信号处理的获取图像的高频和低频,然后合并它们。随着深度学习的发展,基于深度神经网络的方法也显示出巨大的图像集成潜力,因为神经网络可以提取源图像的特征并集成特征。
??传统的方法大致可以分为两类:一类是基于多尺度分解,另一类是基于表示学习的方法。在多尺度域中,将图像分解为多尺度表示特征图,然后通过特定的集成策略集成多尺度特征。最后,通过相应的逆变换获得集成图像。有许多具有代表性的多尺度分解方法,如金字塔[3]、曲波[4]、轮廓波[5]、离散波变换[6]等。
??在表示学习领域。大多数方法都是基于稀疏表示如稀疏表示(SR)梯度直方图(HOG)[7]联合稀疏表示(JSR)[8]、具有多选策略的近似稀疏表示[9]等.
??在低秩领域,李和吴等人。提出了基于低秩的表达(LRR)集成方法[10]。最新方法,如 MDLatLRR [11] 是基于潜在 LRR 图像分解。该方法可提取低秩域的源图像特征。
??虽然基于多尺度分解和表示学习的方法取得了良好的性能。但这些方法仍然存在一些问题。这些方法非常复杂。字典学习是一项耗时的操作,尤其是在线培训。如果源图像非常复杂,这些方法将无法很好地提取特征。
??为了解决这个问题,近年来提出了许多基于深度学习的方法能力,提出了许多基于深度学习的方法[2]。
??2017年,Liu等人。提出了基于卷积神经网络的多焦点图像融合方法[12]。在 ICCV2017 中,Prabhakar 等人。提出了 DeepFuse [13] 解决多曝光图像集成的问题。 2018年,李和吴等人。基于密集块和自动编码器结构的红外和可见光图像融合方法[14]提出了新的建议。在接下来的两年里,随着深度学习的快速发展,出现了大量优秀的方法。包括Zhang等人提出的IFCNN[15],Ma等人提出的基础GANs的融合网络(FusionGan)[16],以及Li其他人提出的多尺度集成网络框架(NestFuse)[17] . 2020年,大多数基于神经网络的方法都是利用神经网络强大的特征提取功能,然后在特征层面进行融合,最终的集成图像是通过一些特定的集成策略获得的。
??但基于深度网络的方法也存在一些不足: 神经网络作为一种特征提取工具,无法解释提取特征的含义。 网络复杂,耗时长。 3.红外和可见光数据集数量和规模较小,其他数据集训练的方法很多。这不一定适用于提取红外和可见光图像。
??为了解决这些问题,我们提出了一种可用于分解图像的新网络。同时,借鉴传统方法和深度学习方法,我们提出的网络可以将红外和可见光图像分解为高频和低频特征图像,以达到比传统方法更好的分解效果。同时,我们设计了一些集成规则来集成高频和低频特征图像,以获得集成后的特征图像。最后,将这些融合特征图像重建为融合图像。我们提出的方法不仅利用了神经网络征提取能力,而且实现了图像的分解。与最先进的方法相比,我们的集成框架在主观和客观评价方面取得了更好的表现。
??本文的结构如下。在第二节中,我们介绍了一些相关的工作。在第三节中,我们将详细介绍我们提出的集成方法。在第四节中,我们解释了实验设置,并分析和比较了我们的实验结果。最后,在最后的第五节中,我们得出了本文的结论。
2 相关工作
??无论是基于传统的图像信号处理方法还是基于深度学习方法。它们都是非常合理和优秀的方法。本节将介绍一些启发我们的作品。
2.1 小波分解和拉普拉斯滤波器
??小波变换已成功应用于许多图像处理任务。图像融合最常见的小波变换技术是离散小波变换 (DWT) [18] [19]。
??DWT 它是一种可分解为高频信息和低频信息的信号处理工具。一般来说,低频信息包含信号的主要特征,高频信息包含信号的详细信息。二维信息通常用于图像处理领域 DWT 分解图像。图像的小波分解如下: ?? { M L L ( x , y ) = φ ( x ) φ ( y ) M L L ( x , y ) = φ ( x ) φ ( y ) M H L ( x , y ) = ψ ( x ) φ ( y ) M H H ( x , y ) = ψ ( x ) ψ ( y ) (1) \begin{cases}{M_{LL}(x,y)=φ(x)φ(y)}\\{M_{LL}(x,y)=φ(x)φ(y)}\\{M_{HL}(x,y)=ψ(x)φ(y)}\\{M_{HH}(x,y)=ψ(x)ψ(y)}\end{cases}\tag{1} ?????⎪⎪⎪⎧MLL(x,y)=φ(x)φ(y)MLL(x,y)=φ(x)φ(y)MHL(x,y)=ψ(x)φ(y)MHH(x,y)=ψ(x)ψ(y)(1)
其中 φ ( ⋅ ) φ(·) φ(⋅)是低通滤波器, ψ ( ⋅ ) ψ(·) ψ(⋅)是高通滤波器。输入信号 M ( x , y ) M(x,y) M(x,y)是具有两个方向的信号的图像。沿 x 方向和 y 方向分别进行高通和低通滤波。如图 1 所示,我们可以得到一个近似表示的低频图像和三个高频图像,分别是垂直细节、对角细节和水平细节。
拉普拉斯算子是具有旋转不变性的简单微分算子。二维图像函数的拉普拉斯变换是各向同性二阶导数,定义为:
▽ 2 f ( x , y ) = ∂ 2 f ( x , y ) ∂ x 2 + ∂ 2 f ( x , y ) ∂ y 2 (2) ▽^2f(x,y)=\frac{∂^2f(x,y)}{∂x^2}+\frac{∂^2f(x,y)}{∂y^2}\tag{2} ▽2f(x,y)=∂x2∂2f(x,y)+∂y2∂2f(x,y)(2)
为了更适合数字图像处理,将方程近似为离散形式:
▽ 2 f ( x , y ) ≈ [ f ( x + 1 , y ) + f ( x − 1 , y ) + f ( x , y + 1 ) f ( x , y − 1 ) ] − 4 f ( x , y ) ( 3 ) ▽^2f(x,y)≈[f(x+1,y)+f(x-1,y)+f(x,y+1)f(x,y-1)]-4f(x,y)\quad\quad(3) ▽2f(x,y)≈[f(x+1,y)+f(x−1,y)+f(x,y+1)f(x,y−1)]−4f(x,y)(3)
拉普拉斯算子也可以用卷积模板的形式表示,用它作为过滤核: G 1 = [ 0 1 0 1 − 4 1 0 1 0 ] , G 2 = [ 1 1 1 1 − 8 1 1 1 1 ] (4) G_1=\begin{bmatrix} 0 & 1 & 0 \\ 1 & -4 & 1 \\ 0 & 1 & 0 \end{bmatrix},G_2=\begin{bmatrix} 1 & 1 & 1 \\ 1 & -8 & 1 \\ 1 & 1 & 1 \end{bmatrix} \tag{4} G1=⎣⎡0101−41010⎦⎤,G2=⎣⎡1111−81111⎦⎤(4)
G 1 G1 G1和 G 2 G2 G2是离散拉普拉斯算子的模板和扩展模板,可以利用该模板的二阶微分特性来确定边缘的位置。它们常用于图像边缘检测和图像锐化处理,如图2所示。
我们可以很容易地观察到,传统的边缘滤波通常只是一种高频滤波。在突出边缘的同时,它们也突出了噪点。
2.2 基于分解的融合方法
Li和Wu等人提出了一种使用低秩表示[20]分解图像的方法[11]。
首先,LatLRR[20]可以描述为以下优化问题:
m i n Z , L , E ∣ ∣ Z ∣ ∣ ∗ + ∣ ∣ L ∣ ∣ ∗ + μ ∣ ∣ E ∣ ∣ 1 s t . , X = X Z + L X + E (5) min_{Z,L,E}||Z||_*+||L||*+μ||E||_1\\ st.,X=XZ+LX+E\tag{5} minZ,L,E∣∣Z∣∣∗+∣∣L∣∣∗+μ∣∣E∣∣1st.,X=XZ+LX+E(5)
其中 μ μ μ是超参数, ∥ ⋅ ∥ ∗ ∥·∥_∗ ∥⋅∥∗是核范数, ∥ ⋅ ∥ 1 ∥·∥_1 ∥⋅∥1是l1范数。 X X X 是观察到的数据矩阵。 Z Z Z 是低秩系数矩阵。 L L L 是一个投影矩阵。 E E E 是一个稀疏噪声矩阵。
作者使用这种方法将图像分解为细节图像 I d I_d Id和基础图像 I b I_b Ib。从图3可以看出, I d I_d Id是高频图像, I b I_b Ib是低频图像。
如图 3 所示,低频图像 I b I_b Ib 被连续分解得到几个高频图像 I d 1 、 I d 2 I_{d1}、I_{d2} Id1、Id2和 I d 3 I_{d3} Id3。
最后,该方法对红外图像和可见光图像进行分解,得到高频图像和低频图像。然后我们进行一定的融合得到融合图像 I f I_f If 。
2.3 基于深度学习的融合方法
2017年,刘等人。提出了一种基于神经网络的方法[12]。作者将图片分成许多小块。然后用CNN来预测每个小块是模糊还是清晰。网络构建一个决策激活图来指示原始图像的哪些像素是清晰和聚焦的。一个训练有素的网络可以很好地完成多焦点融合任务。但由于网络设计的限制,该方法仅适用于多焦点图像融合。
为了使网络能够融合可见光图像和红外图像,Li 和 Wu 等人。提出了一种基于自动编码器的深度神经网络(DenseFuse)[14]。首先,他们训练了一个足够强大的编码器和解码器,可以充分提取原始图像的特征并在不丢失信息的情况下重建图像。然后将红外图像和可见光图像输入编码器得到编码特征,将两组特征具体融合得到融合特征。最后将融合特征输入解码器,得到融合图像。这些方法使用编码器将图像分解为几个潜在特征。然后对这些特征进行融合重构,得到融合图像。
在过去的几年里,生成对抗网络(GANs)也被应用于许多领域,包括图像融合。在 [16] 中,FusionGan 首先使用 GAN 生成融合图像。发生器输入红外和可见光图像并输出融合图像。为了提高生成图像的质量,作者设计了合适的损失函数。最后,生成器可用于融合任何红外图像和可见光图像。
鉴于这两种方法的优越性,我们提出了一种基于神经网络的多层图像分解方法。并基于该方法提出了红外图像和可见光图像的图像融合框架。
3 提出的融合方法
在本节中,将详细介绍所提出的基于多尺度分解的融合网络。首先,融合框架在第 III-C 节中介绍。然后,在第 III-A 节中描述了训练阶段的细节。接下来,在第 III-B 节中,我们给出了网络损失函数的设计。最后,我们在第 III-D 节中提出了不同的融合策略。
3-A 网络结构
在训练阶段,我们丢弃融合策略,训练分解网络。
我们的训练目标是让分解网络更好地将源图像分解成几张高频和一张低频的图像,用于后续的操作。网络结构如图4所示,详细网络设置见表I。
在图 4 和表 1 中, I o r i I_{ori} Iori 是原始输入图像, I r e I_{re} Ire 是重建图像。网络的主干是四个特征提取卷积块 ( C i n 、 C 1 、 C 2 、 C 3 ) (Cin、C1、C2、C3) (Cin、C1、C2、C3)。
那么下面就是低频特征提取部分,也就是图中的‘语义’块。图 6 所示的“语义”块包括两个步幅为 2 的下采样卷积层 ( S 0 , S 1 ) (S0,S 1) (S0,S1)