高分辨率遥感图像语义分割-day2
- 摘要
- 一、引言
- 二、方法
-
- 2.1 对比学习
- 2.2 全局风格与局部匹配对比学习网络(GLCNet)
-
- 2.2.1 全局风格比较学习模块:
- 2.2.2局部匹配对比学习:
- 三、实验及结果
-
- A. 数据说明
- B. 实验设置
-
- 1 基线:
- 2 评估指标:
- 3 实现细节:
- C. 实验结果
- D.消融研究
- 四、讨论
- 五、结论
摘要
近日,在遥感图像中监督深度学习(RSI)语义分割取得了巨大的成功。 然而,语义分割的监督学习需要大量的标记样本,这在遥感领域很难获得。 自监督学习(SSL)这是一种新的学习范式。通过对大量未标记图像的通用模型进行预训练,然后对下游任务进行微调,标记样本很少,可以解决这些问题。比较学习是SSL一种典型的方法一般不变特征的方法。 然而,大多数现有的比较学习方法都是为分类任务设计的,以获得图像级表示,这可能是需要像素级区分的语义分割任务的次优。 因此,我们提出了对比学习网络的全局风格和局部匹配(GLCNet)用于RSI语义分割。 具体来说,首先,整体风格比较学习模块用于更好的学习ImageLevel因为我们认为风格特征可以更好地表达整体图像特征。 其次,设计了局部特征匹配比较学习模块,有利于语义分割。我们评估了四个RSI实验结果表明,在大多数情况下,我们的方法优于最先进的自我监督方法和ImageNet预训练方法。源代码可以在https://github.com/geox-lab/g-rsim.中找到。
一、引言
传统的监督学习对数据集的要求很高,没有使用大量未标记的数据,因此使用自监督学习进行语义分割。 自监督学习(SSL)它提供了一种新的方法,如图1所示。它首先通过设计自监督信号从未标记过的图像数据来学习知识,然后将其传输到下游任务,以实现与监督学习相当的性能。虽然RSI我们无法获得大量的标记数据,但我们可以很容易地访问覆盖世界的多样性和丰富的未标记图像数据,因为未标记图像数据中包含的信息比稀疏标签丰富得多,我们可以期待它SSL潜在学习更多常识。 本文将的方法引入RSI语义分割。在预训练阶段,我们利用比较学习来提高样本在无标签数据上的一致性,学习一般遥感视觉模型(G-RSIM)。G-RSIM增强了照明、旋转明不变性、旋转不变性和尺度不变性。其次,现有的即时比较学习主要针对图像分类任务,只关注全球学习。:从全局来看,由于时间(春、夏、秋、冬)、天气、传感器等方面的差异,RSI整体差异。;从局部表达的角度来看,像素级语义分割需要更多的局部信息[44]。因此,我们提出,全局风格对比学习模块侧重于全局表达,局部匹配对比学习模块用于学习像素(局部)级特征
- 我们将自我监督比较学习应用于自我监督RSI在多个数据集中验证语义分割任务。该模型可以直接从未标记图像中学习特征,以指导下游有限标记的语义分割任务。
- 我们提出了一个新的自我监督比较学习框架,即GLCNet,框架侧重于平衡RSI学习语义分割任务中的全局和局部特征。
- 我们评估了我们在两个公共数据集和两个真实数据集中提出的方法。实验结果表明,该方法优于其他自我监督方法。当上下游数据集不高度相似时,也优于监督学习方法。
二、方法
SSL 它提供了一种新的范式,可以直接从大量现成的未标记数据中学习潜在有用的知识,然后将其转移到下游任务,以实现更好的性能,特别是在标记样本有限的情况下。在我们的工作中,下游任务是 RSI 因此,我们专注于语义分割 RSI 语义分割设计自监督模型。在这篇文章中,我们介绍了比较学习学习一般不变的表达。同时,我们提出了语义分割任务的特点GLCNet自监督方法,
如图2所示。GLCNet自监督方法主要包含两个模块。
- 全球风格比较学习模块主要考虑到现有比较学习中使用的全球平均池生成的特征并不能很好地取代图像的整体特征。因此,引入更能代表图像整体特征的风格特征,以帮助模型更好地学习整体表达。
- 本地匹配比较学习模块的提出主要有两个原因。首先,在语义分割数据集中,单个图像中的土地覆盖范围非常丰富。仅仅提取整个图像的整体特征来测量和区分图像将丢失大量有用的信息。第二,通过实例比较学习获得的图像级表示,需要像素级区分的语义分割任务可能是次要的。
2.1 对比学习
通过强制正样本对相似,而负样本对不相似。比较学习方法的关键是构建正负样本。最新的突破方法将实例分类为自己的标签,这意味着不同的增强版本被视为阳性样本,其他样本被视为阴性样本。比较鼓励模型学习变换的不变性和区分不同样本的能力。在这项工作中,我们使用比较学习来学习遥感的一般时空不变性特征。具体来说,我们对样本进行随机旋转、切割、缩放等数据增强操作,使模型学习空间不变,如旋转不变和比例不变。此外,RSIs时差主要在于季节因素和成像条件造成的整体纹理和颜色差异。由于缺乏多时相图像数据,我们通过在样本中使用随机颜色失真和随机噪声来模拟时间变化,使模型学习时间保持不变。 对比视觉表征学习的简单框架(SIMCLR)我们运用比较学习来训练语义分割网络的编码器,如图所示。3.由以下四个主要部分组成。 1) 数据增强:为了鼓励模型学习一般的时空不变特征,我们实施随机切割、调整尺寸、翻转和旋转等空间变换,学习空间不变特征,模拟颜色失真、高斯模糊、随机噪声等时间变换。,用于学习时间不变性特征。具体来说,通过数据增强t1和t2,从给定样本x生成两个增强视图∧x和?x,即?x=t1(x)和?x=t2(x)。 2) 特征提取:使用编码器网络
从增强样本实例中提取全局特征μ表示特征图中各通道平均值的计算,即全局平均池。e(·)语义分割网络DeepLabV3 编码器[20]。 3) 如(2)所示,投影头:
投影头g(·)是多层感知器(MLP),隐藏层[线性单元校正(ReLU)]。SimCLR[38]中g(·)证明存在是非常有益的,可能是因为它允许e(·)R是形成并保留更多潜在下游任务的有用信息ReLU非线性激活函数。 4) 对比损失:对比损失预期正样本相似,负样本不相似。具体来说,一小批N样本增加到2N样本。从同一样本中添加的一对样本形成正对,其他2(N?1) 样本为阴性样本。因此,比较损失LC定义为:
在本文中,两个特征向量是余弦的相似性。 A? 表示2(N? 1) 负样本和正样本对,τ表示温度参数。虽然现有的比较学习范式可以学到强大的图像表征,但仍然存在一些问题。首先,现有的比较学习利用整体平均池特征来提取样本特征,这可能不能很好地代表样本的整体特征。其次,更重要的是,通过即时比较学习的图像级表示,可能不适合需要像素级判断的语义分割任务。所以,我们提出了GLCNet。
2.2 全局风格与局部匹配对比学习网络(GLCNet)
我们提出的GLCNet方法如图2所示,主要包括两个模块:全球比较学习模块,主要关注现有比较学习中使用的全球平均池的特征,不能很好地取代复杂性RSI本模块主要考虑大多数现有的比较学习方法都是为图像分类任务设计的,以获得图像级特征,因此,需要像素级识别的语义分割可能不理想。具体内容如下。
2.2.1 全局风格比较学习模块:
全球风格比较学习类似于现有的即时比较学习方法,通过强制一个样本的不同增强视图来学习。不同之处在于,我们使用风格特征,而不是简单的平均池特征,因为我们认为它更能代表图像的整体特征。Huang和Belongie[46]指出,CNN提取的特征图的平均通道值和方差可以表示图像的样式特征,所以我们计算编码器e(·)以提取全局风格特征向量为定义,提取特征的通道平均值和方差为: 其中μ表示特征图的通道平均值,σ表示通道方差。因此,对于小批次中的N个样本,类似于(3),学习损失的整体风格比较定义如下:
2.2.2局部匹配对比学习:
局部匹配对比学习模块的提出主要有以下两个原因。首先,语义分割数据集中单个图像中的土地覆盖类别极其丰富。仅提取整个图像的全局特征来测量和区分图像会导致大量信息的丢失;其次,使用即时对比学习方法获得图像级特征,这些特征可能不适合需要像素级识别的语义分割。因此,设计了局部匹配对比学习模块来学习局部区域的表示,这有利于像素级的语义分割。它由以下主要组件组成。
- a)局部区域选择与匹配:如图如图5所示,
两个变换版本X和ˆX来自同一图像X,即X=T1(X)和ˆX=T2(X);我们从X和ˆX中选择并匹配多个局部区域。随机裁剪、翻转、旋转等数据扩充操作会导致X与ˆX之间的位置不匹配,因此,我们通过引入索引标签来记录像素位置,以确保两个匹配局部区域的中心位置在原始图像中相互对应。具体地,我们首先从X中随机选择大小为SP×SP的局部区域,然后根据X中的局部区域的中心位置的索引值来确定相同大小的匹配局部区域在ˆX中的位置。此外,为了确保不同局部区域之间没有过多的重叠,在每次选择之后排除局部区域,以保证随后选择的局部区域的中心不落入先前选择的局部区域中。重复上述步骤若干次,以获得多个匹配的局部区域。
-
b) 局部匹配特征提取:局部特征提取步骤如下。首先,从编码器-解码器CNN网络中的一对正样本(ˆx,ˆx)中提取特征映射d(e(Ǿx))和d(e(ˆx))。在本文中,e(·)和d(·)分别对应于DeepLabV3+[20]的编码器和解码器。其次,根据A中局部区域的选择和匹配的思想,从d(e(¢x))和d(e(ˆx))中获得多个匹配局部区域的局部特征图。如果¢p j和ˆp j是匹配局部区域的特征图,其中¢p j来自d(e(¢x)),pˆj来自d(e(ˆx)),则最终的局部特征向量定义如下: 其中,μ表示特征图中每个通道的平均值的计算。
-
c) 局部匹配对比损失:局部匹配对比损失通过强制匹配局部区域的特征表示相似和不同局部区域的特征表示不同来更新完整的语义分割编码器-解码器网络。对于一个小批次中的N个样本,局部匹配对比损失定义如下: 其中NL表示从N个样本的小批量中选择的所有局部区域的数量,即NL=N×NP,其中NP是从样本中获得的匹配局部区域的数量。-L是对应于除了两个匹配的局部区域之外的所有局部区域的特征图的集合,并且GL(·)是类似于G(·)的投影头。 3)总损失:全局风格对比学习能够捕获全局信息,局部匹配对比学习关注局部区域的学习表征,两者对于语义分割任务都很重要。当只有全局风格对比学习可用时,学习到的图像级表征对于语义分割任务不是最优的;当只有局部匹配对比学习可用时,局部区域将被过度区分,这往往会导致属于同一类别的特征被推得更远。因此,我们的方法由这两部分组成。即最终损失定义如下: 其中,在本研究中,λ是常数0.5。LG表示(5)中的全局风格对比损失,仅用于更新.
三、实验和结果
A. 数据说明
我们在四个数据集上评估提出的 GLCNet 和其他自监督方法,用于 RSI 语义分割。国际摄影测量与遥感协会 (ISPRS) 波茨坦数据集和地球深部土地覆盖分类数据集 (DGLC) 是公开可用的数据集。湖北和湘潭数据集来自现实世界,具有相同的空间分辨率和相似的分类系统,便于研究领域差异的影响。这四个数据集的详细信息将在下面解释。
- 1)ISPRS波茨坦数据集:ISPRS波茨坦数据集由38张HR遥感航空影像组成。这些图像具有 5 cm 的空间分辨率和四个光谱带:红色、蓝色、绿色和近红外反射 (NIR)。该数据集用六类注释:低植被、树木、建筑物、不透水表面、汽车等。 Potsdam 数据集中有 38 个大小为 6000 × 6000 像素的补丁。将 24 个补丁裁剪成 13824 张大小为 256 × 256 像素的图像,用于自我监督训练。为了评估 SSL 的性能,默认选择 1% 的自监督训练集作为下游语义分割任务的训练集,测试集包含从剩余的 14 个补丁中随机选择的 1500 个样本,裁剪成 256 个× 256 像素。
- 2) 地球深部土地覆盖分类数据集(DGLC):DGLC[47]提供大小为2448×2448像素的HR子计卫星图像。这些标签远非完美,涵盖了七个类别:城市、农业、牧场、森林、水、贫瘠和未知。我们选择730幅图像进行训练,73幅图像进行下游测试。此外,将每个图像裁剪为512×512像素的大小,每个阶段使用的最终样本数如表1所示。
- 3)湖北数据集:湖北数据集的图像是从覆盖中国湖北省的高分二号卫星上获取的。图像具有2米的空间分辨率,具有三个光谱带(RGB)。标签质量较差,涵盖十个类别:背景、农田、城市、农村、水、林地、草地、其他人工设施、道路和其他。我们首先将整个湖北省划分为几个大小为13889×9259像素的斑块。从这些补丁中,我们随机选择34个用于训练,5个用于测试。此外,将每个图像裁剪为256×256像素的大小,每个阶段使用的最终样本数如表1所示。
- 4)湘潭数据集:湘潭数据集的图像也来自高分二号卫星,覆盖中国湘潭市。这些标签的质量高于湖北数据集,涵盖九个类别:背景、农田、城市、农村、水、林地、草地、道路和其他。整个湘潭市被划分为4096×4096像素的斑块。我们随机选择85个补丁进行训练,21个进行测试。此外,将每个图像裁剪为256×256像素的大小,每个阶段使用的最终样本数如表一所示。
B. 实验设置
1 基线:
为了评估SSL的性能,我们在特定的下游语义分割任务上随机初始化网络作为基本基线。此外,通用的ImageNet预训练策略也被用作基线。此外,我们比较了三种典型的自我监督任务(预测上下文[48],[49],图像修复[50]和实例对比学习[38],[45],[51])。用于比较的具体方法总结如下。
- 1)随机基线:从头开始训练特定的语义分割任务,无需预训练。
- 2)ImageNet Pretraining:使用ImageNet上的监督训练模型来初始化语义分割模型的主干。
-
- Jigsaw [49]:这种自我监督的方法通过解决难题来构建自我监督的任务。具体来说,如图 6(a) 所示,给定图像被分成多个块,然后,块在被发送到 CNN 网络之前被打乱。预计网络将学习打乱的补丁之间的上下文关系。
- 4)修复[50]:一种典型的利用图像恢复思想设计自监督信号的方法。具体来说,如图6(b)所示,首先丢弃图像的一个随机区域,然后训练CNN模型从损坏的图像中预测原始图像,从而使CNN模型能够学习上下文信息。
-
- SimCLR [38]:SimCLR 方法基于实例对比学习的思想,它通过强制从一个样本中增强的正样本相似而从小批量中的不同样本增强的负样本不相似来学习。
-
- MoCo v2 [51]:MoCo v2 也是基于实例对比学习的思想,其重点是获取远超出批量大小的负样本。因此,提出了一种动态队列来保存负样本的特征,并提出了一种动量更新编码器来避免由于编码器的快速变化而导致负样本表示的一致性问题。
2 评估指标:
需要在特定的下游语义分割任务上评估自监督方法的性能。因此,我们使用OA和Kappa测量下游任务测试数据集的总体准确性,定义如下: 其中TP表示被正确预测的像素的总数,即真阳性。N表示像素总数,PE=((A1×B1+·+AC×BC)/(N×N),AC表示C类像素的实际数量,BC表示C类像素的预测数量。此外,我们使用F1-Score来衡量单个类别的准确性,其定义如下: 其中precision = (TP/(TP + FP)),recall = (TP/(TP + FN)),TP代表真阳性,FP代表假阳性,FN代表假阴性。
3 实现细节:
在自我监督的预训练阶段,Jigsaw,SimCLR和MoCo v2仅设计用于使用ResNet50主干训练DeepLabV3的编码器,在修复和建议的GLCNet训练DeepLabV3 + 的完整编码器-解码器部分。我们使用Adam优化器400个epochs,批次大小为64。初始学习率被设置为与余弦衰减时间表0.01。此外,对于建议的GLCNet方法,我们从样本中选择四个大小为48 × 48的局部区域,即sp = 48和np = 4。为下游任务保存了自监督预训练过程中损失最低的模型。 尽管inpaining和GLCNet方法可以在自监督训练期间训练网络的编码器和解码器,但是用于比较的方法 (例如SimCLR) 被设计为仅训练编码器。因此,默认情况下,我们仅在微调阶段从自监督的预训练阶段加载编码器部分。在微调阶段,我们仅使用有限数量的注释数据进行语义分割训练,例如1% 自我监督的数据量。我们将Adam优化器用于150个时期,批次大小为16。初始学习率被设置为0.001,并在每个时期降低到0.98。
C. 实验结果
在本节中,我们首先将提出的GLCNet与其他自监督方法以及ImageNet在几个RSI语义分割数据集上的预训练方法进行比较。然后,我们探讨了可能影响目标RSI语义分割任务上的自我监督预训练性能的两个因素: 自我监督预训练数据量以及预训练数据集与微调数据集之间的域差异。
-
与其他方法的比较: 在本节中,我们评估了建议的GLCNet在多个数据集上具有有限注释的RSI语义分割任务上的性能,并将其与其他SSL方法,ImageNet预训练方法和随机初始化方法进行了比较。在每个数据集上用于自监督预训练的数据量如表I所示,并且自监督数据量的1% 用于微调。从表II中的结果中,我们发现与不实施任何预训练策略相比,我们提出的GLCNet方法极大地改善了所有数据集。同时,我们发现不同的自我监督方法的性能差异很大,不合适的自我监督方法会产生负面影响,而我们的方法却达到了最先进的结果。如图7所示,我们还显示了一些可视化结果,其中我们的方法的性能总体上相对更好。同时,为了衡量我们的方法在每个类别中是否具有优势,我们计算单类精度,其结果如图8所示。从图8中,我们发现与多个数据集上的其他自监督方法相比,我们的方法在大多数类中获得了优越的结果。此外,我们的方法在大多数数据集上都优于ImageNet预训练方法,其中ImageNet预训练方法是通过在ImageNet上有数百万个数据的监督训练获得的,这远远超过了我们实验中使用的自我监督数据的数量。这表明,尽管ImageNet预训练方法可以提供显着的改进,但由于自然图像和rsi之间存在较大差异,因此它不是最佳方法。例如,如表II所示,与ImageNet预训练相比,我们在波茨坦数据集上的方法有最明显的改进,可能是因为数据集有四个波段,这与RGB自然图像的差异最大。因此,直接从未标记的rsi训练通用模型更为合理。此外,值得注意的是,在我们的实验中,用于自我监督的预训练的图像与用于下游任务的图像相似,并且两者都来自同一数据集。这种情况是可行的,因为我们可以通过卫星技术轻松地从同一来源获得大量图像。
-
自我监督数据量的影响: 由于自我监督预训练不需要带注释的数据,并且容易获得大量的图像数据,因此本节主要探讨更多的自我监督预训练数据是否可以提高性能。为此,我们通过随机选择20% 、50% 和100% 的自我监督数据,对ISPRS-波茨坦数据集和湘潭数据集进行实验。结果显示在图9中,其中没有表示没有执行自我监督训练。从结果中,我们发现,在这两个数据集中,随着自我监督数据量的增加,总体上都有增加的趋势,与SimCLR方法相比,我们的方法的改进相对更明显。因此,可以预见,当使用较大的数据集进行自我监督训练时,所提出的方法可能会更有利。
-
领域差异的影响:在本节中,我们评估领域差异对自监督预训练模型性能的影响。结果如表 III 所示,其中“Supervised_Baseline”表示首先使用预训练数据集进行监督训练,然后将其转移到下游任务。从结果中,我们发现使用与下游任务数据集更相似的自我监督数据集进行训练,导致下游任务的模型性能更好。此外,我们的方法大多优于监督学习,除了在域差异极小的情况下(例如,湖北→湘潭,湘潭→湖北),主要是因为这两个域不仅具有相同的图像分辨率,而且在物理位置,而且至关重要的是,有一个大致一致的分类系统。因此,很难超过监督学习的准确性。尽管我们在 Section III-C2 中发现模型性能随着自监督训练数据量的增加而进一步提高,但在本实验中,我们发现如果自监督预训练数据集是混合了大量与下游任务数据集不太相似的图像。幸运的是,由于自监督预训练不需要标签,因此可以获得大量与目标数据集相似的图像数据是可行的。
D.消融研究
在本节中,我们进行消融实验来研究我们提出的 GLCNet 方法的模块的有效性、使用我们的方法训练的模型的解码器参数的有效性以及不同损失权重 λ 值的影响。
-
提出的 GLCNet 模块的有效性:在本节中,我们探讨了我们提出的方法中每个模块在四个数据集上的有效性。实验结果如图10所示,其中:1)Ours_noStyle表示全局模块,不使用风格特征,即直接使用传统的全局平均池化特征。 2) Ours_noGlobal 表示全局风格对比学习模块被完全移除。 3) Ours_noLocal 表示局部匹配对比学习模块被完全移除。 4)Ours_noStyle_and_noLocal表示局部匹配对比学习模块被去掉,全局模块不使用风格特征。从结果中,我们发现完整的 GLCNet 实现了最佳性能,并且每个模块在大多数实验中都有一些好处。此外,那些具有局部匹配对比学习模块的方法在大多数数据集上的性能明显高于那些没有的方法。因此,对于实际的 RSI 语义分割任务,局部区分是必要的。然而,令人惊讶的是,Ours_noGlobal 在 DGLC 数据集上取得了最差的结果,这表明全局模块在该数据集上极为重要。这可能是由于该方法仅使用局部匹配对比学习模块时局部区域被过度区分,而DGLC数据集中大约一半的图像在单个图像上只有一个类别,因此该方法仅具有在这种情况下,局部对比学习模块尤其不合适。
-
使用GLCNet训练的解码器部分的有效性:我们的方法最初是为了训练全语义分割网络而设计的,但是由于大多数用于比较的方法都是为了训练编码器,所以我们只加载了自监督预训练的编码器为了公平比较,在微调阶段之前的实验中。在本节中,为了调查我们方法训练的解码器是否有效,我们在波茨坦和湘潭数据集上进行了实验。实验结果如表 IV 所示,其中 d(1, 2) 表示加载前两层的解码器参数,d(1, 2, 3) 表示加载除最终分类层之外的完整解码器参数。从结果来看,我们发现用我们的方法训练的解码器参数并没有带来显着的提升,这可能是因为语义分割网络的解码器主要用于细节恢复,而我们当前的局部匹配对比学习模块执行平均对局部区域进行池化操作以提取特征,丢失边缘定位等详细信息。
-
权重λ的消融研究:(8)中的超参数λ被设置为平衡全局风格对比损失和局部匹配对比损失。我们认为全局风格对比学习模块和局部匹配对比学习模块可以学习到对语义分割任务有用的不同信息,这两者都非常重要,因此我们默认设置 λ = 0.5。但是,这可能不是最优的,因此我们在本节中进一步探讨不同 λ 值的影响。实验结果如图11所示。从实验结果来看,不同数据集的最优λ是不同的。此外,当我们的 GLCNet 方法只有一个局部匹配的对比学习模块,即 λ = 0,或者当我们的 GLCNet 方法只有一个全局风格的对比学习模块,即 λ = 1 时,大多数数据集的性能会迅速下降。因此,最终的 GLCNet 应该同时保留全局风格对比学习模块和局部匹配对比学习模块。总体而言,当 λ = 0.5 时,在所有数据集上都取得了良好的性能。
四、讨论
在这项工作中,我们将自我监督机制应用于RSI语义分割数据集,为标注样本不足的RSI语义分割任务带来了显著的改进。我们在本节中进一步讨论我们的实验结果。我们发现,自监督任务的设计对最终的性能有很大的影响,我们提出的方法取得了最优的结果。此外,通过第III-C2节中的实验,我们发现当自监督数据量增加时,微调精度进一步提高。因此,可以得出结论,。由于大量的RSI极易获得,这将具有很大的实际应用价值。 自我监督训练模型显示了RSI理解的潜力,因为它只依赖于内在的监督信号,而不是任务依赖的标签。如第III-C3节中的实验结果所示,当自监督数据集和微调数据集之间存在一些差异时,我们提出的自监督方法优于监督学习,这说明通过SSL训练的模型更具鲁棒性。在实践中,我们会面临很多局部地区缺乏标签的情况。通过SSL从全局区域的映像中学习通用模型,然后迁移到局部区域,这将是非常有意义的。然而,从实验结果来看,我们发现,这说明了局部尺度判别在语义分割数据集上的重要性。然而,sp和np对于所有数据集都是相同的,没有太多探索,这可能不是最佳设置。此外,由于实际图像中表面特征的分布可能极不均匀,局部区域的随机选择将偏向于更主要的特征类。如果可以使局部区域的选择更加均匀,则可能实现进一步的改进。
五、结论
在这项工作中,我们将自监督对比学习引入 RSI 语义分割任务,以从大量未标记图像中学习一般时空不变特征,以减少对标记样本的依赖。此外,考虑到现有的对比学习方法主要用于图像分类任务以获得图像级表示,这对于需要像素级区分的语义分割任务可能不是最佳的,我们提出了 GLCNet。实验表明,在标记数据有限的语义分割任务中,我们的方法大多优于传统的 ImageNet 预训练方法和其他自监督方法。我们还发现,更多的自监督预训练样本可以带来性能提升,并且在实际情况下,我们可以轻松获得大量的遥感数据,因此我们的方法可能具有很大的实际应用意义。 我们的方法还有一些不足;例如,我们想使用 GLCNet 来更好地学习一般的时间不变性特征。然而,目前,由于缺乏多时相图像数据,我们仅通过随机增强图像的颜色和纹理来模拟时域变换。这不能真正模仿由季节、成像条件等引起的复杂变换。因此,可能无法充分学习真实的时间特征,随后可以通过使用真实的多时间图像来补充。未来,该方法将进一步改进,然后应用于大规模图像数据,以缓解全球土地覆盖等任务中严重缺乏标注的问题。另一个潜在的研究课题是使用对抗性示例 [52]-[54] 来提高预训练模型的鲁棒性。