资讯详情

Detecting tiny objects in aerial images: A normalized Wasserstein distance and a new benchmark(论文...

A normalized Wasserstein distance and a new benchmark(论文导读)

论文链接

文章目录

      • A normalized Wasserstein distance and a new benchmark(论文导读)
        • 摘要
        • 7、结论
        • 1、介绍
        • 2、相关工作
          • 2.1 航空目标检测数据集
          • 2.2 小目标检测策略
        • 3、数据集
        • 4、方法
          • 4.1 归一化高斯瓦瑟斯坦的距离(NGWD)
          • 4.2 基于排名的分配(RKA)
        • 5.分析
          • 5.1 度量分析
          • 5.2 NWD-RKA的分析
        • 6、实验
          • 6.1 实验设置
          • 6.2 基准
          • 6.3 NWD-RKA实验结果
            • 6.3.1 基础改进
            • 6.3.2 比较其它指标
            • 6.3.3 消融研究
            • 6.3.4 实验其他数据集
          • 6.4 可视化

摘要

摘要 航空图像中的小物体检测(TOD)具有挑战性,因为一个小物体只包含几个像素。由于缺乏对鉴别性特征的监督,最先进的物体检测对微小的物体不能提供令人满意的结果。我们的关键观察是(IOU)测量用基于锚点的检测器时,测量和扩展对微小位置偏差非常敏感,这大大降低了标签分布的质量。为了解决这个问题,我们提出了一个新的评估测量,称为瓦瑟斯坦的归一化距离(NWD)基于排名的新分配(RKA)微小目标检测的策略。提出的NWD-RK该策略可以很容易地嵌入各种基于锚点的检测器中,以取代基于标准的检测器IOU阈值策略显著改善了标签分配,为网络培训提供了足够的监督信息。测试四个数据集,NWD-RKA微小目标检测性能可以大大提高。另外,航空图像(AI-TOD)在检测数据集中的小物体时,我们需要仔细地重新标记它,并发布它AI-TOD-v2及相应的基准测试。在AI-TOD-v在2中,注释和定位错误的缺失大大减少,促进了更可靠的训练和验证过程。在AI-TOD-v2上,将NWD-RKA与目前最先进的算法相比,嵌入检测器的检测性能提高了4.3个AP点。

:由于测试目标本身的面积很小,通常IOU对这个目标的位置偏差很敏感。作者提出 Normalized Wasserstein Distance (NWD)和 RanKing-based Assigning (RKA)这两种算法用于改进这个问题AI-TOD称为数据集AI-TOD-v2。

7、结论

在这篇文章中,我们提出了一个新的NWD-RKA该方法检测航空图像中的小物体,并发布了精心优化的数据集AI-TOD-v2及相应的基准。提议的NWD-RKA该方法是基于排序的标签分配策略,采用归一化瓦瑟斯坦距离和标签分配策略。此外,NWD-RKA它可以很容易地嵌入各种基于锚点的检测领域,以提高微物体检测的性能。新构建的AI-TOD-v2在所有航空图像数据集中,平均目标最小。四个数据集中的大量实验表明,我们的方法可以大大提高小物体探测器的性能AI-TOD-v达到最先进的水平。 我们希望结合我们的开放访问数据集和有前途的检测性能,鼓励世界视觉和计算机视觉社区考虑航空图像中小物体检测的具有挑战性的问题。此外,定制算法可以公平比较,以促进TOD研究的发展。 :对应摘要,NWD-RKA与普通相比,算法对微小目标的检测性能IOU同时,我希望航空图像检测研究人员能够使用它AI-TOD-v2。

1、介绍

小物体在航空图像中很常见。同时,在航空图像中检测小物体有许多应用场景,包括车辆检测、交通状况监测和海事救援。虽然深度神经网络的发展取得了重大进展(Ren等人,2015;Lin等人,2017b;Tian等人,2019),但大部分都是用来检测正常大小的物体。航空图像中的小物体(在AI-TOD数据集中小于16×16像素(Wangetal.,2021a))外观信息往往极其有限,给学习识别特征带来了巨大的挑战,导致检测小物体时的巨大失败案例(Singh等人,2018;Wang等人,2021a;Yu等人,2020年)。 检测小物体(TOD)最新进展主要集中在提高特征识别能力上(Lin等人,2017a;赵等人,2019;Qiao等人,2021;李等人,2017;白等人,2018;Noh等人,2019年)。归一化输入图像尺度,以提高小物体和相应特征的分辨率(Singh和Davis,2018;Singh等人,2018).产生对抗网络(GAN)可直接生成小对象的超分析表示(Li等人,2017;Bai等人,2018;Noh等人,2019年)。此外,特征金字塔网络(FPN)提出学习多尺度特征,实现不变尺度的检测器(Lin等人,2017a;Zhao等人,2019;Qiao等人,2021年)。事实上,现有的方法在一定程度上得到了改进TOD性能,但通常通过额外的成本来提高精度。 除了学习识别特征外,训练样本选择的质量对基于锚点的微物体检测起着重要作用(Zhangetal.,2020年),正负样本的标签至关重要。然而,对于一个小物体来说,只有少数像素的属性会增加选择训练样本的难度。如图1和图2所示,我们有以下两个关键观察结果。 IOU对不同尺度物体的敏感性差异很大。具体来说,这个小目标是5×当8像素时,较小的位置偏差会导致IoU结果显著下降(从0).54到0.14)最终导致标签分布不准确。但是,有2000×320像素的普通对象位置偏差相同IOU结果略有变化(从0.97到0.91)。图2显示了四种不同尺度的物体iou-偏差曲线,随着物体尺寸的变小,曲线下降得更快。值得注意的是,IoU敏感性来自于边界框位置离散变化的特殊性。换句话说,随着物体尺度的增加,IoU值从单元像素偏差逐渐接近连续变化,因此在检测正常大小的物体时,通常忽略IoU的离散性。当边界框不重叠或相互包容时,可以观察到,IoU不能反映它们的位置关系,这通常是一个小边界框。 上述观察结果表明,IoU不适合评估小物体之间的位置关系,很容易导致标签分配的三个缺点。具体来说,IoU阈值(????,????)例如,在基于锚点的检测器中分配正负训练样本RPN中使用(0.7,0.3)(Girshick,2015)。首先,IoU对小物体的敏感性使位置偏差变小,锚定标签翻转。在目前的测量方法下,大多数锚定候选框变成负样本训练,导致tiny正/负训练样本数量不平衡。其次,我们发现基础iou规模不平衡严重。在AI-TOD数据集中(Wangetal.,2021a)中间,分配给每 ground-truth(gt)正样本的平均数量极不平衡,大尺度物体比小尺度物体分布更多。因此,该网络倾向于优化更大的对象。尽管动态分配策略,如ATSS(Zhangetal.,2020)根据对象的统计特征自适应设置IoU阈值分配正负标签,IOU敏感性使得很难找到良好的阈值,并为微物体检测提供高质量的正负样本。最后,在目前的测量方法下,样本补偿分配策略并不理想。为了使每个例子得到充分的训练,启发方法通常用于确保每个例子gt至少有一个训练样本(Ren等人,2015;Zhang等人,2017;Xu等人,2021),我们称这种方法为样本补偿策略。然而,IoU当两个框分开时,保持为零。在这种情况下,很难遵循相同的要求IoU提供合理的锚点候选等级。 此外,我们建议召集专家仔细重新标记我们的初步阶段TOD数据集(Wangetal.,2021a)据我们统计,标签噪声问题得到了显著缓解,以前没有注释的例子增加了5万多个。AI-TOD-v28个类别,28张,036张图片,752,754个例子。I-TOD-v2的平均绝对对象大小只有12.7像素,据我们所知,是所有对象检测数据集中对象尺寸最小的数据集。然后,为了促进算法的开发和与AI-TOD-v2的比较,我们建立了一个包含比初步版本更多基线的基准测试(Wangetal.,2021a)。 本文的贡献有三方面: 我们提出了NWD-RKA作为一种更好的针对小物体训练样本分配策略,可以同时缓解基于IOU阈值策略的三个缺点(微小物体的严重正负样本不平衡,比例样本不平衡,样品补偿失败) 我们仔细地重新标记AI-TOD并发布AI-TOD-v2,其中标签噪声问题显著缓解。此外,我们还通过几个基线检测器建立了一个全面的基准测试。训练集/验证集和注释是公开的 我们提出的NWD-RKA可以应用于各种基于锚点的检测器,并提高它们在微小物体上的性能。在AI-TOD-v2数据集上,我们实现了24.7AP和57.2AP0.5的性能,它的表现远远超过了最先进的竞争对手。此外,在AI-TOD、VisDrone2019和DOTA-v2.0数据集上也可以看到显著的改进。 本文的其余部分组织如下。在第2节中,我们简要地描述了相关的工作。在第3节中,我们展示了AI-TOD-v2的细节。详细描述了所提出的方法,包括NWD的建模和基于NWD-RKA的检测器的设计。然后在第4节中提供。接下来,在第5节中对不同的指标和NWD-RKA进行了深入的分析。然后,在第6节中讨论了实验结果。最后,我们得出这个结论第7节中的纸张。 :主要讲解标准的IOU对于微小物体检测的缺陷,1、对位置变化敏感 2、两个框没有重合或是两个框相容的时候,IOU不能反映两个框的位置关系。

2、相关工作

2.1 航空目标检测数据集

在航空目标探测中,已经提出了许多数据集来促进其发展。例如,DIOR(Li等人,2020b)、DOTA(Xia等人,2018)、xView(Lam等人,2018)、Vis无人机(Zhu等人,2018年)、HRSC2016(Liu等人,2016b)、VEDAI(拉扎卡里沃尼和Jurie,2016)、NWPU VHR-10(Cheng等人,2014)、UAVDT(Yu等人,2019)和FAIR1M(Sun等人,2021b)都是航空目标检测数据集。然而,这些数据集的目标平均像素大小远远大于32像素,而大于32像素的目标占据了大部分的数据集,这表明这些航空图像数据集不适用于评估微小物体检测的性能。虽然也有一些数据集专注于微小的目标检测任务(例如,TinyPerson(Yuetal.,2020), R 2 R^2 R2-CNN(Pang等人,2019年),TinyPerson只包含现实场景中的一类人,而 R 2 R^2 R2-CNN的数据集并不公开。 相比之下,我们提出的AI-TOD-v2是专门用于航空图像中的微小物体检测。AI-TOD-v2的目标平均像素大小只有12.7像素,实例小于16个像素占86%,这比现有的数据集要小得多。

2.2 微小目标检测策略

以往的大多数小/微小目标检测策略都大致可以分为以下五类:多尺度特征学习、基于上下文的检测、数据增强、设计制定更好的训练策略(Tongetal.,2020)和标签分配策略。 一种简单而经典的方法是将输入图像调整到不同的尺度,训练不同的检测器,每个检测器都可以在一定的尺度范围内获得最好的性能。它通过额外的计算成本提高了对微小物体的检测性能。为降低计算成本,部分工作(Liu等,2016a;曹等,2018;邓等,2018;林等,2017a;张等,2018;Yang等人,2018;Zheng等人,2020b)试图构建不同尺度的特征图。例如,SSD(Liuetal.,2016a)从不同分辨率的特征层中检测目标,以及特征金字塔网络(FPN)(Linetal.,2017a)构建了一个具有横向连接的自顶向下的结构,并结合了不同尺度的特征信息,提高了微小目标的检测性能。基于这两个基础网络,许多工作,包括特征融合SSD(FFSSD)(Cao等人,2018)、多尺度CNN(MSCNN)(Deng等人,2018)和深度特征金字塔网络(DFPN)(Yang等人,2018年)被提出。 目标与图像中的背景和环境信息密切相关。背景信息在物体检测中起着重要的作用,特别是当一个物体很小和它的特征信息有限。多区域CNN(MRCNN)(Gidaris和科莫达基斯,2015)利用局部上下文信息,从目标推荐的子区域和简单地连接中提取特性。Inside-Outside Network(ION)(Belletal.,2016)通过使用感兴趣区域(RoI)内外的特性来利用全局上下文信息。关系网络(HuetHu等人)通过外观特征与几何形状之间的相互作用,建立了物体之间的关联模型。 人们普遍认为,可以通过使用更多的数据进行训练来提高检测器的性能。同样地,通过数据增强,可以提高微小物体检测器的性能。一个简单而有效的方法是收集更多的小对象数据,制作高质量的数据集。一些简单的数据增强方法包括图像翻转、上采样、下采样、旋转等。(Kisantal等人,2019年)发现小目标表示的缺乏是数据集中导致小目标检测恶化的因素之一。(Kisantal等人,2019年)建议通过对包含的小目标的图像进行过采样和复制粘贴小目标进行数据增强。 受观察结果的启发,同时检测微小物体和大型物体是具有挑战性的。Singh等人提议有选择地训练特定尺度范围内的目标。此外,Kim等人(Kimetal.,2018)引入尺度感知网络(SAN),将从不同空间提取的特征映射到一个尺度不变的子空间上,使检测器对尺度变化的鲁棒性更强。 将高质量的锚点分配给微小物体的 g t gt gt框是一个挑战。一种简单的方法是在选择正样本时降低IoU阈值。虽然它可以使小物体匹配更多锚框,训练样本的整体质量就会下降。此外,最近的许多工作试图使标签分配过程更具适应性,旨在提高检测性能(Ge等人,2021年)。例如,Zhang等人(Zhang等人,2020)提出了一种自适应训练样本选择(ATSS),提出了一种自适应训练样本选择(ATSS),通过对一组锚点的IoU的统计值,自动计算每个gt的正/负样本的阈值。概率锚点分配(PAA)(KimandLee,2020)假设正/负样本的联合损失分布遵循高斯分布。此外,最优传输分配(OTA)(Geetal.,2021)将标签分配过程定义为最优传输问题。然而,这些方法都使用IoU度量来衡量两个边界框之间的相似性,主要关注标签分配的阈值设置,这不适用于TOD。 正如之前的工作(Shermeyer和VanEtten,2019)所述,通过深度超分辨率框架提高图像的分辨率可以提高卫星图像中的目标检测性能。一些方法提出了将超分辨率(SR)策略集成到检测管道中,以增强特征表示,提高微小目标的检测性能。例如,提出了一种边缘增强的SRGAN(Rabbietal.,2020)来增强遥感图像,从而提高对小物体的检测性能。通过在检测器中添加一个辅助GAN在框架上,该工作(Courtraietal.,2020)提高了SR架构的质量,提高了目标检测性能。此外,循环GAN和残差特征聚合来改进SR框架(Bashir和Wang,2021),显著提高了小物体的检测性能。 一些研究试图将核心检测结果直接用于微小物体。掩模引导的SSD(Sunetal.,2021a)提出使用上下文信息增强检测特征并消除背景特征与分割掩模,在小目标检测上表现出良好的性能。YOLOFine(Phametal.,2020)改进了YOLO以适应小目标检测任务,同时对小目标检测具有较高的效率和精度。此外,还设计了一种改进的快速R-CNN(Renetal.,2018),用于通过提高分辨率来检测小物体的FPN和结合了几种训练策略 相比之下,我们的方法主要侧重于设计一个更好的相似性度量及其定制的标签分配策略,可用于替代对象检测器中基于iou的标签分配策略。 介绍了目前基于小目标检测的一些方法,但这些方法没有更侧重于IOU方向进行的算法优化。

3、数据集

我们基于初步工作AI-TOD构建了WI-TOD-v2数据集(Wangetal.,2021a)。我们观察到有许多遗漏的对象需要注释,这主要是由于AI-TOD基于公开航空图像数据集(Xia等,2018;Lam等,2018;朱等,2018;空客,2018;李等,2020b),不用于微小物体检测,标签噪声问题显著地影响了微小物体检测的训练和验证。这促使我们精心地重新标记AI-TOD数据集,从而使检测模型的训练和验证更加可靠。此外,我们建立了一个更全面的基准和更多的基准检测器,以鼓励在航空图像中的微小物体检测的研究。注意,AI-TOD和AI-TOD-v2共享相同的图像,但包含不同的标注。 数据介绍

4、方法

在本节中,我们首先描述了小边界框之间的归一化高斯瓦瑟斯坦距离(NWD)的建模。然后,我们展示了我们提出的基于ranking的分配(RKA)的过程战略及其与NWD的结合。

4.1 归一化高斯瓦瑟斯坦距离(NGWD)

IoU实际上是计算两个有限样本集相似度的Jaccard相似度系数,受此启发,我们基于瓦瑟斯坦距离为微小物体设计了一个更好的度量方法,因为它可以一致地反映分布之间的距离,即使它们没有重叠。因此,在度量微小物体之间的相似性方面,该新的度量方法比IoU具有更好的性能。详情如下: 对于微小的物体,在它们的边界框中往往会有一些背景像素,因为大多数真实的物体都不是严格的矩形。在这些边界框中,前景像素和背景像素都集中在边界框的中心和边界上。为了更好地描述边界框中不同像素的权重,边界盒可以被建模为二维(2D)高斯分布,其中,边界框的中心像素的权重最高,并且像素的重要性从中心到边界都在减小。我们遵循将边界框的中心点作为高斯分布均值向量的范式(Wangetal.,2021b;Golman等,2019;Yang等,2021)具体来说,对于水平边界框 R = ( c x , c y , w , h ) R=(cx,cy,w,h) R=(cx,cy,w,h),其中 ( c x , c y ) (cx,cy) (cx,cy)、 w w w和 h h h分别表示中心坐标、宽度和高度。其内接椭圆的方程可以表示为: ( x − u x ) 2 / σ x 2 + ( y − u y ) 2 / σ y 2 = 1 (x-u_x)^2 /\sigma_x^2 + (y-u_y)^2/\sigma_y^2=1 (x−ux​)2/σx2​+(y−uy​)2/σy2​=1.式中 ( u x , u y ) (u_x,u_y) (ux​,uy​)为椭圆的中心坐标, σ x \sigma_x σx​和 σ y \sigma_y σy​是沿𝑥和𝑦轴的半轴的长度,相应的 u x = c x , u y = c y , σ x = w / 2 , σ y = h / 2 u_x=cx,u_y=cy, \sigma_x=w/2,\sigma_y=h/2 ux​=cx,uy​=cy,σx​=w/2,σy​=h/2.二维高斯分布的概率密度函数为: f ( x ∣ u , ϵ ) = e x p ( − 1 2 ( x − u ) ⊤ ϵ − 1 ( x − u ) ) 2 π ∣ ϵ ∣ 1 2 f(x|u,\epsilon)=\frac{exp(-\frac{1}{2}(x-u)^\top\epsilon^{-1}(x-u))}{2\pi|\epsilon|^\frac{1}{2}} f(x∣u,ϵ)=2π∣ϵ∣21​exp(−21​(x−u)⊤ϵ−1(x−u))​

其中 x , u x,u x,u和 ϵ \epsilon ϵ表示高斯分布的坐标 ( x , y ) (x,y) (x,y)、均值向量和协方差矩阵。。因此,水平边界框 R = ( c x , c y , w , h ) R=(cx,cy,w,h) R=(cx,cy,w,h)可以被建模为一个二维高斯分布的 N ( u , ϵ ) \mathcal N(u,\epsilon) N(u,ϵ): u = [ c x c y ] u=\begin{bmatrix} cx \\ cy \end{bmatrix} u=[cxcy​], ϵ = [ w 2 4 0 0 h 2 4 ] \epsilon=\begin{bmatrix} \frac{w^2}{4} & 0 \\ 0 & \frac{h^2}{4} \end{bmatrix} ϵ=[4w2​0​04h2​​] 此外,边界框𝐴和𝐵之间的相似性可以转换为两个高斯分布之间的分布距离 我们使用来自最优运输理论(Peyreetal.,2019)的来计算分布距离。 u 1 = N ( m 1 , ϵ 1 ) u_1=\mathcal N(m_1,\epsilon_1) u1​=N(m1​,ϵ1​)和 u 2 = ( m 2 , ϵ 2 ) u_2=\mathcal(m_2,\epsilon_2) u2​=(m2​,ϵ2​), u 1 u_1 u1​和 u 2 u_2 u2​之间的二阶瓦瑟斯坦距离可以简化为: W 2 2 ( u 1 , u 2 ) = ∣ ∣ m 1 − m 2 ∣ ∣ 2 2 + ∣ ∣ ϵ 1 1 2 − ϵ 2 1 2 ∣ ∣ F 2 W^2_2(u_1,u_2)=||m_1-m_2||_2^2 + ||\epsilon^\frac{1}{2}_1 - \epsilon^\frac{1}{2}_2||^2_F W22​(u1​,u2​) 标签: 矩形连接器he006

锐单商城拥有海量元器件数据手册IC替代型号,打造 电子元器件IC百科大全!

锐单商城 - 一站式电子元器件采购平台