资讯详情

NWD-Based Model | 小目标检测新范式,抛弃IoU-Based暴力涨点(登顶SOTA)

点击上方“3D视觉车间,选择星标

第一时间送达干货

842416fa866fd1f04052f944b4d2556e.png

作者丨ChaucerG

来源集智书童

小目标检测是一个非常具有挑战性的问题,因为小目标只包含几个像素大小。作者证明,由于缺乏外观信息,最先进的探测器在小目标上得不到令人满意的结果。作者的主要观察结果是基于IoU (Intersection over Union, IoU)的指标,如IoU基于小目标的位置偏差,本身及其扩展非常敏感Anchor使用检测器时,检测性能严重降低。

为了解决这个问题,本文提出了一个新的基础Wasserstein距离的小目标检测评估方法。具体来说,先将BBox建模被称为二维高斯分布,然后提出了一个新的测量标准Normalized Wasserstein Distance(NWD),它们之间的相似性是通过它们对应的高斯分布来计算的。提出的NWD测量可以很容易地嵌入到任何基础上Anchor的检测器的Assignment、替代常用的非最大抑制和损失函数IoU度量。

作者用于小目标检测(AI-TOD)对新数据集进行评估,其中平均目标比现有物体检测数据集小得多。大量实验表明,当使用时NWD测量时,本文方法的性能比标准fine-tuning baseline高出6.7 AP,比最先进的SOTA模型高出6.0 AP。

1问题刨析

小目标在许多现实世界的应用中无处不在,包括驾驶辅助、大规模监控和海上救援。虽然由于深度神经网络的发展,目标检测取得了显著进展,但大多用于检测正常尺寸的目标。(AI-TOD数据集中小于像素)往往表现出极其有限的外观信息,增加了识别特征的学习难度,导致小目标检测失败。

小目标检测(TOD)研究进展主要集中在特征识别的改进上。为了提高小目标和相应特征的分辨率,输入图像的尺度归一化。产生对抗网络(Generative Adversarial Network, GAN)提出直接生成小目标的超分辨表示。此外,还提出了金字塔网络的特点(Feature Pyramid Network, FPN)学习多尺度特性,实现尺度不变检测器。事实上,现有的方法在一定程度上提高了TOD性能,但提高精度通常会带来额外的计算成本。

除了学习可以区分特征外,训练样本选择的质量是基于Anchor小目标探测器也很重要,正负标签的分配非常重要。然而,对于小目标,少量像素的属性会增加选择训练样本的难度。从图1可以看出,IoU对不同尺度物体的敏感性差异很大。

具体来说,对于像素的小目标,轻微的位置偏差会导致明显的位置偏差IoU下降(从0.53下降到0.06)标签分布不准确。然而,对于像素的正常目标,IoU略有变化(从0.90到0.65)位置偏差相同。此外,图2还给出了4个不同的目标尺度IoU-Deviation随着目标尺度的降低,曲线下降得更快。值得注意的是,IoU敏感性来自BBox位置只能是离散变化的特殊性。

这种现象意味着IoU测量对离散位置偏差的目标尺度发生变化,最终导致标签分配出现以下两个缺陷(其中,IoU阈值用于Anchor-Based检测器中Pos/Neg训练样本的分配(0.7,0.3)用于Region Proposal Network (RPN)):

  • 首先,由于IoU对小目标的敏感性使位置偏差变小Anchor标记,导致Pos/Neg样本特征相似,网络收敛困难;

  • 其次,利用IoU作者发现了测量AI-TOD数据集中分配给每个Ground-Truth (GT)由于平均数小于1,因为GT与任何Anchor之间的IoU低于最小正阈值。

因此,培训小目标检测缺乏监督信息。ATSS动态分配策略可根据物体的统计特征自适应分配Pos/Neg标签的IoU阈值,但IoU敏感性使得小目标检测难以找到良好的阈值并提供高质量Pos/Neg样本。

鉴于IoU这不是一个很好的小目标测量标准。本文提出了一种新的测量标准Wasserstein距离来度量BBox替代标准的相似性IoU。具体来说:

  • 首先,将包围盒建模成二维高斯分布;

  • 然后,使用提出的Normalized Wasserstein Distance (NWD)测量导出高斯分布的相似性。

  1. 无论小目标之间是否重叠,都可以测量分布的相似性;

  2. NWD对不同尺度的目标不敏感,更适合测量小目标之间的相似性。

NWD可应用于One-Stage和Multi-Stage Anchor-Based探测器。NWD它不仅可以取代标签分配IoU,它还可以取代非最大抑制IoU(NMS)回归损失函数。TOD数据集AI-TOD本文提出的大量实验表明NWD所有检测器的检测性能都能不断提高。

  1. 分析了IoU提出了对小目标定位偏差的敏感性NWD作为衡量2个BBox更好地衡量相似性;

  2. 将NWD应用于Anchor-Based检测器的标签分配,NMS还有损失函数,并设计了一个小目标检测器;

  3. 提出的NWD它可以显著提高当前的流行程度Anchor-Based检测器的TOD性能,在AI-TOD数据集上Faster R-CNN实现了从11.1%到17.性能提升6%。

2相关研究

2.1 小目标检测

以往的小目标检测方法大致可分为三类:

  1. 多尺度特征学习

  2. 设计更好的训练策略

  3. 基于GAN增强的检测

1.多尺度特征学习

一种简单而经典的方法是将输入图像的大小调整为不同的尺度,并训练不同的检测器,每一个检测器都能在一定的尺度范围内达到最佳性能。一些研究试图构建不同尺度的特征级金字塔,以降低计算成本。例如,SSD检测不同分辨率特征图中的目标。金字塔网络的特点(Feature Pyramid Network, FPN)自顶向下结构采用横向连接,结合不同尺度的特征信息,提高目标检测性能。在此基础上,提出了进一步的改进FPN包括性能方法PANet、BiFPN、Recursive-FPN。此外,TridentNet构建具有不同感觉野的并行多分支系统结构,以生成特定比例的特征图。

2.更好的训练策略

Singh很难观察和启发等人同时检测小目标和大目标。SNIP和SNIPER选择性训练目标在一定规模内。Kim等人引入了Scale-Aware网络(SAN),并将从不同空间提取的特征映射到不变尺度的子空间,使检测器对尺度变化具有更强的鲁棒性。

3、基于GAN增强的检测

Perceptual GAN是第一次尝试GAN应用于小目标检测的算法通过缩小小目标与大目标的表示差异来改进小目标检测。Bai等人提出了一MT-GAN训练图像超分辨率模型,以增强小的ROI特点。此外,一些研究提出了一种基于建议检测器的小目标检测性能的特征超分辨率方法。

2.2目标检测评价指标

IoU是测量边界框相似性最广泛使用的测量方法。然而,IoU边界框只能重叠。为了解决这个问题,提出了一个问题Generalized IoU (GIoU)该方法通过最小外界边界框相关处罚来实现。然而,当一个边界框包含另一个边界框时,GIoU将降级为IoU。所以,为了克服IoU和GIoU提出了局限性DIoU和CIoU,它们考虑了三个几何特性:重叠面积、中心点距离和纵横比。

GIoU、CIoU和DIoU主要应用于NMS和loss function中代替IoU为了提高目标检测性能,但很少讨论标签分配的应用。在类似的工作中,Yang等人也提出了Gaussian Wasserstein Distance (GWD)损失用于Oriented通过测量目标检测Oriented BBox位置关系。然而,该方法的目的是解决它Oriented目标检测中的边界不连续square-like问题。本文的动机是减少IoU本文可以提出对小目标位置偏差的敏感性的方法Anchor-Based取代目标检测IoU。

2.3 标签分配策略

将高质量的Anchor分配到GT小目标Box中是一项具有挑战性的任务。在选择正样本时,减少一个简单的方法IoU阈值。虽然小目标可以匹配更多Anchor,但训练样本的整体质量会下降。此外,为了提高检测性能,最近的许多研究都试图使标签分配过程更加自适应。例如,Zhang其他人提出了自适应训练样本的选择(Adaptive Training Sample Selection, ATSS),通过一组Anchor的IoU自动计算每个统计值GT的Pos/Neg阈值。Kang假设等人Pos/Neg联合损失分布服从高斯分布,引入概率Anchor Assignment (PAA)。此外,Optimal Transport Assignment (OTA)以标签分配过程为全球视角的最佳运输问题。但是这些方法都是用的IoU测量2个BBox相似性主要集中在标签分配的阈值设置上,不适合TOD。相比之下,本文究重点是设计一种更好的评价指标,用以替代小目标检测中的IoU指标。

3本文方法

IoU实际上是计算2个有限样本集相似度的Jaccard相似系数,受此启发,作者基于Wasserstein Distance设计了一个更好的度量小目标的度量方法,因为它可以一致地反映分布之间的距离,即使它们没有重叠。因此,在测量小目标之间的相似性方面,新度量比IoU具有更好的性能。具体内容如下。

3.1 为什么是Wasserstein Distance?

学好实变和测度论对机器学习是很有帮助的。对于暂时没有这些数学背景的同学,可以安全的把概率测度(probability measure)理解为概率分布(probability distribution),只要关心的空间是。2个概率分布之间的距离有很多种描述方式,一个比较脍炙人口的是KL divergence:

尽管它严格意义上不是一个距离(比如不满足对称性)。

从定义可以看出,KL并不关心几何性质,因为p和q的比较都是在同一点进行的(换句话说,只要,KL并不关心的大小)。举个例子,考虑如下2个一维高斯分布:和,借蛮力可算出

q只是p的一个微小平移,但当平移量趋于0时,KL却blow up了。

这就激励我们定义一种分布间的距离,使其能够把的几何/度量性质也考虑进去。WassersteinDistance就做到了这一点,而且是高调的做到了这一点,因为显式的出现在了定义中。具体的,对于定义在上的概率分布和:

其中是一个上的联合分布,必须同时满足和是其边缘分布。可以是上的任意距离,比如欧式距离,L1 距离等等。举个特例,当和时,唯一符合条件的只有,所以 ,两个delta分布间的距离正好等于它们中心间的距离。

Wasserstein distance是可以定义2个support不重合,甚至一点交集都没有的分布之间的距离的,而KL在这种情况并不适用。

实际应用中Wasserstein distance的计算大都依赖离散化,因为目前只对有限的几个分布存在解析解。对于任意分布可以用delta分布来逼近,这里并不要求是唯一的。对于做同样的近似。。

为什么和的近似能够取相同的n?因为总是可以把当前的近似点拷贝几份然后renormalize,所以取n为两者原始近似点数量的最小公倍数即可。那么

这就变成了一个组合优化的问题。

def Wasserstein(mu, sigma, idx1, idx2):
    p1 = torch.sum(torch.pow((mu[idx1] - mu[idx2]),2),1)
    p2 = torch.sum(torch.pow(torch.pow(sigma[idx1],1/2) - torch.pow(sigma[idx2], 1/2),2) , 1)
    return p1+p2

3.2 BBox的高斯分布建模

对于小目标,由于大多数真实目标都不是严格意义上的矩形,所以它们的BBox中往往会有一些背景像素。在这些BBox中,前景像素和背景像素分别集中在BBox的中心和边界上。为了更好地描述BBox中不同像素的权重,可以将BBox建模为二维高斯分布,其中BBox中心像素的权重最高,像素的重要性从中心到边界递减。具体来说,对于水平边框,其中, 和分别表示中心坐标、宽度和高度。它的内接椭圆方程可以表示为:

在为椭圆的中心坐标,σσ为沿x、y轴的半轴长度。因此,,,σ,σ。

二维高斯分布的概率密度函数为:

其中、µ、为coordinate、的均值向量和高斯分布的协方差矩阵。当

式1中的椭圆将是二维高斯分布的密度轮廓。因此,水平边界框可以建模为二维高斯分布µ,其中:

此外,边界框A和B之间的相似性可以转化为2个高斯分布之间的分布距离。

3.3 Normalized Gaussian Wasserstein Distance

使用Optimal Transport理论中的Wasserstein distance来计算分布距离。对于2个二维高斯分布,和,和之间的Wasserstein distance为:

上式可以简化为:

其中,是Frobenius norm。

此外,对于由BBox 和建模的高斯分布和,上式可进一步简化为:

但是是一个距离度量,不能直接用作相似性度量(即0-1之间的值作为IoU)。因此,使用它的指数形式归一化,得到了新的度量,称为Normalized Wasserstein Distance(NWD):

其中C是与数据集密切相关的常数。在接下来的实验中,设置C到AI-TOD的平均绝对大小并达到最佳性能。此外,观察到C在一定范围内是稳健的,细节将在补充材料中显示。

与IoU相比,NWD在检测小目标方面具有以下优点:

  1. 尺度不确定性;

  2. 位置偏差平滑性;

  3. 测量非重叠或相互包容的边界盒之间的相似性。

如图2所示,在不失通用性的前提下,在以下2种情况下讨论度量值的变化。

在图2的第1行中,保持Box A和Box B的尺度相同,而将Box B沿A的对角线移动。可以看出,这4条NWD曲线完全重合,说明NWD对Box的尺度方差不敏感。此外,可以观察到IoU对微小的位置偏差过于敏感,而位置偏差导致的NWD变化更为平滑。对位置偏差的平滑性表明,在相同阈值下,Pos/Neg样本之间可能比IoU有更好的区分。

在图2的第2行中,在B的边长一半位置延对角线方法A,与IoU相比,NWD的曲线更加平滑,能够一致地反映A与B之间的相似性。

3.4 NWD-based Detectors

提出的NWD可以很容易地集成到任何Anchor-Based Detectors,以取代IoU。在不失一般性的前提下,本文采用了具有代表性的基于Anchor的Faster R-CNN来描述的NWD用法。

具体来说,所有的修改都是在IoU最初使用的3个部分进行的,包括pos/neg label assignment, NMS和Regression loss function。

具体内容如下:

1、NWD-based Label Assignment

Faster R-CNN由2个网络组成:

  • 用于生成区域建议的RPN

  • 基于区域建议检测目标的R-CNN

RPN和R-CNN都包含标签分配过程。

对于RPN,首先生成不同尺度和比例的Anchor,然后给Anchor分配二值标签,训练分类和回归头。

对于R-CNN,标签分配过程与RPN相似,不同之处在于R-CNN的输入就是RPN的输出。

为了克服IoU在小目标检测中的上述缺点,设计了基于NWD的标签分配策略,利用NWD来分配标签。

具体来说,训练的RPN,positive标签将被分配到2种类型的Anchor:

  1. The anchor with the highest NWD value with a gt box and the NWD value is larger than θ;

  2. The anchor that has the NWD value higher than the positive threshold θ with any gt 。

因此,如果Anchor的NWD值低于负阈值θ(所有gt Box),则将给Anchor分配负标签。此外,既没有被分配正标签也没有被分配负标签的Anchor不参与训练过程。需要注意的是,为了将NWD直接应用到Anchor-Based检测器中,实验中使用了原始检测器的θ和θ。

2、NWD-based NMS

NMS是目标检测中不可或缺的一部分,用于抑制冗余预测边界框,其中应用了IoU度量。首先,它根据得分对所有预测框进行排序。选择得分最高的预测框M,并抑制与M有显著重叠(使用预定义的阈值Nt)的所有其他预测框。这个过程递归地应用于其余的框。但是,IoU对小目标的敏感性会使许多预测框的IoU值低于Nt,从而导致假阳性预测。

为了解决这一问题,作者认为NWD在小目标检测中是一个更好的NMS标准,因为NWD克服了尺度敏感性问题。此外,只需要几个代码,基于NWD的NMS就可以灵活地集成到任何小目标检测器。

3、NWD-based Regression Loss

IoU-Loss的引入是为了消除训练和测试之间的性能差距。然而,在以下2种情况下IoU-Loss不能提供梯度优化网络:

  1. 预测框与GT框之间没有重叠边界框(即)

  2. 预测框与GT框呈现包含关系(如,)。

此外,这2种情况对小目标是非常普遍的。具体来说,一方面几个像素P的偏差将导致P和G之间没有重叠;另一方面,小目标很容易被错误的预测导致 。因此,IoU-Loss不适合小目标检测器。

CIoU和DIoU虽然可以处理以上2种情况,但由于它们都是基于IoU的,所以对小目标的位置偏差非常敏感。为解决上述问题,作者将NWD指标设计为损失函数:

其中,为预测框p的高斯分布模型,为GT Box G的高斯分布模型。根据介绍,即使在的情况下,基于NWD的损失也可以提供梯度。

4实验

4.1 与IoU度量的对比

1、Comparison in label assignment

Table-1可以看出,与IoU指标相比,NWD的AP最高达到16.1%,比DIoU高了9.6%,说明基于NWD的标签分配可以为小目标提供更高质量的训练样本。

此外,为了分析改进的实质,作者进行了一组统计实验。其中,分别计算在相同的默认阈值下,使用IoU、GIoU、DIoU、CIoU和NWD时,每个gt box匹配的正Anchor的平均数量,分别为0.72、0.71、0.19、0.19和1.05。可以发现,只有NWD才能保证相当数量的正训练样本。

此外,虽然简单地降低基于IoU指标的阈值可以为训练提供更多积极的Anchor,但基于IoU的小目标检测器经过阈值微调后的性能并不优于基于NWD的检测器,这是因为NWD可以解决IoU对小目标位置偏差的敏感性。

2、Comparison in NMS

在本实验中只修改RPN的NMS模块,因为只有RPN中的NMS直接影响检测器的训练过程。可以看出,在训练过程中使用不同的度量来过滤掉多余的预测,也会影响检测性能。具体来说,NWD的最佳AP为11.9%,比IoU的AP提高了0.8%。这意味着当检测小目标时,NWD是一个更好的度量来过滤多余的边界框。

3、Comparison in loss function

在RPN和R-CNN中都修改了损失函数,这两者都会影响检测器的收敛性。也可以看出,基于NWD的loss function的AP最高为12.1%。

4.2 消融实验

将NWD应用于单个模块

实验结果如表2所示。与baseline method相比,RPN和R-CNN中基于NWD的分配模块AP提高最高,分别为6.2%和3.2%,说明IoU导致的小目标训练标签分配问题最为明显。提出的基于NWD的分配策略大大提高了分配质量。

还可以看到,本文提出的方法在6个模块中的5个模块中提高了性能,这显著验证了基于NWD的方法的有效性。而R-CNN的NMS性能下降可能是由于默认的NMS阈值是次优的,需要进行微调来提高性能。

将NWD应用于多个模块

实验结果如表3所示。当训练12个Epoch时,在RPN、R-CNN或所有模块中使用NWD时,检测性能均有显著提高。当将NWD应用于RPN的3个模块时,获得了最佳的17.8%的性能。然而,在所有6个模块中使用NWD时,AP比RPN中仅使用NWD下降了2.6%。为了分析性能下降的原因,增加了一组实验,对网络进行了24个Epoch的训练。可以看出,性能差距从2.6%减小到0.9%,说明在R-CNN中使用NWD时,网络收敛需要更多的时间。因此,在接下来的实验中,只在RPN中使用NWD,以更少的时间获得相当大的性能提升。

4.3 主要结果

1、AI-TOD数据集

2、Visdrone 数据集

4.4 可视化小目标检测结果

AI-TOD数据集上基于IoU的检测器(第1行)和基于NWD的检测器(第2行)的可视化结果上图所示。可以观察到与IoU相比,NWD可显著降低假阴性(FN)。

5参考

[1].A Normalized Gaussian Wasserstein Distance for Tiny Object Detection[2].https://www.zhihu.com/question/41752299

本文仅做学术分享,如有侵权,请联系删文。

1.面向自动驾驶领域的多传感器数据融合技术

2.面向自动驾驶领域的3D点云目标检测全栈学习路线!(单模态+多模态/数据+代码)3.彻底搞透视觉三维重建:原理剖析、代码讲解、及优化改进4.国内首个面向工业级实战的点云处理课程5.激光-视觉-IMU-GPS融合SLAM算法梳理和代码讲解6.彻底搞懂视觉-惯性SLAM:基于VINS-Fusion正式开课啦7.彻底搞懂基于LOAM框架的3D激光SLAM: 源码剖析到算法优化8.彻底剖析室内、室外激光SLAM关键算法原理、代码和实战(cartographer+LOAM +LIO-SAM)

9.从零搭建一套结构光3D重建系统[理论+源码+实践]

10.单目深度估计方法:算法梳理与代码实现

扫码添加小助手微信,可

也可申请加入我们的细分方向交流群,目前主要有等微信群。

一定要备注:,例如:”3D视觉 + 上海交大 + 静静“。请按照格式备注,可快速被通过且邀请进群。也请联系。

▲长按加微信群或投稿

▲长按关注公众号

:针对3D视觉领域的五个方面进行深耕,更有各类大厂的算法工程人员进行技术指导。与此同时,星球将联合知名企业发布3D视觉相关算法开发岗位以及项目对接信息,打造成集技术与就业为一体的铁杆粉丝聚集区,近4000星球成员为创造更好的AI世界共同进步,知识星球入口:

学习3D视觉核心技术,扫描查看介绍,3天内无条件退款

 圈里有高质量教程资料、答疑解惑、助你高效解决问题

标签: gwd150传感器gwd75传感器

锐单商城拥有海量元器件数据手册IC替代型号,打造 电子元器件IC百科大全!

锐单商城 - 一站式电子元器件采购平台