点击上方“”,选择加"
重磅干货,第一时间送达
链接:https://pan.baidu.com/s/17oy5JBnmDDOtKasfPrWNiQ 提取码:lk5z
来自NVIDIA的SOTA文章的语义分割,代码开源。
论文:https://arxiv.org/abs/2005.10821
代码链接:
https://github.com/NVIDIA/semanic-segmentation
有一项重要的技术,通常用于自动驾驶、医学成像,甚至缩放虚拟背景:语义分割。这标记了图像中的像素N类中的一个(N是任何数量的类别)的过程,可以是汽车、道路、人或树。就医学图像而言,类别对应于不同的器官或解剖结构。
NVIDIA Research我们正在研究语义分割,因为它是一种广泛应用的技术。我们还认为,改进语义分割的技术也可能有助于改进许多其他密集的预测任务,如光流预测(预测物体的运动)、图像超分辨率等。
在两个共同基准中,我们开发了一种新的语义分割方法:Cityscapes和Mapillary Vistas上达到了SOTA的结果。IOU是描述语义分割预测精度的交并比。
在Cityscapes该方法在测试集中达到85.4 IOU,与其他方法相比,考虑到这些分数之间的接近程度是一个相当大的进步。
在Mapillary在验证集中使用单个模型达到61.1 IOU,与其他使用模型集成相比,最佳结果是58.7。
为了开发这种新方法,我们考虑了需要改进图像的特定区域。图2显示了两种最大的失败模式:细节错误和类别混淆。
图2显示了由于规模原因导致语义分割的常见错误模式。在第一行中,它缩小了0.5x在图像中,细邮箱分割不一致,但扩展了2.0x在图像中,预测得更好。在第二行中,较大的道路/隔离带区域分辨率较低(0.5x)下分割效果好在这个例子中,有两个问题:细节和类别混淆。
在第一张图片中,邮箱的细节在2倍尺度的预测中得到了最好的区分,但在0.5倍尺度下的分辨率很差。
与中值分割相比,0.5x对道路的粗预测比2x比例更好,2x规模下存在类混淆。
我们的解决方案在这两个问题上的表现要好得多,几乎没有混淆,对细节的预测也更加平滑和一致。
在确定了这些错误模式后,团队测试了许多不同的策略,包括不同的网络主干(例如,WiderResnet-38、EfficientNet-B4、xcepase -71),以及不同的分割解码器(例如,DeeperLab)。我们决定采用它HRNet作为网络主干,RMI作为主要损失函数。
HRNet它已被证明非常适合计算机视觉任务,因为它保持了比以前更多的网络WiderResnet38分辨率高2倍。RMI损失提供了一种获得结构性损失的方法,无需诉诸条件随机场等。HRNet和RMI损失有助于解决细节和类混淆。
为了进一步解决主要错误模式,我们创新了多尺度注意力和自动标记两种方法。
在计算机视觉模型中,多尺度推理通常用于获得最佳结果。多尺度图像在网络中运行,结果由平均池组合。
使用平均池作为一种组合策略,将所有规模视为同样重要的规模。然而,精细的细节通常是最好的的尺度上最好的预测,大的物体在更低的尺度上更好地预测,在更低的尺度上,网络的感觉领域可以更好地理解场景。
学习如何将多尺度预测与像素级结合起来,有助于解决这个问题。以前研究过这一策略,Chen等人的Attention to Scale是最接近的。在这个方法中,同时学习所有尺度的注意力。我们将其称为显式方法,如下图所示。
图3,Chen等人的显式方法是学习一套固定尺度的密集注意力mask,将它们结合起来,形成最终的语义预测。受Chen受方法的启发,我们提出了一个多尺度的注意力模型,也学会了预测一个密集的模型mask,结合多尺度预测。但在这种方法中,我们学会了相对的注意力mask,如图4所示,用于注意一个尺度和下一个更高的尺度。我们称之为层次方法。
图4,我们的分层多尺度注意力方法。上图:在训练过程中,我们的模型学会了预测两个相邻尺度之间的注意力。下图:推理是链式/分层完成的,以组合多个预测尺度。低尺度的注意力决定了下一个更高尺度的贡献。这种方法的主要好处如下:
理论训练成本比Chen方法降低了4左右x。
训练只在成对尺度上进行,推理灵活,可以在任何尺度上进行。
图5显示了我们方法的一些例子,以及我们学到的注意力mask。我们很少关注左图中邮箱的细节0.5x但对2的预测.0x预测尺度非常重要。相反,对于右侧图像中非常大的道路/隔离带区域,注意机制学会最大限度地利用较低的尺度(0.5x),以及更少地使用错误的2.0x预测。
图5,两种不同场景的语义和注意力预测。左边的场景说明了一个细节,右边的场景说明了一个大的区域划分。白色表示高值(接近1).0)。给定像素在所有尺度上的注意力值总和为1.0。左:路边的细邮箱在2倍的尺度下得到最好的分辨率,注意力成功地关注了这个尺度而不是其他尺度,这可以从2倍注意力图像中的白色邮箱中得到证明。右图:0大道路/隔离带区域.5x预测效果最好,该区域的注意力确实成功集中在0.5x尺度上。改善城市景观语义分割结果的常用方法是使用大量粗标记数据。这个数据大约是基线精细标记数据的7倍。Cityscapes上的SOTA该方法将使用粗标签,或使用粗标签数据对网络进行预训练,或与细标签数据混合。
然而,由于噪音和不准确,粗标签是一个挑战。ground truth粗标签如图6所示为“原始粗标签”。
图6,自动生成粗图像标签的例子。自动生成的粗标签(右)比原始标签提供了更多ground truth粗标签(中间)更详细的标签细节。这种更精细的标签改善了标签的分布,因为小物品和大物品现在被表示,而不仅仅是大物品。受最近工作的启发,我们将自动标记作为产生更丰富标签的方法来填写ground truth粗标签的标签空白。我们生成的自动标签显示了比基线粗标签更好的细节,如图6所示。我们认为,填补长尾数据分布的空白有助于泛化。
使用自动标记的简单方法,如使用来自教师网络的各种概率来指导学生,将在磁盘空间上花费非常大的成本。跨越19个类别的2万张,分辨率为1920张×1080粗图像生成标签需要2左右tb存储空间。如此昂贵的最大影响将是降低训练成绩。
我们使用硬阈值而不是软阈值来占用生成的标签空间TB大大减少到600mb。在这种方法中,教师预测概率 > 0.5是有效的,低概率的预测被视为忽略类。表4显示了将粗数据添加到细数据中并使用集成的数据培训新生的好处。
表4,这里显示的基线基线方法HRNet-OCR作为主干和我们的多尺度注意方法。我们比较了两种模式:使用ground truth 细标签 ground truth粗标签训练到ground truth 细标签 auto-粗标签(我们的方法)。基线上使用自动粗化标签的方法提高了0.9的IOU。 图7,自动生成粗图像标签的例子
该模型使用PyTorch框架在4个DGX节点上对fp16张量核进行自动混合精度训练。
论文:https://arxiv.org/abs/2005.10821
代码:https://github.com/nvidia/semanic-segmentation
英文原文:https://developer.nvidia.com/blog/using-multi-scale-attention-for-semantic-segmentation/
在「
在「
在「
交流群
欢迎加入公众号读者群一起和同行交流,目前有SLAM、三维视觉、传感器、自动驾驶、计算摄影、检测、分割、识别、医学影像、GAN、算法竞赛等微信群(以后会逐渐细分),请扫描下面微信号加群,备注:”昵称+学校/公司+研究方向“,例如:”张三 + 上海交大 + 视觉SLAM“。请按照格式备注,否则不予通过。添加成功后会根据研究方向邀请进入相关微信群。