训练AI要“什么自行车” 只用了1万辆小破车 | ICCV2021 VIPriors-锐单电子商城

作者 |阿里安全人工智能治理与可持续发展实验室（AAIG）

编辑 | 杨怡

比赛背景

标记数据集会消耗大量的人力和资源。此外，只有少数科技巨头拥有数十亿的数据点和数千个昂贵的深度学习硬件GPU可供使用。

最近，通过非监督学习、重用现有数据集或合成人工训练数据，研究了如何使用有限的数据来训练深度神经网络。所以这个workshop重点是如何利用少量数据有效训练模型。

ICCV2021年挑战赛分为五条赛道，这些任务不需要巨大的任务GPU长期的集群训练不会大大提高模型结果。比赛页面如下：比赛页面，阿里、蚂蚁、海康、松下、安全、字节、网络、美团等企业和西电、北邮、清华、复旦、南洋理工学院、佛罗里达、罗马大学等国内外大学，我们设计了一套基于比较学习预培训模型测试模型网络，mAP 30.目标测试赛道冠军4%。

比赛介绍

自动定位和检测图像中的目标是计算机视觉的重要应用之一。由于上下文信息，目标检测器可能在图像中预期的位置发现那些丢失的目标物体。如图1所示，红框代表缺失的部件，检测不存在的物体特别不利于自动视觉部件验证或视觉验证的应用，即需要确定物体存在或不存在的应用程序。因此，本次比赛提出DelftBike[6]数据集，作为目标检测轨道的数据集。

图1 DelftBike

图2 图片中零件的位置分布

DelftBikes数据集包含1万辆自行车的图像，每辆自行车有22个密集标记部件。此外，数据集清楚地标记了所有部件的位置和状态(intact)、损坏(damaged)、遮挡(occluded)或缺失(absent)，缺失状态意味着目标已经丢失，但数据集仍然用包围框标记。如图2所示，其中intact，damaged，occluded和absent分别占60%、6%、14%和20%。模型训练和测试只使用可见部分进行评估，即intact、damaged和occluded。如图3所示，是的DelftBikes在一些图片样本中，每张图片有22个自行车零件的围框标签，每个零件都详细标明了清晰的状态信息。对上下文敏感的目标检测器很容易检测到相同形状、方向和位置的缺失部件。如图2所示，图片中22个部件的平均位置和大小表明先验目标的绝对位置信息与上下文有关。

图3 一些DelftBike示例图

解决方案

论文链接：https://arxiv.org/pdf/2106.02523.pdf

注意点：目标检测任务不允许使用任何额外数据，包括在内ImageNet上或其他数据集上预训练的模型、迁移模型等。

1. 数据增强

DelfBike数据集的数据量相对较少，模型很容易拟合到少量的数据样本中。在我们的检测模型训练到24轮后，验证集合mAp逐渐下降。为了获得更多的数据，我们增强了现有的训练数据，包括随机添加高斯噪声、模糊变化、雾化、雨雪等。同时，我们还对一些数量较少的类别进行了有针对性的数据增强，采用泊松融合[1]的方法。

图4 数据增强

2. 自监督模型预训练

在目标检测任务中，模型训练很难从零开始收敛，尤其是数据量不足的时候。除提供的训练数据外，禁止在目标测试比赛中使用其他数据，即没有预训练或迁移学习。但是，我们可以利用竞赛提供的数据，通过自我监督或无监督的方式训练预训练的模型，使模型收敛得更快更好。根据trainval集合的bounding box根据标签信息，我们将原始图片切割并生成133、245个自行车零部件的图片，用于预训练模型的训练。

图5 Momentum Contrast[5]

我们采用的模型预训练方法是Momentum Contrast(MoCo)[5]，MoCo它是一种利用对比学习[10]构建动态字典的方法，可视为字典搜索任务培训编码器，如图5所示，MoCo学习各种下游任务，如图像分类、目标检测等。与q类似的正编码样本定义为已编码的查询q和一组已编码样本k ，其他被定义为负样本k-。如图5所示，比较学习方法是学习编码器F，从而在特征空间中拉近q及其样本k 推远q和负样本之间的距离k-距离。对比损失函数计算如下：

公式1

它是一个温度超参数。反向传输可以通过使用查询序列传输所有样本的梯度，但字典变得非常大，难以更新编码器F。因此，MoCo参数更新公式如公式2所示，提出了动量更新来解决这个问题。MoCo来自同一张图片的设置query和key是正样本对，否则是负样本对。在实验中，为了增强模型的鲁棒性，随机选择不同的图像增强方法来生成正样本对。

公式2

m表示动量系数。

查询编码器和字典编码器分别表示和，编码器可以是任何卷积神经网络，如ResNet，Res2Net。对比学习方法，对编码器模型进行训练，然后对下游检测任务模型进行初始化。本方案采用ResNet-50模型是我们的backbone，因为我们在实验中发现的更深或更复杂backbone检测效果不能带来增益。与此同时，我们的实验也证明，通过自我监督训练的预训练模型比使用预训练模型要好ImageNet预训练模型效果更好。

3. Baseline模型训练

图6 Baseline模型框架

本次比赛我们采用的baseline模型是基于Cascade-RCNN DCN[8] GN[9]目标检测模型。在目标检测中，IOU阈值被用来定义正样本（positive）与负样本（negative），Cascade-RCNN[7]这些检测器由多个检测器组成，通过增加IOU分级训练的阈值。检测器输出更好的分布数据作为下一个检测器的输入，可以解决部分假阳性问题FP问题。Deformable Convolutional networks（DCN）可变形卷积的主要问题是图像任务中的目标尺寸，形状变化不同，插入可变形卷积可以提高网络的特征提取能力，offset其功能是使网络在提取特征时更加注重与训练目标相关的位置，更好地覆盖不同尺寸和形状的目标。BN问题很依赖batch size，大batch size小的时候，BN效果不太好。GN通过对channel解决分组的形式Normalization依赖batch size的问题。

4. 多阈值soft-nms

非最大抑制是anchor-base目标检测模型的重要后处理部分。NMS按得分进行排序，与得分高的框重叠大于一定阈值的得分较低的框会受到抑制。NMS将低分框直接删除，从而降低目标对象检测的召回率。由于比赛提供的数据集训练标签和测试标签都有噪音，高分框往往不是最适合目标对象的测试框。因此，我们使用它soft-NMS代替NMS。此外，我们发现各类边界框的坐标偏差范围不同，导致各类对soft-nms是设定的IOU阈值敏感。每个类别的iou因此，我们为每个类别设置了不同的阈值最优值IOU为了更好地提高目标检测的召回率。

5. Stochastic Weights Averaging(SWA) Cyclic Learning rate[12]

SWA[2]简单地说，它是训练过程中多个阶段生成的模型checkpoints提高模型的泛化性能。第一个记录训练过程epoch的checkpoint为，SWA一般在最后采用周期式学习速率（余弦退火学习速率）额外训练k轮模型，不同的是SWA会取多个checkpoints平均值作为最终模型。如下图所示，是余弦退火学习率，初始学习率一般设置为较大的学习率，然后一轮的训练时间内迅速降低到相对较小的学习率，这样重复k轮。

图7 余弦退火学习速率

图8 SWA

实验分析

1. 实验结果分析

我们通过Tide[11]目标检测错误分析工具对模型评测结果进行分析，如图9所示，其中Cls表示分类错误，Loc表示由于定位导致的错误，Cls+Loc表示定位和分类都是有问题的，Duplicate表示预测框重叠问题，Bkgd表示将背景类预测为目标物体，Missed表示漏检问题。如图10所示，是我们模型的错误分析结果，其中70%以上是因为定位问题导致的假阳（FP）问题。具体原因可以总结为：

（1）训练集合存在噪声标签，gt框包括大量背景以及其他类别目标，训练标签本身带有错误的先验信息导致预测框定位上不是很准确。

（2）训练集Ground Truth和测试集Ground Truth 目标的位置偏差和方差不同，测试集合同样也存在噪声标签，gt框没有完全贴合目标物体，位置上有一定的偏差，偏差的大小和方向与训练集不一致。

图9 检测错误类别图10 模型错误分析结果

2. 预训练模型的Ablation Study

从Table 2可以看出，我们实验了无预训练模型直接随机初始化、ImageNet预训练以及三种自监督的模型预训练方法（DenseCL[3]，InstanceLoc[4]和Moco[5]），使用自监督的模型预训练方法相比于使用ImageNet预训练模型初始化都有提升。其中MoCo预训练方法效果最好，使用MoCo自监督预训练模型比使用ImageNet预训练模型在mAP提升了0.65%，比没有使用预训练模型提升了1.15%。

3. soft-NMS的Ablation Study

从表5可以看出，soft-NMS[13]能在NMS基础上提升1.57%，soft-NMS能提升这么多是因为测试标签中含有大量的噪声标签，模型预测准确的预测框不一定是最贴合Ground True的。因此通过soft-NMS可以保留下得分低但是更贴合gt的预测框，从而大大的增强模型的召回率，使用soft-nms之后模型的召回率提升了4%。

3. 后处理的Ablation Study

后处理方法是模型最后涨点的最重要的方法，通过后处理方法大大的拉升了我们的比赛成绩，我们使用的后处理方法有如下几个：

（1）Test Time Augmentation(TTA)，在测试时我们采用多尺度图片进行测试。

（2）Boxes Emsemble：通过训练多个检测模型（不同的模型结构、初始化方法和训练方法等等），然后将各个模型对测试图片的测试结果进行emsemble。

（3）Boxes先验验证：统计各个类别ground trurh在图片的的位置信息和长宽等信息，利用先验对测试结果进行分析，过滤掉不合理的目标框。

（4）类间NMS：通过不同类别之间预测框的NMS约束，这样也可以提升mAP。

4. 完整的Ablation Study

Table4 给出了我们实验所有的方法和trick，模型的自监督预训练、DCN/GN、TTA、soft-nms、emsemble等，最终我们将baseline模型mAp从28.40提升到30.92。需要注意的是由于测试集噪声标签的影响，模型在训练集上的mAp也只有33.17。

参考文献

[1] Pérez, P., Gangnet, M. and Blake, A., 2003. Poisson image editing. In ACM SIGGRAPH 2003 Papers (pp. 313-318).

[2] Zhang, H., Wang, Y., Dayoub, F. and Sünderhauf, N., 2020. Swa object detection. arXiv preprint arXiv:2012.12645.

[3] Wang, X., Zhang, R., Shen, C., Kong, T. and Li, L., 2021. Dense contrastive learning for self-supervised visual pre-training. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (pp. 3024-3033).

[4] Yang, C., Wu, Z., Zhou, B. and Lin, S., 2021. Instance localization for self-supervised detection pretraining. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (pp. 3987-3996).

[5] Chen, X., Fan, H., Girshick, R. and He, K., 2020. Improved baselines with momentum contrastive learning. arXiv 2020.

[6] Kayhan, O.S., Vredebregt, B. and van Gemert, J.C., 2021. Hallucination In Object Detection--A Study In Visual Part Verification. arXiv preprint arXiv:2106.02523.

[7] Cai, Z. and Vasconcelos, N., 2018. Cascade r-cnn: Delving into high quality object detection. In Proceedings of the IEEE conference on computer vision and pattern recognition (pp. 6154-6162).

[8] Dai, J., Qi, H., Xiong, Y., Li, Y., Zhang, G., Hu, H. and Wei, Y., 2017. Deformable convolutional networks. In Proceedings of the IEEE international conference on computer vision (pp. 764-773).

[9] Wu, Y. and He, K., 2018. Group normalization. In Proceedings of the European conference on computer vision (ECCV) (pp. 3-19).

[10] Hadsell, R., Chopra, S. and LeCun, Y., 2006, June. Dimensionality reduction by learning an invariant mapping. In 2006 IEEE Computer Society Conference on Computer Vision and Pattern Recognition (CVPR'06) (Vol. 2, pp. 1735-1742). IEEE.

[11] Bolya, D., Foley, S., Hays, J. and Hoffman, J., 2020. Tide: A general toolbox for identifying object detection errors. In Computer Vision–ECCV 2020: 16th European Conference, Glasgow, UK, August 23-28, 2020, Proceedings, Part III 16 (pp. 558-573). Springer International Publishing.

[12] Smith, L.N., 2017, March. Cyclical learning rates for training neural networks. In 2017 IEEE winter conference on applications of computer vision (WACV) (pp. 464-472). IEEE.

[13] Bodla, N., Singh, B., Chellappa, R. and Davis, L.S., 2017. Soft-NMS--improving object detection with one line of code. In Proceedings of the IEEE international conference on computer vision (pp. 5561-5569).

本文仅做学术分享，如有侵权，请联系删文。

3D视觉精品课程推荐：

1.面向自动驾驶领域的多传感器数据融合技术

2.面向自动驾驶领域的3D点云目标检测全栈学习路线！(单模态+多模态/数据+代码)3.彻底搞透视觉三维重建：原理剖析、代码讲解、及优化改进4.国内首个面向工业级实战的点云处理课程5.激光-视觉-IMU-GPS融合SLAM算法梳理和代码讲解6.彻底搞懂视觉-惯性SLAM：基于VINS-Fusion正式开课啦7.彻底搞懂基于LOAM框架的3D激光SLAM: 源码剖析到算法优化8.彻底剖析室内、室外激光SLAM关键算法原理、代码和实战(cartographer+LOAM +LIO-SAM)

9.从零搭建一套结构光3D重建系统[理论+源码+实践]

10.单目深度估计方法：算法梳理与代码实现

重磅！3DCVer-学术论文写作投稿交流群已成立

扫码添加小助手微信，可申请加入3D视觉工坊-学术论文写作与投稿微信交流群，旨在交流顶会、顶刊、SCI、EI等写作与投稿事宜。

同时也可申请加入我们的细分方向交流群，目前主要有3D视觉、CV&深度学习、SLAM、三维重建、点云后处理、自动驾驶、多传感器融合、CV入门、三维测量、VR/AR、3D人脸识别、医疗影像、缺陷检测、行人重识别、目标跟踪、视觉产品落地、视觉竞赛、车牌识别、硬件选型、学术交流、求职交流、ORB-SLAM系列源码交流、深度估计等微信群。

一定要备注：研究方向+学校/公司+昵称，例如：”3D视觉 + 上海交大 + 静静“。请按照格式备注，可快速被通过且邀请进群。原创投稿也请联系。

▲长按加微信群或投稿

▲长按关注公众号

3D视觉从入门到精通知识星球：针对3D视觉领域的视频课程（三维重建系列三维点云系列结构光系列、手眼标定、相机标定、激光/视觉SLAM、自动驾驶等）、知识点汇总、入门进阶学习路线、最新paper分享、疑问解答五个方面进行深耕，更有各类大厂的算法工程人员进行技术指导。与此同时，星球将联合知名企业发布3D视觉相关算法开发岗位以及项目对接信息，打造成集技术与就业为一体的铁杆粉丝聚集区，近4000星球成员为创造更好的AI世界共同进步，知识星球入口：

学习3D视觉核心技术，扫描查看介绍，3天内无条件退款

圈里有高质量教程资料、答疑解惑、助你高效解决问题

觉得有用，麻烦给个赞和在看~

资讯详情

训练AI要“什么自行车” 只用了1万辆小破车 | ICCV2021 VIPriors

动力学技术KTU1121 USB Type-C 端口保护器的介绍、特性、及应用

训练AI要“什么自行车” 只用了1万辆小破车 | ICCV2021 VIPriors

动力学技术KTU1121 USB Type-C 端口保护器的介绍、特性、及应用

最近热搜

历史搜索 清除历史记录

历史搜索清除历史记录