资讯详情

CVPR 2022 Oral | 目标检测新工作!南大开源AdaMixer:快速收敛的基于查询的目标检测器...

df0532f5568bfc79c6da4e3ca620e0e0.png

代码:https://github.com/MCG-NJU/AdaMixer

论文(刚刚开源):

https://arxiv.org/abs/2203.16507

本文介绍了我们目标测试的新工作AdaMixer,通过检测器的自适应建模能力query-based检测器(类DETR检测器和Sparse RCNN)在相对简单的结构上保持模型架构的收敛和最终性能效果。我们提出了一系列增强技术的技术query-based检测器的decoder包括3的解码部分D采样和动态特征空间MLP-Mixer检测头,避免引入各种设计繁重、计算量大的注意编码器(attentional encoder),或特征金字塔式多尺度交互网络,在保持效果的同时(其实我们超越了很多以前的模型),进一步简化了query检测器的结构。

首先,让我们简要介绍一下我们的研究动机。现在基于query通过query集合(有些文章也叫proposal集合)和图像特征图的迭代交互提取特征,不断完善query它本身的语义使它在matching loss下完成query对object的一对一cls和bbox预测。基于query不需要后续检测器NMS操作使整个检测过程更加简单优雅。但我们发现,基于query检测器,尤其是类别DETR检测器通常引入多层注意力编码器(attentional encoder),这些注意力编码器对每个像素进行全局或局部注意力计算,引入大量计算,不易扩展到高分辨率特征图,导致小物体检测困难,而且可能会给训练时间带来麻烦。Sparse R-CNN流派引入了金字塔网络的显式特征FPN增强小物体的建模,但同样,特征金字塔网络也会引入额外的计算量。Sparse R-CNN流派引入了金字塔网络的显式特征FPN增强小物体的建模,但同样,特征金字塔网络也会引入额外的计算量。我们认为是backbone和decoder添加额外的网络实际上是不优雅的,这与使用query测试的目标有点相反。如果检测器需要厚密集的编码器,则使用较少的编码器query通过decoder作为模型的亮点,可以检测物体有点不同。造成这些问题的根本原因是decoder不够强,需要encoder弥补建模能力,所以我们方法的基本动机是增强decoder尽量避免引入各种检测器的能力encoder。

但如何增强decoder特别是不同图像和目标的多样化建模能力?这个问题仅限于稀疏和数量query解码器很重要。回顾典型的query decoder它本身就是一个基础transformer decoder首先,结构query和query之间做self attention,而后query和图像特征feat互动,然后每一个query再过FFN。而这些初始的query虽然它通常是学习的向量,但在inference当是固定的,不能改变不同的输入(尽管有一种趋势来改变最初的query由类RPN生产),那么如何保证呢?query decoder不同图片输入不同物体的自适应性已成为一个问题。为此,我们提出从两个方面改进这一点query目标检测器:采样位置的自适应性和解码特征的自适应性对应于我们提出的3D采样和动态特征空间MLP-Mixer检测头。

让我们简要介绍一下我们AdaMixer检测器两个代表性的创新点,以利于读者迅速抓取到我们方法的脉络。有些细节在此忽略了,具体可以查看原文。

和现在的其他方法一样,我们把它们放在一边query解耦成两个向量,即内容向量(content vector)和位置向量(positional vector),其中query由位置向量解码代表的框架。在每一个stage,query decoder都会更新refine这两个向量。值得注意的是,我们对位置向量采用的参数化并不是常用框的lrtb坐标或是ccwh坐标,而是xyzr其中z代表框架大小的对数,r这种参数形式代表了框长宽比的对数xyz我们的query3可与多层次特征形成D联系特征空间。如上图所示,3D在特征空间中query坐标自然由xyz决定,自适应3D特征采样首先由query根据自己的内容向量生成多组offset,再在3D特征空间上进行对应点的插值采样得到对应的特征,3D特征空间有利于我们统一自适应地学习目标对象位置和规模的变化。请注意,此步骤不需要任何多尺度的交互网络。

对于一个query上述步骤采集的特征形状为,其中采样点的数量,是通道数量,我们在MLP-Mixer在灵感下提出了逐渐query自适应通道和空间mixing操作(adaptive channel mixing,ACM和adaptive spatial mixing,ASM)。具体来说,我们的decoder动态依赖query权重沿两个维度(通道和空间)mixing由于的特征可能来自不同层次的特征图,因为收集的特征mixing自然赋予了操作decoder多尺度交互建模能力。

我们的AdaMixer解码器的总结构如上图所示。虽然看起来有点繁琐,但内容向量操作的基本结构仍然是和谐的Transformer decoder它是一致的,位置向量可以简单地视为一个stage参与坐标的变换和计算,然后在一个中stage最后再更新。

总的AdaMixer检测器只由两个主要部分组成:一个是主网络,另一个是我们提出的AdaMixer无需额外注意力的解码器和显式多尺度建模网络。

实验结果在当时投稿时还是比较精彩的,在12 epoch在训练条件下,我们的表现超过了其他探测器(包括传统和基于的)query其中N是检测器)query数量证明了我们方法的收敛速度和最终效果。我们的12 epoch在8卡V100上的实际训练时间还是比较快的,只有9个小时。

在与跟其他query-based与检测器相比,我们也有更好的性能,我们是表中唯一不需要额外注意力的编码器或金字塔特征网络的模型。

我们做了丰富的消融实验来验证我们提出的每个模块的有效性。在这里,我们选择一些有代表性的消融实验进行讨论。

表(a)探索我们方法核心所需的自适应性,无论采样位置如何(loc.)或者解码内容(cont.)适应性对我们最终模型的性能有很大的影响。

表(b)是我们提出的adaptive mixing动态通道混合(ACM)和动态空间混合(ASM)顺序组合是最佳选择。

表(c)是我们的AdaMixer再加上不同多尺度交互网络的效果,我们惊讶地发现没有额外的金字塔网络效果更好。我们猜可能是因为我们AdaMixer解码器自然具有多尺度交互能力,额外的金字塔网络需要更多的训练时间来收敛。

表8进一步探索了3D特征空间采样。注意表8中的实验模型没有配备FPN在这种情况下,网络RoIAlign在我们的理性中,表现效果差。自适应2D采样(不学z方向上的采样)offset)模型落后3D特征空间采样近1.5个AP,说明了3D特别是在z方向学习offset的必要性。另外,另一个有趣的结论是只用C4特征要比C5好,这可能是因为C特征分辨率大。而且只用C在4个特征时,可以把它放在一边ResNet后续特征提取阶段直接切断(因为没有FPN,也用不到C5特征图),这可能代表了轻量化检测器的方向?我们还没有做太多的探索。

我们提出了一个结构相对简单、收敛快、性能好的检测器AdaMixer,通过提高解码器对目标物体的自适应解码能力,我们AdaMixer无需引入重注意力编码器和显式多尺度交互网络。我们希望AdaMixer可作为后续基础query基线模型简单有效。

本文仅进行学术分享。如有侵权行为,请联系删除

后台回复:即可下载国外大学沉淀数年3D Vison精品课件

后台回复:即可下载3D视觉领域经典书籍pdf

后台回复:即可学习3D视觉领域精品课程

1.面向自动驾驶领域的多传感器数据融合技术

2.面向自动驾驶领域的3D点云目标检测全栈学习路线!(单模态+多模态/数据+代码)3.彻底搞透视觉三维重建:原理剖析、代码讲解、及优化改进4.国内首个面向工业级实战的点云处理课程5.激光-视觉-IMU-GPS融合SLAM算法梳理和代码讲解6.彻底搞懂视觉-惯性SLAM:基于VINS-Fusion正式开课啦7.彻底搞懂基于LOAM框架的3D激光SLAM: 源码剖析到算法优化8.彻底剖析室内、室外激光SLAM关键算法原理、代码和实战(cartographer+LOAM +LIO-SAM)

9.从零搭建一套结构光3D重建系统[理论+源码+实践]

10.单目深度估计方法:算法梳理与代码实现

11.自动驾驶中的深度学习模型部署实战

12.相机模型与标定(单目+双目+鱼眼)

13.重磅!四旋翼飞行器:算法与实战

14.ROS2从入门到精通:理论与实战

扫码添加小助手微信,可申请加入3D视觉工坊-学术论文写作与投稿 微信交流群,旨在

也可申请加入我们的细分方向交流群,目前主要有等微信群,请扫描下面微信号加群,备注:”研究方向+学校/公司+昵称“,例如:”3D视觉 + 上海交大 + 静静“。请按照格式备注,否则不予通过。添加成功后会根据研究方向邀请进去相关微信群。也请联系。

▲长按加微信群或投稿

▲长按关注公众号

:针对3D视觉领域的五个方面进行深耕,更有各类大厂的算法工程人员进行技术指导。与此同时,星球将联合知名企业发布3D视觉相关算法开发岗位以及项目对接信息,打造成集技术与就业为一体的铁杆粉丝聚集区,近4000星球成员为创造更好的AI世界共同进步,知识星球入口:

学习3D视觉核心技术,扫描查看介绍,3天内无条件退款

 圈里有高质量教程资料、可答疑解惑、助你高效解决问题

标签: abs轮速传感器固定结构cls系列传感器

锐单商城拥有海量元器件数据手册IC替代型号,打造 电子元器件IC百科大全!

锐单商城 - 一站式电子元器件采购平台