YOLOS：通过目标检测重新思考Transformer（附源代码）-锐单电子商城

点击上方“3D视觉车间，选择星标

第一时间送达干货

作者丨Edison_G

来源丨计算机视觉研究所

最近看了一些以前的东西。检测框架，发现有两个很有意思很好的框架。接下来我给大家简单分析一下，希望能给大家带来创新的启示！

论文地址：https://arxiv.org/pdf/2106.00666.pdf

源代码地址：https://github.com/hustvl/YOLOS

前言

Transformer能否从纯序列到序列的角度执行2D目标识别，而对2D空间结构知之甚少？为了回答这个问题，今天展示了You Only Look at One Sequence”(YOLOS)，这是一系列基于简单视觉变换器的目标检测模型，可以尽可能少地修改和修改inductive biases。

YOLOS-S, 200 epochs pre-trained, COCO AP = 36.1

我们发现只有中等大小的大小ImageNet-1k预训练的数据集YOLOS已经可以在COCO实现具有竞争力的目标检测性能，如直接从BERT-Base中采用的YOLOS-Base可以实现42.0 box AP。研究人员还讨论了当前的预训练计划和模型缩放策略Transformer视觉上的影响和局限性。

背景

Transformer为迁移而生。处理自然语言 (NLP) 主要方法是在大型通用语料库上进行预训练Transformer学习一般语言，然后微调模型的特定目标任务。最近，Vision Transformer(ViT)表示，直接从NLP继承的典型Transformer现代视觉迁移学习配方可用于编码器架构的大规模图像识别。将图像补丁嵌入序列作为输入，ViT预训练的通用视觉表达可以从纯序列到序列的角度成功地从足够的规模转移到更具体的图像分类任务，数据点更少。

ViT-FRCNN是第一个使用预训练的人ViT作为R-CNN目标检测器的主干。然而，这种设计无法摆脱对卷积神经网络(CNN)和强2D归纳偏差的依赖，因为ViT-FRCNN将ViT重新解释为2D空间特征图依赖于区域池操作(即RoIPool或RoIAlign）以及基于区域的CNN架构来解码ViT实现目标感知的特征。受现代CNN受设计的启发，最近的一些工作引入了金字塔特征的层次结构和局部性Vision Transformer设计大大提高了密集预测任务的性能，包括目标检测。然而，这些架构是面向性能的。另一系列工作，DEtection TRansformer(DETR)使用随机初始化初始化Transformer对CNN编码和解码特征并没有揭示预训练Transformer可迁移性在目标检测中。

ViT-FRCNN

一些研究人员展示了上述问题，以解决上述问题You Only Look at One Sequence (YOLOS)，这是一系列基于规范的系列ViT架构的目标检测模型，具有尽可能少的修改以及注入的归纳偏置。从ViT到YOLOS检测器的变化很简单：

YOLOS在ViT中删除[CLS]标记和学习100个[DET]将标记附加到输入序列中进行目标检测；
YOLOS将ViT图像分类损失被替换为bipartite matching loss，以遵循Carion等人【End-to-end object detection with transformers】目标检测是一套预测方法。可以避免ViT的输出序列重新解释为2D特征图防止启发式和对象2在标签分配期间手动注入D空间结构的先验知识。

新框架

YOLOS用于图像分类的删除[CLS]标记100个随机初始化的检测标记（[DET] 添加到输入补丁嵌入序列中进行目标检测。
在训练过程中，YOLOS将ViT图像分类损失被替换为bipartite matching loss，这里重点介绍一下YOLOS设计方法论。

Detection Token

我们有目的地选择随机初始化[DET]标记作为目标代理，以避免2D标签分配期间注入的结构归纳偏差和任务的先验知识。在对COCO微调时，每次前进传递，在[DET]tokens在预测和真实对象之间建立最佳二分匹配。该过程与标签分配相同，但不知道输入2D结构，即YOLOS不需要将ViT重新解释标签分配2的输出序列D特征图。理论上，YOLOS任何维度的物体检测都可以在不知道确切空间结构和几何形状的情况下进行，只要每次输入总是以同样的方式平整为序列。

YOLOS-S, 300 epochs pre-trained, COCO AP = 36.1

Fine-tuning at Higher Resolution

在COCO微调时，除分类和边界框回归外，MLP100个头和随机初始化[DET]除标记外，所有参数均从ImageNet-1k预训练权重的初始化。分类和边界框的回归都是从头开始的。MLP使用单独参数的隐藏层有两个。

在微调期间，图像的分辨率远高于预训练，以保持相同的补丁大小(16 × 16)，这导致更有效的序列长度。ViT任何序列长度都可以处理，但位置嵌入需要适应更长的输入序列。我们以同样的方式嵌入预训练的位置2D插值。

实验分析及可视化

YOLOS不同版本的结果

训练效果

不同规模模型的预训练和迁移学习性能

与一些小型CNN比较检测器

Self-attention Maps of YOLOS

检验与YOLOS-S最后一层头部预测相关[DET]tokens自我注意力。可视化pipeline遵循【Emerging properties in self-supervised vision transformers】。可视化结果如下图所示。

对于给定的YOLOS模型，不同的自我注意力集中在不同的模式和位置上。有些可视化是可以解释的，而另一些则不是。
我们研究了两个YOLOS模型的注意力图差异，即200 epochs ImageNet-1k预训练YOLOS-S和300 epochs ImageNet-1k预训练YOLOS-S。注意这两个模型AP是一样的（AP=36.1）。从可视化中，我们得出结论，对于给定的预测对象，相应的[DET]对于不同的模型，标记和注意力图模式通常是不同的。

本文仅进行学术分享。如有侵权行为，请联系删除。

3D推荐视觉精品课程：

1.自动驾驶领域的多传感器数据集成技术

2.面向自动驾驶领域的3D点云目标检测全栈学习路线！(单模态+多模态/数据+代码)3.彻底搞透视觉三维重建：原理剖析、代码讲解、及优化改进4.国内首个面向工业级实战的点云处理课程5.激光-视觉-IMU-GPS融合SLAM算法梳理和代码讲解6.彻底搞懂视觉-惯性SLAM：基于VINS-Fusion正式开课啦7.彻底搞懂基于LOAM框架的3D激光SLAM: 源码剖析到算法优化8.彻底剖析室内、室外激光SLAM关键算法原理、代码和实战(cartographer+LOAM +LIO-SAM)

9.从零搭建一套结构光3D重建系统[理论+源码+实践]

10.单目深度估计方法：算法梳理与代码实现

11.自动驾驶中的深度学习模型部署实战

12.相机模型与标定(单目+双目+鱼眼）

13.重磅！四旋翼飞行器：算法与实战

重磅！3DCVer-学术论文写作投稿交流群已成立

扫码添加小助手微信，可申请加入3D视觉工坊-学术论文写作与投稿微信交流群，旨在交流顶会、顶刊、SCI、EI等写作与投稿事宜。

同时也可申请加入我们的细分方向交流群，目前主要有3D视觉、CV&深度学习、SLAM、三维重建、点云后处理、自动驾驶、多传感器融合、CV入门、三维测量、VR/AR、3D人脸识别、医疗影像、缺陷检测、行人重识别、目标跟踪、视觉产品落地、视觉竞赛、车牌识别、硬件选型、学术交流、求职交流、ORB-SLAM系列源码交流、深度估计等微信群。

一定要备注：研究方向+学校/公司+昵称，例如：”3D视觉 + 上海交大 + 静静“。请按照格式备注，可快速被通过且邀请进群。原创投稿也请联系。

▲长按加微信群或投稿

▲长按关注公众号

3D视觉从入门到精通知识星球：针对3D视觉领域的视频课程（三维重建系列、三维点云系列、结构光系列、手眼标定、相机标定、激光/视觉SLAM、自动驾驶等）、知识点汇总、入门进阶学习路线、最新paper分享、疑问解答五个方面进行深耕，更有各类大厂的算法工程人员进行技术指导。与此同时，星球将联合知名企业发布3D视觉相关算法开发岗位以及项目对接信息，打造成集技术与就业为一体的铁杆粉丝聚集区，近4000星球成员为创造更好的AI世界共同进步，知识星球入口：

学习3D视觉核心技术，扫描查看介绍，3天内无条件退款

圈里有高质量教程资料、答疑解惑、助你高效解决问题

觉得有用，麻烦给个赞和在看~

资讯详情

YOLOS：通过目标检测重新思考Transformer（附源代码）

动力学技术KTU1121 USB Type-C 端口保护器的介绍、特性、及应用

YOLOS：通过目标检测重新思考Transformer（附源代码）

动力学技术KTU1121 USB Type-C 端口保护器的介绍、特性、及应用

最近热搜

历史搜索 清除历史记录

历史搜索清除历史记录