资讯详情

2021 年最受欢迎的 YOLO 变体

点击上方“3D视觉车间,选择星标

第一时间送达干货

969bd867072798403552995732dd5334.png

作者丨南山

来源丨AI约读社

目标检测任务的深度神经网络是一个成熟的研究领域,近年来,在许多目标检测模型中,One-stage detection 被认为是权衡速度和精度的最佳选择。而YOLO 由于能实时提供最先进的性能,系列模型是但阶段检测最突出的物体检测器之一。2021 年对 YOLO 这是快速发展的一年,我们看到了很多优秀的东西YOLO今天,我们将总结2021年最受欢迎的五种变体 YOLO 变体分别为:

:金字塔没有复杂的特征-进行检测

:生成提出的统一网络,同时为各种任务提供服务

:视觉Transformer新思考

:新一代目标测试的性能速度

:只看一次就能实现全景驾驶感知

列表按时间顺序排列

论文:You Only Look One-level Feature

论文链接:https://arxiv.org/abs/2103.09460

代码链接:https://github.com/megvii-model/YOLOF

Feature pyramid network是CVPR2017年的一篇文章将特征金字塔融入目标检测,提高了目标检测的准确性FPN快速发展已成为目标检测网络的重要组成部分,但现有研究认为FPN由于多尺度特征的融合,成功被忽视了FPN中分而治之的功能。旷视科技&中科院对FPN提出重新思考YOLOF,YOLOF金字塔不使用复杂的特征——只使用一级特征进行检测,并提出了两个关键组件Dilated Encoder和Uniform Matching,在保持高精度的同时提高速度。YOLOF的图像尺寸为608 x 608,在2080Ti上以60 fps44.3 mAP,比YOLOv4快13%。

作者提出了一速直接的单级特征检测框架YOLOF,它由Backbone、Encoder以及Decoder整体结构如下:

1、Backbone:采用Reset和ResNext系列作为的backbone,backbone的输出是C5特征映射。

2、Encoder:我们先通过backbone添加两个投影层3×三卷积层中堆叠四个不同扩张因子的残差模块。

3、Decoder:主要采用了Retinanet结构有两个变化:1. regression head 有4个Conv(有BN和ReLU)而 classification head 只有2个Conv(有BN和ReLU)2. 遵循Autoassign,在 regression head 上为每个 anchor 添加隐式目标检测。

论文:You Only Learn One Representation: Unified Network for Multiple Tasks

论文链接:https://arxiv.org/abs/2105.04206

代码链接:https://github.com/WongKinYiu/yolor

人类可以根据视觉、听觉、触觉(显性知识)和过去的经验(隐性知识)来学习和理解物理世界。因此,人类可以利用通过正常学习获得和存储在大脑中的丰富经验来有效地处理新的数据。

基于这一想法,YOLOR 本文描述了将显性知识(定义为基于给定数据和输入的学习)与潜意识学习的隐性知识相结合的方法。YOLOR 基于隐性和显性知识的概念,类似于哺乳动物大脑如何结合隐性和显性知识。YOLOR 中提出的统一网络生成统一的表示,以同时为各种任务提供服务。

YOLOR 统一网络:结合显性知识和隐性知识,为多项任务服务

使该架构发挥作用的三个显著过程是:内核空间对齐、预测优化和多任务学习卷积神经网络 (CNN)。根据结果,当隐性知识被引入已经用显性知识训练的神经网络时,网络有利于各种任务的性能。

卷积神经网络 (CNN)通常实现一个特定的目标,它们可以通过训练同时解决多个问题,这是 YOLOR 的目标。CNN 创建通常只考虑一个目标。当 CNN 学习如何分析输入以获得输出,YOLOR 试图让 CNNs (1) 学习如何获得输出和输出 (2) 所有不同的输出可能是什么?它可以有多个输出,而不仅仅是一个输出。

结合最先进的方法,YOLOR 实现了与 Scaled YOLOv4 物体检测精度相当高,推理速度提高 88%。这使得 YOLOR 成为现代计算机视觉中最快的物体检测算法之一。MS COCO在相同的推理速度下,数据集,YOLOR 平均精度比 PP-YOLOv2 高 3.8%。

论文:You Only Look at One Sequence: Rethinking Transformer in Vision through Object Detection

论文链接:https://arxiv.org/abs/2106.00666v3

代码链接:https://github.com/hustvl/YOLOS

Vision Transformer (ViT) 向我们展示了从 NLP 继承的标准 Transformer 编码器架构在大规模图像识别方面表现出色。华中科大通过目标检测重新思考视觉Transformer提出YOLOS,其核心思路是Transformer至少2D从纯序列到序列的角度进行空间结构2D目标识别。

YOLOS是基于 ViT 对象检测模型的架构,有尽可能少的修改和归纳偏差。YOLOS 紧跟 ViT 结构有两个简单的变化:

  • YOLOS 删除了用于图像分类的图像分类 [CLS] 标记100个随机初始化检测 [DET] 标记添加到用于对象检测的输入补丁嵌入序列中。

  • ViT 图像分类损失被替换为二分匹配损失,类似于执行 DETR 对象检测。

YOLOS与一些目标检测器(如 DETR 和 YOLOv4)比较。与高度优化的物体检测器相比,较小 YOLOS 变体 YOLOS-Ti 实现令人印象深刻的性能。另一方面,在更大的情况下YOLOS在模型中竞争力较低。

论文:YOLOX: Exceeding YOLO Series in 2021

论文链接:https://arxiv.org/abs/2107.08430

代码链接:https://github.com/Megvii-BaseDetection/YOLOX

YOLO模型获取图像并绘制由不同小方块组成的网格。然后从这些小方块中,它们从方块中返回,以预测边界框的偏移。只有这些网格单元为我们提供了数万个可能的框架,但YOLO网格顶部有模型anchor框。anchor框架具有不同的比例,使模型能够在不同方向检测不同大小的对象。

两者的结合使模型能够检测到广泛的对象,但它们也带来了计算成本高的问题。YOLO 模型的另一个限制是边界框回归和对象检测任务的耦合,这将导致一些权衡。

YOLOv3头和YOLOX解耦头的区别

YOLOX解决了这两个限制,完全放弃了框架锚的结构。这提高了计算成本和推理速度。YOLOX 还将 YOLO 用于框架标回归和对象分类。这导致改进的收敛速度和模型精度。

我们在前面知道,当得到Yolov3 baseline后,作者又添加了一系列的trick,最终改进为Yolox-Darknet53网络结构。

上图即是Yolox-Darknet53网络结构图。

为了便于分析改进点,我们对Yolox-Darknet53网络结构进行拆分,变为四个板块:

① 输入端:Strong augmentation数据增强

② BackBone主干网络:主干网络没有什么变化,还是Darknet53。

③ Neck:没有什么变化,Yolov3 baseline的Neck层还是FPN结构。

④ Prediction:Decoupled Head、End-to-End YOLO、Anchor-free、Multi positives。

在经过一系列的改进后,Yolox-Darknet53最终达到AP47.3的效果。

论文:You Only Look at Once for Panoptic driving Perception

论文链接:https://arxiv.org/abs/2108.11250

代码链接:https://github.com/hustvl/YOLOP

计算机视觉模型是自动驾驶系统的重要组成部分。为了帮助驾驶系统操作车辆,感知系统需要执行诸如分割可行驶区域、检测车道和交通物体等任务。现在有大量最先进的算法可以单独解决这些问题。然而,这些具有很高的计算成本,并且无法对通常用于自动驾驶汽车的嵌入式系统进行实时推理。YOLOP对这些任务采取多任务方法,并利用相关信息构建更快、更准确的解决方案。

                                                YOLOP 架构

YOLOP有一个共享编码器和三个解码器头来解决特定的任务。不同解码器之间没有复杂的共享块,以将计算保持在最低限度,并允许更轻松的端到端训练。它在 BDD100K 数据集上针对三个任务的最新模型进行了测试。YOLOP 的表现优于或匹配最先进的模型。它是第一个在 Jetson TX2 等嵌入式设备上实时同时执行三个全景感知任务并实现最先进性能的模型。

在上述的YOLO变体都具有其各自的特色,在您看来,哪个 YOLO 变体取得了最大的飞跃,请在评论中告诉我们。

本文仅做学术分享,如有侵权,请联系删文。

1.面向自动驾驶领域的多传感器数据融合技术

2.面向自动驾驶领域的3D点云目标检测全栈学习路线!(单模态+多模态/数据+代码)3.彻底搞透视觉三维重建:原理剖析、代码讲解、及优化改进4.国内首个面向工业级实战的点云处理课程5.激光-视觉-IMU-GPS融合SLAM算法梳理和代码讲解6.彻底搞懂视觉-惯性SLAM:基于VINS-Fusion正式开课啦7.彻底搞懂基于LOAM框架的3D激光SLAM: 源码剖析到算法优化8.彻底剖析室内、室外激光SLAM关键算法原理、代码和实战(cartographer+LOAM +LIO-SAM)

9.从零搭建一套结构光3D重建系统[理论+源码+实践]

10.单目深度估计方法:算法梳理与代码实现

扫码添加小助手微信,可

也可申请加入我们的细分方向交流群,目前主要有等微信群。

一定要备注:,例如:”3D视觉 + 上海交大 + 静静“。请按照格式备注,可快速被通过且邀请进群。也请联系。

▲长按加微信群或投稿

▲长按关注公众号

:针对3D视觉领域的五个方面进行深耕,更有各类大厂的算法工程人员进行技术指导。与此同时,星球将联合知名企业发布3D视觉相关算法开发岗位以及项目对接信息,打造成集技术与就业为一体的铁杆粉丝聚集区,近4000星球成员为创造更好的AI世界共同进步,知识星球入口:

学习3D视觉核心技术,扫描查看介绍,3天内无条件退款

 圈里有高质量教程资料、答疑解惑、助你高效解决问题

标签: cls系列传感器

锐单商城拥有海量元器件数据手册IC替代型号,打造 电子元器件IC百科大全!

锐单商城 - 一站式电子元器件采购平台