MPViT:多路径视觉转换器用于密集预测
密集的计算机视觉任务(如对象检测和分割)需要有效的多尺度特征来检测或分类不同大小的对象或区域。尽管卷积神经网络 (CNN) 一直是这类任务的主要结构,但最近推出的视觉转换器 (ViT) 以取代它们为主干。与 CNN 类似,ViT 用于单尺度补丁的多尺度表示,构建了一个简单的多阶段结构(即从精细到粗糙)。在这项工作中,我们与现有的一起工作 Transformer 探索多尺度补丁嵌入和多路径结构,构建多路径视觉 Transformer (MPViT)。 MPViT 嵌入相同尺寸(即序列长度)的特征和不同尺度的块,同时使用重叠卷积块。然后,通过多条路径独立输入不同尺度的令牌 Transformer 在编码器中,聚合生成的特征,从而在同一特征水平上实现精细粗略的特征表示。由于多样化和多尺度的特点,我们 MPViT 从微型 (5M) 扩展到基本 (73M) 始终在 ImageNet 优于最先进的分类、对象检测、实例分割和语义分割 Vision Transformers 的性能。这些广泛的结果表明 MPViT 可以作为各种视觉任务的多功能骨干网络。代码将在 https://git.io/MPViT 上公开。
如果不能下载,请使用gitee上的链接:
https://gitee.com/wanghao1090220084/MPViT
1、简介
自推出以来,Transformer