资讯详情

YOLOv4一作提出Transformer新架构:DPT!替代卷积网络做密集预测

研究人员提出了这项研究 DPT 架构。这种 ViT 该架构取代了卷积网络作为密集预测任务的主要网络,获得了更好的细粒度和更一致的预测。

图像语义分割的目标是标记图像中每个像素的类别。这个任务通常被称为密集预测,因为它是预测图像中的每个像素。

目前,几乎所有的密集预测架构都是基于卷积网络的,通常遵循一种模式:将网络分为编码器和解码器。编码器通常基于图像分类网络,也称为主干。它在一个大型语料库中 (如 ImageNet) 预训练;解码器聚合了编码器的特性,并将其转化为最终的密集预测。过去的密集预测架构研究通常关注解码器及其聚合策略,但事实上,主要架构的选择对整个模型至关重要,因为在解码器中丢失的信息无法恢复。

在英特尔的一项研究中,研究者提出了 DPT 架构(dense prediction transformer)。DPT 它仍然是基于编码器的新架构,用于密集预测 - 解码器的设计,但其中使用 transformer 作为编码器的基本计算构建块。

具体来说,研究人员使用之前的视觉 transformer(ViT)作为主体结构,将由 ViT 提供的词袋表征重组为各种分辨率下的类图像特征表征,这些特征表征逐渐用卷积解码器组合到最终的密集预测中。

Transformer 主干网络以不变、相对较高的分辨率处理表征,在每个阶段都有一个全球的接触感。这些特允许与全卷积网络相比 DPT 提供更好的细粒度和更一致的预测。

实验表明,这种架构对于密集预测任务有很大的改进,特别是在有大量训练数据可用的情况下。研究人员观察到,与目前的单目深度估计相比, SOTA 全卷积网络,新架构达到高达 28% 的提升。当应用于语义分割时,DPT 在 ADE20K 实现了新的 SOTA(49.02% mIoU)。此外,研究人员还在较小的数据集上展示了该架构的微调结果,如 NYUv2、 KITTI 和 Pascal Context 都实现了新的 SOTA。

4f6edd19a97837f2520f3452c03ea3eb.png

Vision Transformers for Dense Prediction

  • 论文地址:https://arxiv.org/abs/2103.13413

  • 代码地址:https://github.com/intel-isl/dpt

值得一提的是,感兴趣的研究人员现在可以到达 Huggingface 平台体验 Demo:

Demo 地址:https://huggingface.co/spaces/akhaliq/DPT-Large

让我们来具体看看这种密集型 ViT 在密集预测方面取得成功的编码器的新架构 - 解码器结构。其中,视觉 transformer 作为主干,编码器产生的表征可以有效地转化为密集预测,如下图所示 1(左)所示。

在高层次上,视觉变换器 (ViT) 对图像的词袋(bag-of-words)操作表征。图像单独嵌入特征空间 patch 或者从图像中提取的深度特征,扮演「word」的角色。本研究的其余部分将嵌入「word」作为 token。Transformer 使用多头自注(MHSA)的序列块对 token 集进行转换,每个集进行转换 token 相互关联以转换表征。

对于应用程序来说,最重要的是 transformer 保持所有计算 token 的数量。由于 token 与图像 patch 这意味着一一对应 ViT 所有编码器 transformer 空间分辨率可以保持初始嵌入阶段。此外,MHSA 本质上是一种全局操作,因为每一个都是全局操作。 token 可以参与和影响其他一切 token。因此,transformer 初始嵌入后的每个阶段都可以有一个全的感觉,与卷积网形成鲜明对比。

该架构的解码器将 token 组合成各种分辨率的类图像特征。这些特征逐渐融入到最终的密集预测中。本研究提出了一个简单的三阶段重组(Reassemble)操作,以从 transformer 输出编码器的任何层 token 中恢复图像表征:

其中, s 与输入图像的输出尺寸比相比,代表恢复获得的表征代表输出特征维度。

类似于全卷积网络,DPT 图像的大小可以改变。只要图像尺寸可以接受 p 可以应用嵌入过程来生成不同数量的图像 token N_p。作为一种 set-to-set 架构,transformer 编码器可以轻松处理不同数量的编码器 token。然而,位置嵌入取决于图像的大小,因为它在输入图像时 patch 编码位置。该研究遵循 Alexey Dosovitskiy 等人在论文《An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale》将位置嵌入线性并插入适当尺寸的方法。值得注意的是,这可以立即完成每个图像。嵌入过程和 transformer 只需输入图像和卷积解码器的步幅(32 对齐、重组和集成模块可以轻松处理不同数量 token。

在实验中,研究者将 DPT 应用于两个密集的预测任务: 单目深度估计和语义分割。主要部分的结果首先用默认配置显示,最后显示不同 DPT 消融实验结果的配置。

表 1 展示了 Zero-shot 这些数据集没有参与跨数据集迁移学习的训练过程。

图 2 视觉效果对比显示了几种方法。

另外,研究者在 KITTI 和 NYUv2 微调数据集 DPT-Hybrid,进一步比较 DPT 与现有工作性能相比。 2 和表 3 所示,DPT 所有指标上的架构都是平的或改进的。 DPT 也可有效应用于较小的数据集。

随后,研究人员选择语义分割作为第二项任务,因为它是离散标记任务的代表,也是密集预测架构的重要任务。研究人员使用与上述实验相同的主要网络和解码器结构 output head,预测半分辨率和预测 logits 采样上,用双线插值补充分辨率。编码器再次由 ImageNet 预训练权重初始化,解码器随机初始化。

研究者在 ADE20K 语义分割数据集上对 DPT 进行了 240 个 epoch 的训练。表 4 显示了验证集的结果,DPT-Hybrid 性能优于所有现有的全卷积结构。

该研究还在 Pascal Context 数据集上对 DPT-Hybrid 进行了 50 个 epoch 其他超参数保持不变。 5 显示了验证集的结果:DPT 即使在较小的数据集中也能提供出色的性能。

由于 Transformer 主网络保持稳定的特征分辨率,因此不清楚主网络特征中值得使用的部分。研究人员进行了消融实验来探索这一点。

表 6(顶部)评估了几个可能的选择。发现有利于从低层和高层的深层中挖掘特征。研究人员使用最佳设置进行进一步的实验。

研究者用表 6(底部) Hybrid 类似的实验包括结构 R0 和 R1 指的是使用 ResNet50 采样特征嵌入网络的第一阶段和第二阶段。

表 7 展示重组块(Reassemble block)处理的第一阶段 readout token 时的各种设置及其相应性能:

如表 8 所示,ViT-Large 性能优于所有其他主要网络,但大小几乎是 ViT-Base 和 ViT-Hybrid 的 3 倍。当参数相似时,ViT-Hybrid 的性能优于 ViT-Base,而且性能相当于大型主干网络。

虽然完全卷积结构在其最深层有很大的有效感受野,但近输入的层却是局部的,感受野较小。如下图 4 所示,可以观察到,随着推理分辨率的提高,DPT 变体的性能确实会更缓慢地降低。

在推理速度方面,表 9 展示了不同网络结构的推理时间:

更多细节详见论文原文。

本文仅做学术分享,如有侵权,请联系删文。

1.面向自动驾驶领域的多传感器数据融合技术

2.面向自动驾驶领域的3D点云目标检测全栈学习路线!(单模态+多模态/数据+代码)3.彻底搞透视觉三维重建:原理剖析、代码讲解、及优化改进4.国内首个面向工业级实战的点云处理课程5.激光-视觉-IMU-GPS融合SLAM算法梳理和代码讲解6.彻底搞懂视觉-惯性SLAM:基于VINS-Fusion正式开课啦7.彻底搞懂基于LOAM框架的3D激光SLAM: 源码剖析到算法优化8.彻底剖析室内、室外激光SLAM关键算法原理、代码和实战(cartographer+LOAM +LIO-SAM)

9.从零搭建一套结构光3D重建系统[理论+源码+实践]

10.单目深度估计方法:算法梳理与代码实现

扫码添加小助手微信,可

也可申请加入我们的细分方向交流群,目前主要有等微信群。

一定要备注:,例如:”3D视觉 + 上海交大 + 静静“。请按照格式备注,可快速被通过且邀请进群。也请联系。

▲长按加微信群或投稿

▲长按关注公众号

:针对3D视觉领域的五个方面进行深耕,更有各类大厂的算法工程人员进行技术指导。与此同时,星球将联合知名企业发布3D视觉相关算法开发岗位以及项目对接信息,打造成集技术与就业为一体的铁杆粉丝聚集区,近4000星球成员为创造更好的AI世界共同进步,知识星球入口:

学习3D视觉核心技术,扫描查看介绍,3天内无条件退款

 圈里有高质量教程资料、答疑解惑、助你高效解决问题

标签: 压差传感器dpt0100u1

锐单商城拥有海量元器件数据手册IC替代型号,打造 电子元器件IC百科大全!

锐单商城 - 一站式电子元器件采购平台