资讯详情

比MAE更强,FAIR新方法MaskFeat用HOG刷新多个SOTA

点击上方“”,选择“”公众号

重磅干货,第一时间送达

来源:迈微AI研习社

mask-and-predict 该方法可能成为计算机视觉领域的新流派。

自我监督预训练在自然语言处理方面取得了惊人的成功,其基本思路包括掩码预测任务。前段时间,何恺明的论文《Masked Autoencoders Are Scalable Vision Learners》提出了简单实用的自监督学习计划 MAE,将 NLP 该领域的掩码预测(mask-and-predict)该方法用于视觉问题。现在来自 Facebook AI 研究院(FAIR)研究小组提出了一种新的自我监督视觉预训练方法 MaskFeat。

d10014e794c71075ddf2f5689faca380.png

论文地址:https://arxiv.org/pdf/2112.09133.pdf

MaskFeat 首先随机掩码部分输入序列,然后预测被掩码区域的特征。通过研究 5 研究人员发现了不同类型的方向梯度直方图 (HOG) 是一种很好的特征描述方法,在性能和效率方面都表现优异。研究人员还观察到 HOG 局部对比归一化对于取得良好的效果非常重要,这与以前的使用非常重要 HOG 进行视觉识别的工作一致。

该方法可以学习丰富的视觉知识并驱动它 Transformer 大规模模型。不使用额外的模型权重和监督,MaskFeat 使用未标记的视频进行预训练 MViT-L 在 Kinetics-400 前所未有的实现 86.7% top-1 准确率。此外,MaskFeat 它还可以进一步推广到图像输入中 ImageNet 有竞争力的结果。

隐藏代码的视觉预测任务旨在修复隐藏代码的视觉内容。通过建模隐藏代码样本,该模型从识别对象的位置和运动的意义上实现了视频理解。例如,为了完成下图中的图像,模型必须首先根据可见区域识别对象,并了解对象的通常形式和移动模式,以修复缺失区域。

该任务的关键组成部分是预测目标。在自然语言处理任务中,用词表建模隐码语言 tokenize 语料库是目标。在视觉领域,原始视觉信号是连续的、高维的,没有可用的自然「词表」。

因此,MaskFeat 建议预测被掩码区域的特征。监督从原始完整样本中提取的特征。目标特征的选择在很大程度上影响了预训练模型的属性。本研究广泛解释了特征,并主要考虑 5 不同类型的目标特征。

首先,研究人员将目标特征分为两组:1) 可直接获得的单阶段目标包括像素颜色和 HOG;2) 从训练后的深度网络中提取的两个阶段目标。由于预测这两个阶段的目标是通过训练有素的深度网络有效地学习的(类似于模型蒸馏),教师模型的预训练和推理的额外计算成本是不可避免的。本研究主要探讨 5 特征类型为:

  • 像素颜色;

  • 方向梯度直方图(HOG);

  • 离散变分为自编码器(dVAE);

  • 深度特征;

  • 标签

本研究通过一系列的分析进行了探索 5 特征的优缺点。虽然掩码语言建模最初是在预定义词表上预测分类分布的,但 BEiT 离散不需要视觉信息。分析结果表明,连续的无监督特征和图像描述符是性能良好的预测目标,前者需要模型蒸馏,后者不需要额外的计算费用。

此外,研究人员还发现,监督培训的目标特征会产生较差的结果,这可能与特征中存在的类别特定信息有关,即该方法对局部代码隐藏建模过于全球化。一般来说,考虑到性能和计算成本之间的平衡,研究最终选择了它 HOG 作为 MaskFeat 默认特征。

方向梯度直方图(HOG)特征是一种用于计算机视觉和图像处理中物体检测的特征描述方法,最早是在 CVPR 2005 的一篇论文《Histograms of Oriented Gradients for Human Detection》中提出的。

HOG 特征提取过程如下:首先将样本图像分为若干像素单元,梯度方向平均分为多个区间,各方向区间中所有像素的梯度方向,得到多维特征向量,每个相邻单元形成一个区间,连接多维特征向量,扫描样本图像,扫描步长为单元。最后,将所有块的特征串联起来,得到完整的特征。

该研究在 K400 数据集上将 MaskFeat 与以前的工作相比,结果如下表所示 3 所示,使用 MaskFeat 的 MViT-L 在 Kinetics-400 实现了新的 SOTA——86.7% top-1 准确率。

为了评估该方法在下游任务上的迁移学习性能,该研究在 AVA v2.2 上微调了 MViT-L↑312,40×3 Kinetics 实验结果如上表所示 3 和下表 4 所示,在 K600 上实现了 88.3% top-1 准确率,K700 上为 80.4%,都实现了新的 SOTA。

该研究在 AVA v2.2 上微调了 MViT-L↑312,40×3 Kinetics 模型,下表 5 给出了 MaskFeat 与现有方法相比,模型的平均精度 (mAP)。MaskFeat 在全分辨率全分辨率测试 38.8 mAP,大大超过了以前所有方法。

?THE END

如果觉得有用,请点赞转发!

标签: 102k400vac瓷片电容221k400vac陶瓷电容

锐单商城拥有海量元器件数据手册IC替代型号,打造 电子元器件IC百科大全!

锐单商城 - 一站式电子元器件采购平台