CVPR 2022 | FAIR提出MaskFeat：自监督视觉预训练新方法！灵感之一来自16年前CVPR论文...-锐单电子商城

点击上方“迈微AI研习社”，选择“星标★”公众号

重磅干货，第一时间送达

转载自：新智元

后台回复“加群”进入—>CV微信技术交流群

【导读】近日，北京大学校友、约翰·霍普金斯大学博士生提出了一种新的方法：MaskFeat，摘下12个SOTA！

这是一种可用于视频模型的自监督和预训练方法：掩码特征预测（MaskFeat）。

Masked Feature Prediction for Self-Supervised Visual Pre-Training

Masked Feature Prediction for Vision Self-Supervised Pre-Training

https://arxiv.org/abs/2112.09133

简而言之，MaskFeat的ViT-B在ImageNet 1K精度达到84.0%，MViT-L在Kinetics-精度达到8600.7%，成功超越BEiT等方法。

一作Chen Wei是约翰·在北京大学获得计算机科学学士学位的霍普金斯大学计算机科学博士生。

并曾在FAIR、谷歌和华为诺亚方舟实验室的主要研究方向是视觉自我监督学习。

HOG VS Pixel Colors

「Mask-and-Predict」总有一个可以「Predict」模型学习的特点。

MaskFeat核心变化是会MAE对图像像素（pixel）直接预测被图像的方向梯度直方图取代（HOG）的预测。

图像HOG特征向量

说到HOG，这可不是什么新鲜玩意儿。

HOG2005年发表的经典图像特征提取算法CVPR，到目前为止，已经收获了3.7万的引用。

https://hal.inria.fr/file/index/docid/548512/filename/hog_cvpr2005.pdf

为什么要预测图像？HOG比直接预测像素好？

作为一个预测目标，像素有一个潜在的缺点，即模型会过度拟合局部统计数据（如光照和对比度变化）和高频细节，这可能对视觉内容的解释不是特别重要。

相反，方向梯度直方图（HOG）它是通过简单的梯度滤波器（即减去相邻像素）计算每个像素的梯度大小和方向来描述局部子区域梯度或边缘分布的特征描述符。

通过组织和整合局部梯度，HOG模糊问题更稳定

HOG其特点是善于捕捉局部形状和外观，对几何变化不敏感，对光的变化变。计算引入的费用仍然很小，可以忽略不计。

这次，MaskFeat引入HOG，事实上，这是一种将手工特征与深度学习模型相结合的尝试。

MaskFeat首先随机地mask输入序列的一部分，然后预测mask区域特征。

对于未见的图像验证HOG预测

然而，模型是通过预测给定的masked input（左）的HOG学习特征(中间)的原始图像(右)不用于预测。

方向梯度直方图（HOG）加入这个想法MaskFeat模型更简化，性能和效率都很好。

不使用额外的模型权重、监督和数据，MaskFeat预训练的MViT-L在Kinetics-获得8600数据集.7%的Top-1准确率。

这个成绩以5.2%的幅度领先之前的SOTA，也超过了使用IN-21K和JFT-300M这些大规模图像数据集的方法。

此外，MaskFeat的准确率在Kinetics-600数据集上为88.3%，在Kinetics-700数据集上为80.4%，在AVA数据集上为38.8 mAP，而在SSv2数据集上为75.0%。

结果分析

Kinetics-400数据集

与不使用预训练相比，CNN，严重依赖大规模图像数据集和监督预训练Transformer的方法，MaskFeat性能极佳。

在Kinetics-400数据集上的比较

经过300个epoch预训练的MaskFeat将MViT-S，16×4的81.1%的top-精度提高了1.1%。其中，16×4表示该模型在训练过程中使用16个时间跨度为4的帧作为输入。

而在K400上用MaskFeat预训练了800个epoch的MViT-L 16×4达到了84.3%的top-1精度比基线高3.8%，比使用IN-21K训练的监督模式高于0.8%。

MaskFeat也用自己的力量K没有外部数据的部数据的最佳精度（MoViNet-A6的81.5%）提高了5.2%。

此外，MaskFeat仅用K400的结果（86.7%）就能和86.5%的Florence和86.8%的SwinV2-G不相上下。其中，Florence使用9亿个文本-图像对，SwinV2-G一个参数30亿的巨型模型首先被使用IN-21K在7000万张内部图像的大型数据集中进行自我监督和监督预训练。

可以说，MaskFeat参数、计算成本、数据和注释的效率再次证明了直接在未标记视频上进行预训练的优势，也为新的视频预训练方法打开了大门。

Kinetics-600 & Kinetics-700数据集

在Kinetics-600数据集的比较

在Kinetics-700数据集的比较

MaskFeat在K600和K700分别达到8600.4%和77.5%的top-1准确率与以前基于Transformer与方法相比，外部图像数据既不使用，也不使用FLOPs还减少了10倍以上。

在更大的输入分辨率312和更长的持续时间40×3下，MaskFeat在K600上实现了88.3%的top-1准确率，在K700上实现了80.4%的top-1准确率。

于是，MaskFeat没有外部监督(如IN-21K和JFT-300M）在这种情况下，每个数据集都创造了新的SOTA。

ImageNet-1K数据集

对MaskFeat进行1600个epoch预训练，在ViT-B上微调100个epoch，在ViT-L上微调50个epoch。

图像大小为224时x224时，MaskFeat与在IN-21K上进行的有监督的预训练相比，在ViT-B上打成平手，而在ViT-L超越是直接实现的。

当图像大小为384时x384时，利用IN-21K监督预训练需要比较MaskFeat多10倍图像和标记。

一般来说，由于缺乏典型的CNN归纳偏置，ViT模型对数据要求很高，需要大规模的监督和预训练。MaskFeat特征图像修复任务可以在没有外部标记数据的情况下克服这个问题。

此外，与BEiT相比，MaskFeat只需要计算HOG特征，摆脱了dVAE的tokenizer。而后者在250M DALL-E数据集引入了额外的预训练阶段mask在预测期间引入了不可忽视的推理费用。MoCo v3和DINO相比，MaskFeat更准确、更简单。

此处MaskFeat300个预训练epoch

随着MAE、MaskFeat等模型的出现，NLP边界的制胜武器「Mask-and-Predict」会是CV监督预训练的下一个标准范式？

对此，清华大学的知友「谢凌曦」表示：

视觉自我监督领域已经做了这么多年，从最早的生成学习开始，回到生成学习。最后，我们发现了像素级特征和各种手工特征，tokenizer、即使是离线预训练网络获得的特征在判断生成图像质量方面也没有本质区别。

也就是说，自我监督可能只是将模型和参数调整为更适合下游任务，但在「新知识从何而来？」这个问上，并没有任何实质进展。

参考资料：

https://arxiv.org/pdf/2112.09133.pdf

https://www.zhihu.com/question/506657286/answer/2275700206

后台回复“加群”进入—> CV 微信技术交流群

绘图神器下载

后台回复：绘图神器，即可下载绘制神经网络结构的神器！

PyTorch 学习资料下载

后台回复：PyTorch资料，即可下载访问最全的PyTorch入门和实战资料！

专栏推荐下载

专栏订阅：https://blog.csdn.net/charmve/category_10595130.html

迈微AI学术交流群（知识星球）来了！想要了解最新最快最好的CV/DL/ML论文速递、优质开源项目、学习教程和实战训练等资料，欢迎扫描下方二维码，加入CVer学术交流群，已汇集数千人！

▲扫码进群

备注：姓名-学校/公司-研究方向-城市（如：小C-北大-目标检测-北京）

资讯详情

CVPR 2022 | FAIR提出MaskFeat：自监督视觉预训练新方法！灵感之一来自16年前CVPR论文...

详细介绍电流互感器功能区别3CT SR ZCT

CVPR 2022 | FAIR提出MaskFeat：自监督视觉预训练新方法！灵感之一来自16年前CVPR论文...

详细介绍电流互感器功能区别3CT SR ZCT

最近热搜

历史搜索 清除历史记录

历史搜索清除历史记录