点击上方“”,选择“”公众号
重磅干货,第一时间送达
这是一种可用于视频模型的自监督和预训练方法:掩码特征预测(MaskFeat)。
Masked Feature Prediction for Self-Supervised Visual Pre-Training
Masked Feature Prediction for Vision Self-Supervised Pre-Training
https://arxiv.org/abs/2112.09133
简而言之,MaskFeat的ViT-B在ImageNet 1K精度达到84.0%,MViT-L在Kinetics-精度达到8600.7%,成功超越BEiT等方法。
一作Chen Wei是约翰·在北京大学获得计算机科学学士学位的霍普金斯大学计算机科学博士生。
并曾在FAIR、谷歌和华为诺亚方舟实验室的主要研究方向是视觉自我监督学习。
HOG VS Pixel Colors
「Mask-and-Predict」总有一个可以「Predict」模型学习的特点。
MaskFeat核心变化是会MAE对图像像素(pixel)直接预测被图像的方向梯度直方图取代(HOG)的预测。
图像HOG特征向量
说到HOG,这可不是什么新鲜玩意儿。
HOG2005年发表的经典图像特征提取算法CVPR,到目前为止,已经收获了3.7万 的引用。
https://hal.inria.fr/file/index/docid/548512/filename/hog_cvpr2005.pdf
为什么要预测图像?HOG比直接预测像素好?
作为一个预测目标,像素有一个潜在的缺点,即模型会过度拟合局部统计数据(如光照和对比度变化)和高频细节,这可能对视觉内容的解释不是特别重要。
相反,方向梯度直方图(HOG)它是通过简单的梯度滤波器(即减去相邻像素)计算每个像素的梯度大小和方向来描述局部子区域梯度或边缘分布的特征描述符。
通过组织和整合局部梯度,HOG模糊问题更稳定
HOG其特点是善于捕捉局部形状和外观,对几何变化不敏感,对光的变化变。计算引入的费用仍然很小,可以忽略不计。
这次,MaskFeat引入HOG,事实上,这是一种将手工特征与深度学习模型相结合的尝试。
MaskFeat首先随机地mask输入序列的一部分,然后预测mask区域特征。
对于未见的图像验证HOG预测
然而,模型是通过预测给定的masked input(左)的HOG学习特征(中间)的原始图像(右)不用于预测。
方向梯度直方图(HOG)加入这个想法MaskFeat模型更简化,性能和效率都很好。
不使用额外的模型权重、监督和数据,MaskFeat预训练的MViT-L在Kinetics-获得8600数据集.7%的Top-1准确率。
这个成绩以5.2%的幅度领先之前的SOTA,也超过了使用IN-21K和JFT-300M这些大规模图像数据集的方法。
此外,MaskFeat的准确率在Kinetics-600数据集上为88.3%,在Kinetics-700数据集上为80.4%,在AVA数据集上为38.8 mAP,而在SSv2数据集上为75.0%。
结果分析
与不使用预训练相比,CNN,严重依赖大规模图像数据集和监督预训练Transformer的方法,MaskFeat性能极佳。
在Kinetics-400数据集上的比较
经过300个epoch预训练的MaskFeat将MViT-S,16×4的81.1%的top-精度提高了1.1%。其中,16×4表示该模型在训练过程中使用16个时间跨度为4的帧作为输入。
而在K400上用MaskFeat预训练了800个epoch的MViT-L 16×4达到了84.3%的top-1精度比基线高3.8%,比使用IN-21K训练的监督模式高于0.8%。
MaskFeat也用自己的力量K没有外部数据的部数据的最佳精度(MoViNet-A6的81.5%)提高了5.2%。
此外,MaskFeat仅用K400的结果(86.7%)就能和86.5%的Florence和86.8%的SwinV2-G不相上下。其中,Florence使用9亿个文本-图像对,SwinV2-G一个参数30亿的巨型模型首先被使用IN-21K在7000万张内部图像的大型数据集中进行自我监督和监督预训练。
可以说,MaskFeat参数、计算成本、数据和注释的效率再次证明了直接在未标记视频上进行预训练的优势,也为新的视频预训练方法打开了大门。
在Kinetics-600数据集的比较
在Kinetics-700数据集的比较
MaskFeat在K600和K700分别达到8600.4%和77.5%的top-1准确率与以前基于Transformer与方法相比,外部图像数据既不使用,也不使用FLOPs还减少了10倍以上。
在更大的输入分辨率312和更长的持续时间40×3下,MaskFeat在K600上实现了88.3%的top-1准确率,在K700上实现了80.4%的top-1准确率。
于是,MaskFeat没有外部监督(如IN-21K和JFT-300M)在这种情况下,每个数据集都创造了新的SOTA。
对MaskFeat进行1600个epoch预训练,在ViT-B上微调100个epoch,在ViT-L上微调50个epoch。
图像大小为224时x224时,MaskFeat与在IN-21K上进行的有监督的预训练相比,在ViT-B上打成平手,而在ViT-L超越是直接实现的。
当图像大小为384时x384时,利用IN-21K监督预训练需要比较MaskFeat多10倍图像和标记。
一般来说,由于缺乏典型的CNN归纳偏置,ViT模型对数据要求很高,需要大规模的监督和预训练。MaskFeat特征图像修复任务可以在没有外部标记数据的情况下克服这个问题。
此外,与BEiT相比,MaskFeat只需要计算HOG特征,摆脱了dVAE的tokenizer。而后者在250M DALL-E数据集引入了额外的预训练阶段mask在预测期间引入了不可忽视的推理费用。MoCo v3和DINO相比,MaskFeat更准确、更简单。
此处MaskFeat300个预训练epoch
随着MAE、MaskFeat等模型的出现,NLP边界的制胜武器「Mask-and-Predict」会是CV监督预训练的下一个标准范式?
对此,清华大学的知友「谢凌曦」表示:
视觉自我监督领域已经做了这么多年,从最早的生成学习开始,回到生成学习。最后,我们发现了像素级特征和各种手工特征,tokenizer、即使是离线预训练网络获得的特征在判断生成图像质量方面也没有本质区别。
也就是说,自我监督可能只是将模型和参数调整为更适合下游任务,但在「新知识从何而来?」这个问上,并没有任何实质进展。
参考资料:
https://arxiv.org/pdf/2112.09133.pdf
https://www.zhihu.com/question/506657286/answer/2275700206
后台回复:绘图神器,即可下载绘制神经网络结构的神器!
后台回复:PyTorch资料,即可下载访问最全的PyTorch入门和实战资料!
专栏推荐下载
专栏订阅:https://blog.csdn.net/charmve/category_10595130.html
迈微AI学术交流群(知识星球)来了!想要了解
▲扫码进群
备注:姓名-学校/公司-研究方向-城市(如:小C-北大-目标检测-北京)
(更多“抠图”最新成果)
-
机器学习算法之——K最近邻(k-Nearest Neighbor,KNN)分类算法原理讲解
-
👉机器学习/深度学习必读经典著作推荐...
-
机器学习算法之——支持向量机(Support Vector Machine, SVM)
-
机器学习算法之——隐马尔可夫模型(Hidden Markov Models,HMM)
微信号: MaiweiE_com CSDN、知乎: @Charmve
主页: github.com/Charmve GitHub: @Charmve
投稿: yidazhang1@gmail.com
如果觉得有用,就请