资讯详情

何恺明团队的“视频版本MAE”,高效视频预训练!Mask Ratio高达90%时效果也很好!...

182c2975526d5c31ac0584bdf4a738ac.png

文 | 小马源 | 我喜欢计算机视觉

本文分享论文,何恺明团队提出了视频版本 MAE,高效视频预训练!Mask Ratio 高达 时效果很好!

详情如下:

https://arxiv.org/abs/2205.09113

尚未开源

1.摘要

本文研究了Masked Autoencoders(MAE)对视频时空的概念表示学习的简单扩展。作者随机mask视频中的时空patch,并学习Autoencoders以像素为单位重建。

有趣的是,这篇文章MAE学习方法可以强烈表示,几乎没有时空诱导偏置,时空不知道随机性mask表现最好。作者观察到最佳隐蔽率(mask ratio)高达90%(图像覆盖率为75%),支持与数据信息冗余相关的假设。覆盖率高会导致加速率大。作者使用vanilla Vision Transformers报告了几个具有挑战性的视频数据集的竞争结果。

作者通过实验观察到,MAE表现远优于监督预训练。此外,作者还报告了未经处理的现实世界。Instagram训练的数据结果。本文的研究表明,masked autoencoding的一般框架(BERT、MAE等)可以是用最少领域的知识来表征学习的统一方法。

2.Motivation

深度学习社区正在经历语言、视觉、言语等统一解决不同领域问题的趋势。架构方面,transformer计算机视觉已成功引入,并被确立为语言和视觉的通用构建块。学习自监督表征,BERT去噪/屏蔽自动编码(masked autoencoding)方法已被证明对从图像中学习视觉表征有效。为了统一方法,针对特定问题只引入较少的领域知识,这促使模型几乎完全从数据中学习有用的知识。

作者研究将遵循这一概念MAE扩展到时空表征学习。本文的方法很简单:(如上图所示)。本文的方法具有最小的领域知识:唯一的时空特异归纳偏差是embedding patch及其位置;所有其他组件都不知道问题的时空性质。

特别是本文的编码器和解码器都是普通的视觉Transformer,本文的随机结构没有分解或分层结构mask采样对时空结构不为人知。本文的方法预测像素值,不使用额外问题tokenizer。简而言之,本文的方法简单地应用于时空patch集。虽然归纳偏差最小,但本文的方法取得了强有力的实证结果,表明有用的知识可以从数据中学习。

MAE假设在文献中隐藏自动编码方法中的隐藏率(即删除)token百分比)与问题的信息冗余有关。例如,自然图像比语言有更多的信息冗余,因此最佳隐藏率更高。本文支持观察视频数据的假设。作者发现,视频的MAE最佳隐蔽率为90%(如上图所示),高于相应图像的75%。这可以理解为自然视频数据在时间上的相关结果。极端情况是,如果一个视频有相同的静态帧,那么所有的时空patch进行1/T的随机采样将显示出大部分静态帧。由于在自然视频中,慢动作比快动作更容易发生,因此根据实验观察,掩蔽率可能很高。

覆盖率越高,实际解决方案越有效。MAE仅对可见token应用编码器后,90%的掩蔽率将编码器的时间和内存复杂性降低到<1/10。结合小解码器,MAE所有预训练和编码token理论上可以减少7.计算量的7倍。事实上,计算量大到数据加载时间成为新的瓶颈;即便如此,作者还是记录了4.1倍的wall-clock加速。对于大规模、耗时的视频研究来说,如此显著的加速是非常重要的。

作者报告了各种视频识别数据集的强大结果。MAE预训练大大提高了泛化性能:Kinetics-与从头开始的训练相比,它将是400ViT-Large精度提高了13%,一般来说需要更少wall-clock训练时间(预训练加微调)。本文的MAE预训练可以大大超过其监督的预训练对手。通过使用vanilla ViT,本文的方法与以前采用更多领域知识的SOTA与法律相比,具有竞争力的结果。作者还报告了使用情况MAE对100万个随机、未经处理的随机、未经处理Instagram视频预训练的结果。这些结果表明,在统一的框架下,视频我监督学习可以类似于语言和图像。

3.方法

本文的方法是MAE简单扩展时空数据的目标是在一般统一的框架下开发这种方法,尽可能少地利用领域知识。

Patch embedding

根据原始ViT,给定一个视频片段,作者将其划分为一个包含时空不重叠的规则网格patch。patch铺展和嵌入是通过线性投影进行的。嵌入位置添加到嵌入位置patch中。patch嵌入位置的过程是时空感知的唯一过程。

Masking

作者从嵌入patch集中随机抽取patch。这种随机抽样与时空结构无关,如上图所示a。这种结构不可知的采样策略与1相似D中的BERT和2D中的MAE。

MAE假设最佳隐蔽率与数据的信息冗余有关。对于非结构化随机,BERT语言的掩蔽率为15%,MAE图像采用了75%的隐蔽率,表明图像的信息冗余比语言多。本文支持视频的实证结果。视频的最佳隐蔽率为90%。这符合通常的假设,即自然视频的相关性,自然视频比图像有更多的信息冗余。下图显示了未知验证数据中本文方法的掩蔽率为90%和95%MAE重建结果。

采样比结构感知采样策略更有效。如上图b和c因此,只有空间或时间采样才能保留较少的信息,并产生非常困难的预训练任务。例如,掩蔽率为87.5%的8帧只进行时间采样,意味着只保留一帧,这就提出了一项非常具挑战性的任务,即在给定一帧时预测未来和过去。作者观察到,结构感知采样的最佳掩蔽率通常较低。相比之下,时空采样更好地利用了有限数量的可见性patch,因此,允许使用更高的隐蔽率。

Autoencoding

我们的编码器是一种的ViT,仅适用于可见嵌入patch集。这种设计大大降低了时间和内存的复杂性,并带来了更实用的解决方案。90%的掩蔽率将编码器的复杂性降低到<1/10。本文的解码器是另一种基于编码的解码器patch集和一组mask token普通的联合ViT。添加到这个集合中嵌入解码器的特定位置。由于解码器的设计比编码器小,虽然解码器处理整个集合,但其复杂性小于编码器。在本文的默认设置中,与完全编码相比,整个autoencoder的复杂度降低了7.7倍。

在像素空间中预测解码器patch。原则上,可以简单地预测一个完整的时空patch(例如,t×16×16);作者在实验中发现了预测patch单时间片(16×16)足以保持预测层的大小可控。本文预测了原始像素或每个像素patch归一化值。训练损失函数是预测与目标之间的平均误差(MSE),在未知patch求平均值。编码器和解码器不知道问题的时空结构。与SOTA与结构相比,本文的模型没有层次结构或时空分解,只依靠整体自我关注,从数据中学习有用的知识。

4.实验

Performance

上图显示了使用标准ViT-L将MAE与无预训练(即从头开始训练)进行比较的结果。相比之下,使用MAE预训练800个epoch,相同ViT-L达到84.与从头开始的训练相比,4%的准确率显著提高13%.0%。这个差距远远大于图像识别任务(~ 3%),表明MAE视频识别更有利于预训练。

除精度增益外,MAE预训练还可以降低整体训练成本,800 epoch MAE预训练仅需35.8小时。预训练需要16小时。.3小时3小时的微调可以获得良好的精度。整体训练时间可以比从头开始的训练短。MAE是实用的视频识别解决方案。

Ablation experiments

上图显示了掩护率和预训练周期的联合影响。90%的比例是最好的。95%的比例出奇的好。如果训练时间足够长,就能赶上。较高的掩护率导致编码器编码token较少;为了更全面地查看,作者绘制了编码token总数和准确性的影响(上图右侧)。在这个测量标准下,90%和95%的比例密切相关。

上表显示不同mask从策略的实验结果可以看出,随机采样效果最好。

图中显示了不同重建目标的实验结果。

上图显示了不同数据增强的实验结果。

由于本文计算速度快,需要采用重复采样来降低数据加载成本。上表报告了其影响。重复使用2到4次wall-clock速度提高1.8倍或3.0倍,因为加载和解压文件可以重复使用多次。

上表展示了Decoder深度和宽度的影响。

上表研究了不同数据集的预训练,并将其转移到各种下游任务。

上表显示了用途MAE真实的预训练Instagram数据。每组作者MAE进行200、400和800个epoch并比较了预训练K400微调精度。ViT-L。

5.总结

作者探索了MAE对视频数据的简单扩展,得些有趣的观察结果:

  1. 本文的实验表明,掩蔽率是一般掩蔽自动编码方法的一个重要因素,其最佳值可能取决于数据的性质(语言、图像、视频等)。

  2. 作者报告了关于真实世界、未经评估数据的预训练的结果。

尽管得到了这些观察结果,但仍然存在一些悬而未决的问题。本文研究的数据规模比语言对应的数据规模小几个数量级。虽然本文的方法在很大程度上提高了自监督学习的效率,但高维视频数据仍然是扩展的主要挑战。

后台回复关键词【

后台回复关键词【

 

[1]https://arxiv.org/abs/2205.09113

标签: 102k400vac瓷片电容221k400vac陶瓷电容

锐单商城拥有海量元器件数据手册IC替代型号,打造 电子元器件IC百科大全!

锐单商城 - 一站式电子元器件采购平台