资讯详情

Towhee 每周模型

:Towhee 技术团队

本周我们分享 5 视频相关 AI 模型:

轻便易用的视频动作识别模型系列 、实现文本和视频的跨模式搜索 、比 CLIP4Clip 更好的视频检索模型 、挣脱视频数据的局限性 、对冠军模型 MMT 再次升级的

如果你认为我们分享的内容很好,请不要吝啬给我们一些免费的鼓励:喜欢,喜欢,或与你的朋友分享。


MoViNets系列模型,实时分类视频的好帮手

需要视频理解,但是模型太重太耗时?轻量级动作识别模型再次升级,。MoViNets 视频动作识别的通用数据集 Kinetics、Moments in Tme 和 Charades 先进的精度和效率证明了其高效性和广泛的适用性。

MoViNets: Streaming Evaluation vs. Multi-Clip Evaluation

MoViNets 是卷积神经网络系列 2D 视频分类器和 3D 视频分类器取长补短,兼容其关键优势,减少其局限性。该系列模型通过神经结构搜索获得了丰富的高效视频网络结构,引用流缓冲技术使3D卷积可以接受任何长度的流视频序列,然后简单地集成多个模型来提高精度,最终有效地平衡计算量、内存费用和精度。

  • 模型用例:action-classification/movinet

  • 论文:MoViNets: Mobile Video Networks for Efficient Video Recognition

  • 更多资料:MoViNets:实时视频理解成现实

多模态模型 CLIP4Clip 带您实现文本和视频互搜

CLIP4Clip 跨模态图文模型 CLIP 在此基础上,文本/视频检索任务成功实现。通过大量的消融实验,CLIP4Clip 证明了自己的有效性,并在 MSR-VTT、MSVC、LSMDC、ActivityNet 和 DiDeMo 等文本-视频数据集已经实现 SoTA 结果。

CLIP4Clip: Main Structure

CLIP4Clip 视频检索的任务是基于预训练的图形模型,通过迁移学习或微调完成。它使用预训练 CLIP 模型作为主要网络,解决了从帧级输入的视频片段检索任务,并使用了无参数类型 、为了获得最终类型和紧密类型相似性以获得最终结果。

  • 模型用例: video-text-embedding/clip4clip

  • 论文: CLIP4Clip: An Empirical Study of CLIP for End to End Video Clip Retrieval

  • 更多资料: CLIP4Clip: CLIP 下一个城市,利用CLIP实现视频检索

文本视频交互更好,DRL 改进分离框架 CLIP4Clip

尽管 CLIP4Clip 跨模态文本/视频检索已经实现,但网络结构仍有一定的局限性或改进空间。因此,在2022年初 DRL(Disentangled Representation Learning)跨模态匹配不同粒度的内容。 在视频检索任务中,改进后的模型大大提高了各大文本视频数据集的精度。

Overview of DRL for Text-Video Retrieval

CLIP4Clip 在计算文本和视频的相似性时,只考虑两种模式的整体表征,缺乏细粒度的交互。例如,当文本描述只对应视频帧的一部分时,如果提取视频的整体特征,模型可能会被其他视频帧的信息所干扰和误导。DRL对 CLIP4Clip 一是提出两个重要的改进 Weighted Token-wise Interaction,通过密集预测相似度,通过 max 找到潜在的激活操作 token。另一个是Channel Decorrelation Regularization,通道去相关正则可以减少通道间信息的冗余和竞争,用协方差矩阵测量通道上的冗余。

  • 模型用例: video-text-embedding/drl

  • 论文: Disentangled Representation Learning for Text-Video Retrieval

  • 更多资料: 视频多模态预训练/检索模型

将图像视为视频快照,Frozen in Time 挣脱多模态视频检索数据局限性

牛津大学在 ICCV2021 发表了 Frozen in Time,提供端到端视频图像联合编码器,灵活使用文本/图像和文本/视频数据集。这个模型是最近的 ViT 和 Timesformer 结构的修改和扩展,以及对空间和时间的关注。

Frozen in Time: Joint Image and Video Training

Frozen in Time 可单独或结合使用文本图像和文本视频数据集进行训练。在使用图像训练时,模型将其视为视频的冻结快照,并在训练中逐渐学习上下文。此外,作者还提供了一个新的视频文本预训练数据集 WebVid-2M ,包含200多万个视频。虽然训练量小于其他通用数据集,但实验表明,标准下游视频检索基准采用该数据集预训练模型 (包括 MSR-VTT、MSVD、DiDeMo、LSMDC) 上均能产生SOTA的结果。

  • 模型用例: video-text-embedding/frozen-in-time

  • 论文: Frozen in Time: A Joint Video and Image Encoder for End-to-End Retrieval

  • 更多资料: ICCV2021-《Frozen in Time》-牛津大学新的预训视频文本数据集WebVid-2M,设计用于端到端检索的联合视频和图像编码器!代码已开源!

从 MMT 到 MDMMT,全面优化文本视频检索

MDMMT 发表于 2021 年,是前年 cvpr 视频五项全能挑战赛冠军 MMT (发表于 ECCV 2020) 一项扩展研究。本研究在训练数据集中进行了尝试和优化,继续引领文本视频检索轨道。

MMT: Cross-modal Framework

MMT 用于提取和整合视频特征,包括图像特征、语音特征和语音对应的文本特征。首先,预训练的专家网络提取特征分别用于三种模式的处理,然后用于每种模式特征 maxpool 产生整合特征。拼接整合特征和相应的模态特征序列,然后拼接不同模态组的特征。每个模态还将学习插入相应的模态标志特征和不同帧特征。也就是说,在每个特征上添加属于模态信息和帧序号信息。MDMMT 使用与 MMT 相同的损失函数和相似的结构,但优化了超参。

  • 模型用例: video-text-embedding/mdmmt

  • 论文: MDMMT: Multidomain Multimodal Transformer for Video Retrieval Multi-modal Transformer for Video Retrieval

  • 更多资料: 视频多模态预训练/检索模型


更多项目更新及详细信息,请关注我们的项目( https://github.com/towhee-io/towhee/blob/main/towhee/models/README_CN.md) ,您的关注是我们爱发电的强大动力。 star, fork, slack 三连 :)

zilliz用户交流

 

标签: mmt330系列油中微水变送器

锐单商城拥有海量元器件数据手册IC替代型号,打造 电子元器件IC百科大全!

 锐单商城 - 一站式电子元器件采购平台  

 深圳锐单电子有限公司