资讯详情

MMAction2-视频理解、行为识别(学习笔记-附代码实操)

一、MMAction2-视频理解和行为识别

  • 在这里插入图片描述

  • 视频 = 空间 时间:图像是二维空间,视频是三维,视频比图像多的维度是时间维度。

    • 关键1:如何描述视频中的动作??

      动作 = 外观 运动。外观是静态的,是图像帧。运动是动态的,也称为帧间运动,是时间顺序的变化。

      • 思路1:独立提取图像特征,然后按顺序建模

        静态外观特征和动态时序的变化分为两个层次。

        第一层:提取每个图像的外观特征。

        第二层:在外观特征形成的序列基础上进行一次时序建模。

        根据动态信息获取动作特征,提取动态信息。

      • 思路2:外观特征与运动特征并行计算,最后融合

        首先,根据单帧图像提取外观特征

        通过相邻帧的变化,提取瞬时变化的信号,然后提取运动特征

        上述两步并行计算,最后集成

      • 思路3:利用更加强大的模型,从多帧图像直接计算运动特征

    • 关键2:如何高效处理视频数据?

      视频的数据量远远大于图像,一秒钟的视频包含20个~30个图像会给计算量和内存占用带来巨大的挑战

    • 重点3:如何使用无标记视频数据训练模型?

      标记视频的工作量是图像标记的100倍和1000倍。传统上精细标记每张图片是不现实的。

1. 光流和2D卷积(解决重点1,2)

  • ——捕捉视频中的运动。光流是图像平面上的向量场,通常根据相邻的图像帧进行估计。光流表示图像中每个点的位移。整个光流可以表达整个图像中每个点的位移方向和范围。

  • 这里有些Latex符号会在这里报错,直接贴图。(Typora中打的)

  • 颜色表示方向,亮度表示大小

    • 稀疏光流:跟踪少量感兴趣的点
    • 密集光流:估计所有像素的光流
    • DeepVideo(2014)

      网络用图像分类AlexNet在每一帧图片上,但是性能没有提高。因为它只关注每帧图像的外观特征,不捕捉运动特征。

    • Two Stream Networks(2014)

      双流神经网络

      • Spatial stream是,输入单个图像,主要提取每帧图像的外观特征
      • Temporal stream是,以多帧光流作为输入,用卷积网络作用在光流场(即二维信号)上面取提取运动特征。
        • 训练时:随机选择视频的某个时刻,计算图像的光流
        • 测试时:在所有时间进行预测,然后在所有时间进行平均分类概率
      • :双流网络专注于短时建模,动作由单一时刻的图像和光流决定,会有一些信息误解。因此,有必要,动作应由图像和运动信息确定

    • Temporal Segment Networks(2016)

      时序分段网络TSN

      • 当频进来时,不会逐帧采样,而是会按固定间隔采样。例如,将整个视频分为,每个段落取,再送进提取外观和运动的特点 。三段分别进行。最后,整合得到全视频的动作预测。
      • :采用新的分段采样方式,而不是按一定的固定频率进行密集采样。有效扩大视野,使信息更加全面多样化。

2. 3D卷积网络(解决重点1,2)

标签: 102k400vac瓷片电容221k400vac陶瓷电容6j20高温电阻合金丝材

锐单商城拥有海量元器件数据手册IC替代型号,打造 电子元器件IC百科大全!

锐单商城 - 一站式电子元器件采购平台