资讯详情

Multimodal Spatiotemporal Representation for Automatic Depression Level Detection

Multimodal Spatiotemporal Representation for Automatic Depression Level Detection

多模态时空表示自动抑郁检测 ——TAFFC.2020

文章提出了关注网络的新时空和多模态注意特征融合策略用于预测个体抑郁水平的抑郁线索多模态表征。STA网络能有效提取输入信号的时空信息,强调抑郁症的特征。MAFF音频特征和视频特征可以有效征和视频特征,最终获得与抑郁症相关的多模态表征AVEC2013和AVEC2014年取得了很好的效果。 文章的创新在于STA框架部分和MAFF战略部分。 输入是音频信号和面部图像。 作者认为有些网络使用2DCNN提取特征时,图像中的动态信息往往会丢失或忽略。一些网络也试图用傅里叶的变换来获得每种行为的光谱来代码面部活动(如面部动作单位、头部姿势、凝视方向等)。),但原语往往不足以提取详细的面部外观。类似的问题也出现在使用时空特征检测抑郁症的工作中,即使使用三维CNN递归神经网络(RNN)的结合。这是因为3DCNN平均处理所有连续帧,忽略了时间和空间中显著特征的不均匀分布(不强调与抑郁症有关的不均匀特征)。 为了说明不同视频帧对抑郁症检测的影响不完全相同,作者使用了二维CNN LSTM结构处理了60个连续视频帧的视频片段。 二维CNN LSTM二维训练过程如下:CNN使用视频帧进行独立训练。然后,我们将视频片段的每一帧输入二维CNN以最后一个完整连接层的输出为帧特征。这样,视频片段就可以编码成一个。最后,输入特征序列LSTM中,生成。如图1所示,(a)和(b)是健康个体的音频和视频时间序列。(d)是抑郁个体的结果。MATLAB中的Imagesc该功能用于绘制这些图形,每列对应于音频或视频帧。 在这里插入图片描述 从图1可以看出,每列(b)与(d)差异并不完全相同。例如,使用。因此,

首先,将视频样本分成固定长度的片段,并分别输入这些片段在网络中,获取每个视频段对应的时间和空间特征,然后通过多个视频段级的特征(特征演化池)融合成视频级特征,再将经过模态间的对照融合最终得到抑郁症严重程度的分数。 如下图所示: 记录视频部分是如何处理的。语音相似,但数学公式不同。

提取段级特征的原因STA模块完成。 首先是一个视频段(文章这里使用了60帧图片)输入STA,SYA分为两个支路,一个是3DCNN支路,提取空间特征,视频段对应特征向量。一个支路是2DCNN LSTM,提取频带的时间信息。每帧图片对应一个特征向量,然后通过注意力计算集成两个特征。在此过程中,网络将分配一个重要参数来区分关键帧,以强调关键帧。最后,一个视频段对应向量VSLF。 在[48]中提出,可以强调抑郁检测的特征序列中的关键特征。但是,[48]中使用的行为原语不足以表征面部外观。此外,在表情识别[37]领域开发了。不仅如此,还提供。考虑到这两项工作的优势,提出了这两项工作STA网络生成音频/视频数据的时空表示,突出有助于抑郁检测的帧。 此外,我们还提出了多模态注意特征集成(MAFF)为了提高多模的互补信息,提高多模态表示的质量。具体来说,我们的方法由三个步骤组成。

集成使用段级特征EEP特色演化池。

它有效地整合了音频特征和视频特征。生成具有模态互补信息的多模态表示,并输入支持向量回归预测器来估计抑郁症的严重程度。 网络输入信号是抑郁症患者的语音信号和视频信号。BDI-II得分(the Beck Depression Inventory-II score)。

首先,我们将使用长期语音振幅谱/视频①分为固定长度段,分为固定长度段②输入这些段落STA网络:第一支路将视频片段输入3DCNN提取空间特征。采用第二支路LSTM或2DCNN LSTM网络,获得与视频段对应的时间序列表示。然后,③利用空间特征与时间序列表征之间的注意机制。这一过程不仅将空间特征嵌入到时间序列表中,还将不同的权值系数分配给时间序列表中的每个帧特征,以强调与抑郁检测相关的帧。视频段级的时空特征(VSLF)可以从STA输出网络的最后一个完整连接层。其次,④为了获得长期视频的表达,我们采用了特征进化池(EEP)该方法总结了段级特征(VSLF)各维度的变化,并将其聚合成视频级特征(VLF)。⑤在ALF和vslf利用注意机制获取音频注意视频特征(AAVF)。通过这种方式,我们从视频模式中获得了类似于音频模式的信息,并补充了音频模式。同样,视频也注重音频特征(VAAF)是通过VLF和aslf之间的注意机制。我们将在本文中AAVF和VAAF作为模态互补信息。多模态表示可以连接ALF、AAVF、VLF和VAAF来生成。支持向量回归(SVR)预测个体抑郁的方法。

1)我们提出了一种新的时空关注(STA)网络不仅利用注意机制将空间特征嵌入时间序列表中,还强调音频和视频帧,有助于检测抑郁症。 2)本文采用EEP该方法总结了段级特征各维度的变化,以便对段级特征进行总结aslf或vslf聚合到ALF或VLF据我们所知,这是第一次EEP该方法应用于自动抑郁检测领域。 3)我们提出了多模态注意特征融合(MAFF)策略。该方法利用注意机制提取不同模式之间的互补信息,提高多模式表示的质量。

标签: 502100alf连接器

锐单商城拥有海量元器件数据手册IC替代型号,打造 电子元器件IC百科大全!

锐单商城 - 一站式电子元器件采购平台