Learning Relationships between Text, Audio, and Video via Deep Canonical Correlation for Multimodal Language Analysis
论文地址:https://arxiv.org/abs/1911.05544
在情感分析或情感识别任务中,文本特征通常优于非文本特征,原因如下:
-
文本本身包含更多与情绪相关的信息。
-
视觉或听觉信息有时会混淆情感分析任务。例如,愤怒和兴奋可能有类似的声音表达(高音量和高音调),尽管它们是相反的情绪。同样,悲伤和厌恶也可能有不同的视觉特征,尽管它们都是负面情绪。
-
文本分析算法历史丰富,研究良好。
基于此观察,学习语言信息与非语言信息之间的隐藏关系是多模式语言分析的关键。这可以通过研究结合不同的多模态特征来实现。
同时将音频和视频特征添加到相同的文本信息中,可以更好地理解非文本信息。相反,非文本信息也可以给文本信息带来更大的意义。因此,研究基于文本的音频与基于文本的视频特征之间的深层关系是合理的。基于文本的音频和基于文本的视频是文本和音频的外积,以及文本和视频的外积。
使用典型的相关分析来更好地关联基于文本的视频和基于文本的音频(CCA)。然而CCA我们只能学习线性变化和深度典型的相关分析(DCCA)允许使用深度神经网络CCA处理非线性关系。基于此,本文使用DCCA关联基于文本的音频和基于文本的视频。
在本文提出的模型中,DCCA由两个CNN和CCA层组成,其中CCA层由两个投影和一个投影CCA由损失函数组成。基于文本的音频和基于文本的视频特征CNN处理后输入CCA层,CNN通过投影的权重CCA优化损失函数。通过训练,两个CNN有用的特征可以从外积矩阵中提取。
最后,两个CNN输出的投影与原始文本句子的单词嵌入相连,作为最终的多模式嵌入,可用于情感分析等下游任务。
1、
CCA它是一种多元化的统计方法,利用综合变量之间的关系来反映两组指标之间的整体相关性。CCA用于寻找两个输入相关性最大的线性子空间。
给定两组向量 X ∈ R n 1 × m X\in R^{n_1\times m} X∈Rn1×m和 Y ∈ R n 2 × m Y\in R^{n_2\times m} Y∈Rn2×m,其中 m m m表示向量的数量,CAA学习两个线性变换 A ∈ R n 1 × r A\in R^{n_1\times r} A∈Rn1×r和 B ∈ R n 2 × r B\in R^{n_2 \times r} B∈Rn2×r,使得 A T X A^TX ATX和 B T Y B^TY BTY的相关性达到最大。将 X X X和 Y Y Y的协方差表示为 S 11 S_{11} S11和 S 22 S_{22} S22, X X X和 Y Y Y的交叉协方差表示为 S 12 S_{12} S12。CCA的目标为: A ∗ , B ∗ = arg max A , B c o r r ( A T X , B T Y ) = arg max A , B A T S 12 B A T S 11 A B T S 22 B A^*,B^*=\mathop{\arg\max}\limits_{A,B}\;corr(A^TX,B^TY)\\=\mathop{\arg\max}\limits_{A,B}\;\frac{A^TS_{12}B}{\sqrt{A^TS_{11}A}\sqrt{B^TS_{22}B}} A∗,B∗=A,Bargmaxcorr(ATX,BTY)=A,BargmaxATS11A
BTS22B
ATS12B 上述方程的解是固定的,可以用多种方法解决。其中一种方法是让 U , S , V T U,S,V^T U,S,VT成为矩阵 Z = S 11 − 1 2 S 12 S 22 − 1 2 Z=S_{11}^{-\frac{1}{2}}S_{12}S_{22}^{-\frac{1}{2}} Z=S11−21S12S22−21的奇异值分解(SVD)。那么, A ∗ , B ∗ A^*,B^* A∗,B∗和总的最大典型相关度为: A ∗ = S 11 − 1 2 U B ∗ = S 22 − 1 2 V c o r r ( A ∗ T X , B ∗ T Y ) = t r a c e ( Z T Z ) 1 2 A^*=S_{11}^{-\frac{1}{2}}U\\B^*=S_{22}^{-\frac{1}{2}}V\\ corr(A^{*T}X,B^{*T}Y)=trace(Z^TZ)^{\frac{1}{2}} A∗=S11−21UB∗=S22−21Vcorr(A∗TX,B∗TY)=trace(ZTZ)21 CCA的一个限制是它只考虑线性变换。DCCA使用一对神经网络学习非线性变换。让 f , g f,g f,g表示两个独立的神经网络,DCCA的目标是最优化 f , g f,g f,g的参数 θ f , θ g \theta_f,\theta_g θf,θg,使 f f f和 g g g的输出之间的典型相关性,表示为 F X = f ( X ; θ 1 ) F_X=f(X;\theta_1) FX=f(X;θ1)和 F Y = g ( Y ; θ 2 ) F_Y=g(Y;\theta_2) FY=g(Y;θ2),可以通过寻找两个线性变换 C ∗ , D ∗ C^*,D^* C∗,D∗使其达到最大化。DCCA的目标是: θ f ∗ , θ g ∗ = arg max θ f , θ g C C A ( F X , F Y ) = arg max θ f , θ g c o r r ( C ∗ T F X , D ∗ T F Y ) \theta_f^*,\theta_g^*=\mathop{\arg\max}\limits_{\theta_f,\theta_g}\;CCA(F_X,F_Y)\\=\mathop{\arg\max}\limits_{\theta_f,\theta_g}\;corr(C^{*T}F_X,D^{*T}F_Y) θf∗,θg∗=θf,θgargmaxCCA(FX,FY)=θf,θgarg