论文地址:基于动态注意的递归网单耳语音增强
论文代码:https://github.com/Andong-Li-speech/DARCN
引用格式:Li, A., Zheng, C., Fan, C., Peng, R., Li, X. (2020) A Recursive Network with Dynamic Attention for Monaural Speech Enhancement. Proc. Interspeech 2020, 2422-2426
摘要
听觉动态注意理论证明,动态注意有助于连续语音处理的优先级。因此,我们提出了动态注意与递归学习相结合的单声道语音增强框架DARCN。除主降噪网外,。通过这样做,我们可以得到更灵活、更好的估计。TIMIT语料库上进行了实验。实验结果表明,提出的体系结构在PESQ和STOI与目前最先进的模型相比,得分获得了一致性和更好的性能
:单声道语音增强,递归学习,注意力U-Net、动态注意力
1 引言
在实际环境中,纯语音经常被背景污染,这可能会显著降低自动语音识别[1]、演讲者验证[2]和助听器[3]的性能。单声道语音增强的目的是从混合语音中提取目标语音[4],只有一个麦克风。近年来,由于深神经网络(DNNs)即使在高度不稳定的噪声环境中,复杂非线性建模的优越性能,DNNs它还显示了单耳语音增强性能[5]。典型的基于DNN根据估计目标,方法可分为两类,一类是基于掩蔽的[6],另一类是基于谱映射的[7]
传统的DNN通常采用全连接(FC)降低噪[6,7]。陈等人对出了自己对冲击演讲人类化的看法。建议使用堆叠式长短期记忆(SLSTM)它明显优于[8]DNN。最近,各种具有复杂拓扑结构的卷积神经网络(CNNs)可以减少训练参数的数量[9、10、11、12]。最近,Tan et al.自动编码器将卷积(CAE)[13]和LSTM提出了卷积循环神经网络(CRN)[14],其中CAE帮助学习时频(T-F)模式,而LSTM动态序列相关性的有效覆盖
最近提出了各种拓扑结构复杂的模型[10、11、12、14],这些模型的性能有所提高,但对后两个方面仍有一定的局限性。一方面,为了满足低延迟的要求,参数的数量往往受到部分限制,严重限制了网络的深度。另一方面,深度的增加更有可能导致梯度消失。。基于这一概念,递归学习[17]是通过在多个阶段重用网络提出的,每个阶段的输出都是通过记忆机制连接起来的。它进一步减轻了参数负担,加深了网络,而不引入额外的参数。
人类倾向于通过动态神经元电路来感知复杂的环境[18],这也可以用听觉动态记忆[19、20、21]来描述。例如,当一个人听到来自真实环境的话语时,主导地位的噪声成分越多,神经网络就越需要注意找出意义,反之亦然。这一现象揭示了听觉知觉系统的动力机制。受生理现象的启发,我们提出了一种结合动态关注和递归学习的新网络,不同于以往的网络[10,11,12,14]为该任务设计的单一复杂网络,,该框架的工作流程如下:将噪声特征与上一阶段的估计值结合到当前输入中。采用AGM生成注意集,然后逐点卷积Sigmoid应用函数NRM。这样,AGM它实际上是一种感知模块,可以灵活调整NRM从而获得更好的噪声抑制性能。据我们所知,这是第一次将动态注意机制引入特定任务。
论文的其余部分结构如下。第二节阐述了这个问题。第三节解释了网络的系统结构。第四节是数据集和实验设置。第五节给出了研究结果和分析,第六节得出了一些结论。
2 公式与符号
噪声信号可以在时域建模$x(n)=s(n) d(n)$,其中$n$是离散时间索引。傅立叶短时间变换(STFT),可以进一步重写为:
$$公式1:X_{k,l}=S_{k,l} D_{k,l}$$
其中$X_(k,l)$,$S_{k,l}$,$D_{k,l}$分别代表带噪声、纯声和噪声,$k$代表频率bin的索引,$l$代表帧索引。。
为简单起见,我们定义了本文中使用的主要记号。$|X|\in R^{T*F}$,$|S|\in R^{T*F}$,$|\tilde{S}^l|\in R^{T*F}$,$|\tilde{S}|\in R^{T*F}$分别表示噪声谱大小、纯谱大小、第一$l$分级估计谱大小和最终估计纯谱大小。T和F分别表示时间步长和特征长度。使用递归学习时,上标$l$表示阶段索引,阶段数记为$Q$。
3 结构说明
3.1 分段循环神经网络
分段递归神经网络(SRNN)它是递归学习的核心组成部分,首次在文献[17]中提出。它可以利用记忆机制聚合不同阶段的信息。记忆机制由两部分组成,即2D Conv block和Conv-RNN block。第一部分试图将输入的特征投影到潜在的表示中,然后使用它Conv-RNN更新现阶段的状态。假设第$l$阶段的 2-D Conv 和 Conv-RNN 输出分别表示为$\hat{h}^l$和$h^l$,则 SRNN 的推理公式为
$$公式2:\hat{\mathbf{h}}^{l}=f_{\text {conv }}\left(|\mathbf{X}|,\left|\tilde{\mathbf{S}}^{l-1}\right|\right)$$
$$公式3:\mathbf{h}^{l}=f_{\text {conv_rnn }}\left(\hat{\mathbf{h}}^{l}, \mathbf{h}^{l-1}\right)$$
其中,$f_{conv}$和$f_{conv\_rnn}$分别指2-D Conv和Conv-RNN。本研究采用ConvGRU[22]作为RNN计算过程如下:
$$公式4:\mathbf{z}^{l}=\sigma\left(\mathbf{W}_{z}^{l} \circledast \hat{\mathbf{h}}^{l} \mathbf{U}_{z}^{l} \circledast \mathbf{h}^{l-1}\right)$$
$$公式5:\mathbf{r}^{l}=\sigma\left(\mathbf{W}_{r}^{l} \circledast \hat{\mathbf{h}}^{l} \mathbf{U}_{r}^{l} \circledast \mathbf{h}^{l-1}\right)$$
$$公式6:\mathbf{n}^{l}=\tanh \left(\mathbf{W}_{n}^{l} \circledast \hat{\mathbf{h}}^{l} \mathbf{U}_{n}^{l} \circledast\left(\mathbf{r}^{l} \odot \mathbf{h}^{l-1}\right)\right) $$
$$公式7:\mathbf{h}^{l}=\left(\mathbf{1}-\mathbf{z}^{l}\right) \odot \hat{\mathbf{h}}^{l} \mathbf{z}^{l} \odot \mathbf{n}^{l}$$
其中$W$和$U$表示单元格的权重矩阵。$\sigma(·)$和$tanh(·)$分别表示S型和tanh激活函数。$\circledast$表示卷积运算符,$\odot$是元素乘法。请注意,偏差被忽略,以便于记忆。
3.2 注意力门
Attention U-Net(AU-Net)它最早是在[23]中提出的,用于提高相关任务的分割精度,并在卷积编码器和解码器之间插入注意门(AG)。与标准U-Net相比,AU-Net具有自动抑制无关区域和突出重要特征的能力。由于频谱中频率成分丰富,低频区域往往以共振峰为主,而高频区域分布稀疏,因此需要区分不同权重的频谱区域AG示意图如图1所示。假设单元的输入是$p$和$q$,其中$p$和$q$解码层及其在编码层中的对应特征分别表示。输出可计算为:
$$公式8:\mathbf{y}=\mathbf{q} \odot \sigma\left(\mathbf{W}_{r} \circledast \operatorname{ReLU}\left(\mathbf{W}_{p} \circledast \mathbf{p} \mathbf{W}_{q} \circledast \mathbf{q}\right)\right)$$
其中$W_p$、$W_q$和$W_r$是卷积核。请注意,该单元由两个分支组成,一个分支合并两个输入信息并通过Sigmoid函数生成注意系数,另一个分支复制Q信息并乘以系数。在获得时AG输出后,将其与相应的解码层沿信道维度的特征级联,作为下一个解码层的输入。
图1:NRM采用的注意门结构。P表示解码层的特征,q表示编码层对应的特征。
$W_p$、$W_q$和$W_r$是二维卷积层,其内核大小为$1*1$。$C_p$和$C_q$为$p$和$q$的信道号,每次卷积运算后都使用批归一化
3.3 提出的架构
图2:提出的架构的示意图。(a)拟议的结构及其展开结构。该体系结构并行地包含两个部分,即AGM和NRM
(b)NRM的详细结构。(c) AGM和NRM之间的联系
图2-(A)描述了提出的体系结构的概述。它有两个模块,即AGM(Attention Generator Module)和NRM(Noise Reduction Module),这两个模块被设计成在整个过程中交错执行。该体系结构采用递归过程操作,即整个前向流可以分成多个阶段展开。在每一级中,将原始噪声谱和最后一级的估计值连接起来,作为网络输入。它被发送到AGM,生成当前注意力集合,代表当前阶段的注意力分布。随后将其应用于NRM,以控制整个网络中的信息流。NRM也接收输入来估计幅度谱(Magniude Spectrum, MS)。因此,AGM的输出动态地影响了最后阶段对MS的估计,即AGM能够根据来自降噪系统的先前反馈来重新加权注意力分布。
假设AGM和NRM的映射函数分别表示为$G_A$和$G_R$。模型的计算程序如下:
$$公式9:\mathbf{a}^{l}=G_{A}\left(|\mathbf{X}|,\left|\tilde{\mathbf{S}}^{l-1}\right| ; \theta_{A}\right)$$
$$公式10:\left|\tilde{\mathbf{S}}^{l}\right|=G_{R}\left(|\mathbf{X}|,\left|\tilde{\mathbf{S}}^{l-1}\right|, \mathbf{a}^{l} ; \theta_{R}\right)$$
其中,$a^l$是在阶段$l$产生的注意力集合。$\theta_A$和$\theta_R$表示用于AGM和NRM的网络参数。
在本研究中,我们使用一种典型的U-Net[24]拓扑结构来实现AGM,它由卷积编码器和解码器组成。。
NRM的详细信息如图2-(B)所示。该算法由SRNN、AU-Net和一系列GLU[10]三部分组成,,连续6个卷积块的输出大小为T×4×64。随后将其重塑为T×256。文[10]提出的6个级联GLU被设置为有效地探索上下文关联。将GLU的输出整形为T×4×64,然后送入解码器进行特征扩展和MS估计。AU-Net中编码器和解码器的通道数分别为(16,16,32,32,32,64,64)和(64,32,32,16,16,16,1)。NRM中的核大小和步长与AGM中的设置相同,除了最后一层,它采用逐点卷积,然后是Softplus作为非线性[28]来获得MS。注意,与标准U-Net中的直接跳过连接不同,来自编码器的特征映射在与解码特征连接之前与来自AG的门控系数相乘,这有助于在多个编码层中权衡特征的重要性。
AGM和NRM之间的联系如图2-(C)所示,其中AGM解码器每层中的特征通过逐点卷积和S型函数,并与NRM编码器相应层中的特征相乘。请注意,应用Sigmoid函数将值范围调整为(0,1)。
3.4 损失函数
由于网络经过多级训练,每一级都得到一个中间估计,累积损耗可定义为$L=\sum_{l=1}^{Q}\lambda_lD^l(\tilde{S}^l,S)$,其中$\lambda_l$是每级的加权系数,$D^l(·)$是第$l$级的损耗函数。在本研究中,我们设置$\lambda_l=1$,其中$l=1,...,Q$,即对每个训练阶段给予同样的重视。
4 实验步骤
4.1 数据集
实验是在TIMIT语料库上进行的[29]。分别选取了4856、800和100个纯净话语进行训练、验证和测试。在信噪比为-5dB~10dB,间隔为1dB的情况下建立训练和验证数据集,并在(-5dB,0dB,5dB,10dB)的信噪比条件下对模型进行测试。[17]中使用的130种噪声用于培训和验证。用NOISEX 92的另外5种噪声(BABBLE、F16、F2、M109和白色)来考察网络的泛化能力。所有收集到的噪声首先被串联成一个长向量。在每个混合过程中产生一个随机的切割点,然后在信噪比水平下将其与发音混合,从而分别创建4万、4000、800个噪声-纯净对用于训练、验证和测试。
4.2 基线
在本研究中,选择了四个网络作为基线,分别是SLSTM[8]、CRN[14]、GRN[10]和DCN[12],它们最近都达到了最先进的性能。对于SLSTM,将1024个单元的四个LSTM层叠加在一起,然后是一个FC层,以获得MS。SLSTM的输入包括当前帧和前一帧的拼接。CRN是CNN和LSTM相结合的一种实时体系结构。GRN和DCN是典型的具有门控机制的全卷积网络
4.3 参数设置
所有的声音都以16 kHz的频率采样。应用20ms汉明窗口,相邻帧重叠10ms。采用320点短时傅立叶变换,得到每帧161维的特征向量。所有模型均采用均方误差(MSE)准则进行训练,该准则由Adam[30]优化。学习率初始化为0.001,连续3次验证损失增加时学习率减半,10次验证损失增加时提前停止训练。所有的模型都经过了50个时期的训练。在发声级别将小批量设置为4。在小批量内,时间步长小于最长时间步长的话语用零填充
5 结果和分析
本节使用感知评估语音质量(PESQ)[31]和短时目标清晰度(STOI)得分[32]来评估不同模型的性能
5.1 客观评价
表1和表2分别总结了不同模型在可见和不可见噪声情况下的结果。从这两张表中,可以观察到以下现象。首先,在可见和不可见噪声情况下,CRN、GRN、DCN和所提出的模型始终优于SLSTM。这是因为SLSTM只考虑了序列相关性,而忽略了对频谱恢复至关重要的隐式T-F模式,而且层叠LSTM容易由于梯度消失问题而产生衰减效应,从而限制了性能。其次,与基线相比,提出的体系结构在这两个指标上都有显著的改善。例如,当从CRN到所提出的模型时,对于所看到的案例,PESQ值平均提高了0.16,STOI平均提高了1.01%。在未知情况下也观察到了类似的趋势,表明所提出的模型具有良好的噪声泛化能力。第三,我们观察到GRN和DCN可以达到接近的性能。这可以解释为两个网络具有相似的拓扑,其中膨胀卷积与门控机制相结合用于序列建模。
表1:可见噪声情况下的实验结果。BOLD表示每种情况下的最佳结果。被提出的架构的阶段Q = 3的数量
表2:不可见噪声情况下的实验结果。BOLD表示每种情况下的最佳结果。被提出的架构的阶段Q = 3的数量
5.2 各阶段的影响
我们研究了阶段Q的影响,如图3所示。当Q≤为3时,随着Q的增加,PESQ值和STOI值都得到了一致的提高。这表明SRNN可以通过记忆机制有效地提高网络的性能。我们还发现,当Q从3增加到5时,PESQ值略有下降,而STOI仍有改善。这是因为使用了基于距离的有损MSE,损失函数和优化过程不能保证两个指标的一致优化,这与[17]中以前的研究是一致的。
图3:q级数的影响(a)不同q级下的PESQ改进(b)不同q级下的STOI改进。
所有的值都是针对未见噪声情况进行评估,并在不同信噪比下进行平均。
5.3 参数比较
表3总结了不同模型的可训练参数数量。可以看出,与其他基线相比,提出的模型极大地减少了可训练参数的数量。这证明了所提出的体系结构的卓越的参数效率。
表3:不同模型之间可训练参数个数。单位是百万。BOLD表示最低可训练参数。
6 结论
在复杂的情景中,人们通常会动态地调整注意力以适应连续说话环境的变化。基于这种神经现象,我们提出了一种动态注意和递归学习相结合的框架。为了自适应地控制降噪网络的信息流,设计了一个单独的子网络来更新每个阶段的注意力表示,并将其应用于主网络。由于采用递归范式进行训练,网络在多个阶段被重用。因此,我们逐步实现了精细化的估算。实验结果表明,与已有的强模型相比,该模型在进一步降低参数负担的同时,取得了更好的性能。
7 参考文献
[1] A. Graves, A.-r. Mohamed, and G. Hinton, Speech recognition with deep recurrent neural networks, in 2013 IEEE international conference on acoustics, speech and signal processing. IEEE, 2013, pp. 6645 6649. [2] D. A. Reynolds, T. F. Quatieri, and R. B. Dunn, Speaker verification using adapted gaussian mixture models, Digital signal processing, vol. 10, no. 1-3, pp. 19 41, 2000. [3] H. Dillon, Hearing aids. Hodder Arnold, 2008. [4] P. C. Loizou, Speech enhancement: theory and practice. CRC press, 2013. [5] D. Wang and J. Chen, Supervised speech separation based on deep learning: An overview, IEEE/ACM Transactions on Audio, Speech, and Language Processing, vol. 26, no. 10, pp. 1702 1726, 2018. [6] Y. Wang, A. Narayanan, and D. Wang, On training targets for supervised speech separation, IEEE/ACM transactions on audio, speech, and language processing, vol. 22, no. 12, pp. 1849 1858, 2014. [7] Y. Xu, J. Du, L.-R. Dai, and C.-H. Lee, A regression approach to speech enhancement based on deep neural networks, IEEE/ACM Transactions on Audio, Speech, and Language Processing, vol. 23, no. 1, pp. 7 19, 2014. [8] J. Chen, Y. Wang, S. E. Yoho, D. Wang, and E. W. Healy, Large-scale training to increase speech intelligibility for hearingimpaired listeners in novel noises, The Journal of the Acoustical Society of America, vol. 139, no. 5, pp. 2604 2612, 2016. [9] S.-W. Fu, T.-Y. Hu, Y. Tsao, and X. Lu, Complex spectrogram enhancement by convolutional neural network with multi-metrics learning, in 2017 IEEE 27th International Workshop on Machine Learning for Signal Processing (MLSP). IEEE, 2017, pp. 1 6. [10] K. Tan, J. Chen, and D. Wang, Gated residual networks with dilated convolutions for monaural speech enhancement, IEEE/ACM transactions on audio, speech, and language processing, vol. 27, no. 1, pp. 189 198, 2018. [11] A. Pandey and D. Wang, TCNN: Temporal convolutional neural network for real-time speech enhancement in the time domain, in ICASSP 2019-2019 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2019, pp. 6875 6879. [12] S. Pirhosseinloo and J. S. Brumberg, Monaural speech enhancement with dilated convolutions, Proc. Interspeech 2019, pp. 3143 3147, 2019. [13] V. Badrinarayanan, A. Handa, and R. Cipolla, Segnet: A deep convolutional encoder-decoder architecture for robust semantic pixel-wise labelling, arXiv preprint arXiv:1505.07293, 2015. [14] K. Tan and D. Wang, A convolutional recurrent neural network for real-time speech enhancement. in Interspeech, 2018, pp. 3229 3233. [15] T. Gao, J. Du, L.-R. Dai, and C.-H. Lee, SNR-Based Progressive Learning of Deep Neural Network for Speech Enhancement. in INTERSPEECH, 2016, pp. 3713 3717. [16] A. Li, C. Zheng, and X. Li, Convolutional Recurrent Neural Network Based Progressive Learning for Monaural Speech Enhancement, arXiv preprint arXiv:1908.10768, 2019.[17] A. Li, C. Zheng, R. Peng, and X. Li, A Time-domain Monaural Speech Enhancement with Recursive Learning, arXiv preprint arXiv:2003.09815, 2020. [18] S. Anderson, T. White-Schwoch, A. Parbery-Clark, and N. Kraus, A dynamic auditory-cognitive system supports speech-in-noise perception in older adults, Hearing research, vol. 300, pp. 18 32, 2013. [19] M. R. Jones, Time, our lost dimension: toward a new theory of perception, attention, and memory. Psychological review, vol. 83, no. 5, p. 323, 1976.
[20] N. Ballas, L. Yao, C. Pal, and A. Courville, Delving deeper into convolutional networks for learning video representations, arXiv preprint arXiv:1511.06432, 2015. [21] O. Oktay, J. Schlemper, L. L. Folgoc, M. Lee, M. Heinrich, K. Misawa, K. Mori, S. McDonagh, N. Y. Hammerla, B. Kainz et al., Attention u-net: Learning where to look for the pancreas, arXiv preprint arXiv:1804.03999, 2018. [22] O. Ronneberger, P. Fischer, and T. Brox, U-net: Convolutional networks for biomedical image segmentation, in International Conference on Medical image computing and computer-assisted intervention. Springer, 2015, pp. 234 241. [23] S. Ioffe and C. Szegedy, Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift, in International Conference on Machine Learning, 2015, pp. 448 456. [24] D.-A. Clevert, T. Unterthiner, and S. Hochreiter, Fast and accurate deep network learning by exponential linear units (elus), arXiv preprint arXiv:1511.07289, 2015. [25] H. Noh, S. Hong, and B. Han, Learning deconvolution network for semantic segmentation, in Proceedings of the IEEE international conference on computer vision, 2015, pp. 1520 1528. [26] H. Zheng, Z. Yang, W. Liu, J. Liang, and Y. Li, Improving deep neural networks using softplus units, in 2015 International Joint Conference on Neural Networks (IJCNN). IEEE, 2015, pp. 1 4. [27] J. S. Garofolo, L. F. Lamel, W. M. Fisher, J. G. Fiscus, and D. S. Pallett, DARPA TIMIT acoustic-phonetic continous speech corpus CD-ROM. NIST speech disc 1-1.1, NASA STI/Recon technical report n, vol. 93, 1993. [28] D. P. Kingma and J. Ba, Adam: A method for stochastic optimization, arXiv preprint arXiv:1412.6980, 2014. [29] I.-T. Recommendation, Perceptual evaluation of speech quality (PESQ): An objective method for end-to-end speech quality assessment of narrow-band telephone networks and speech codecs, Rec. ITU-T P. 862, 2001. [30] C. H. Taal, R. C. Hendriks, R. Heusdens, and J. Jensen, A shorttime objective intelligibility measure for time-frequency weighted noisy speech, in 2010 IEEE international conference on acoustics, speech and signal processing. IEEE, 2010, pp. 4214 4217.