论文地址：波形实时语音增强

论文作者：facebook AI 研究所

论文代码：https://github.com/facebookresearch/denoiser

摘要

我们在笔记本电脑上提出了一个基于原始波形的因果语音增强模型CPU实时操作。提出的模型是基于一个模型带跳跃连接的编码器-解码器架构。利用多个损耗函数优化时域和频域。实验结果表明，该方法可以去除各种背景噪声，包括稳定噪声、不稳定噪声和室内混响声。此外，我们建议一套直接应用于原始波形的数据增强技术，以进一步提高模型的性能和泛化能力。我们评估了几个标准基准，并使用客观指标和人类判断。提出的模型与最先进的性能因果和非因果方法相匹配，并直接在原始波形中工作。

关键词：语音增强、语音噪声、神经网络、原始波形

1 引言

语音增强的目的是最大限度地提高语音信号的感知质量，特别是去除背景噪声。记录的会话语音信号大多含有一些阻碍清晰度的噪音，如街道噪音、狗叫声、键盘打字等。因此，无论是音视频通话[1]、助听器[2]还是自动语音识别，语音增强本身都是一项特别重要的任务(ASR)系统[3]。对于许多这样的应用程序来说，语音增强系统的一个关键特点是实时运行，并尽可能少地延迟（在线）。在通信设备中，最好使用商业硬件。

几十年的语音增强显示了一个可行的解决方案，估计噪声模型，并使用它来恢复语音[4，5]来去除噪声。虽然这些方法可以很好地跨领域推广，但它们仍然很难处理常见的噪音，比如不稳定的噪音或一群人同时说话时遇到的喋喋不休的噪音。这种噪声类型的存在大大降低了人类语言听力的可理解性。近年来，基于深度神经网络(DNN)处理不稳定噪声和babble噪声性能明显优于传统方法，在客观主观评价中产生更高质量的语音[7、8]。此外，在单通道源分离相关任务中，基于深度学习的方法也优于传统方法[9、10、11]。

受这些最新进展的启发，我们提出了实时版本DEMUCS适用于语音增强。它是基于卷积和的LSTMs帧大小为40的因果模型ms，步幅为16ms，单笔记本电脑的运行速度比CPU实时运行速度快。为了提高音频质量，我们的模型通过分层生成(使用)U-Net从一个波形到另一个波形，就像跳过连接一样。为了直接输出语音信号的干净版本，我们优化了模型，并最小化了损失函数的回归(L1损失)，辅以谱图域损失[13，14]。此外，我们还提出了一套简单有效的数据增强技术：频带掩蔽和信号混响。虽然对模型运行施加了重要的实时约束，但我们的模型通过客观和主观的测量产生了与最先进的模型相同的性能。

虽然语音增强系统可以用多种指标来衡量，但这些指标与人类的判断[1]无关。因此，我们报告了客观指标和人类评价的结果。此外，我们还进行了消融研究的损失和增强功能，以更好地突出每个部分的贡献。最后，我们使用自动语音识别(ASR)模型产生的单词错误率(WERs)在增强过程中分析了伪影。

结果表明，当直接在原始波形上工作时，提出的方法可以与所有指标上最先进的模型相媲美。此外，在噪声条件下增强样本ASR改进模型也有帮助。

2 方法

2.1 设置符号和问题

我们专注于单耳(单麦克风)语音增强，可以在实时应用程序中操作。具体来说，给定一个音频信号$x$，一个干净的声音$y$它由一个额外的背景信号组成$n$损坏，因此$x = y n$。长度$T$在样本中不是一个固定的值，因为输入的语音可以有不同的持续时间。我们的目标是找到增强函数$f$使$f(x) \approx y$。

我们将在本研究中$f$设为DEMUCS架构[11]，该架构最初是为音乐源的分离而开发的，并将其适应因果语音增强任务视觉描述如图1所示a所示。

2.2 DEMUCS架构

DEMUCS它包含多层卷积编码器和解码器U-net[12] skip connections，以及一个用于编码器输出的序列建模网络。其特点是层数$L$，隐藏通道的初始数$H$，层内kernel size $K$和stride $S$以及重采样因子U，编码器和解码器层从1到L(对于解码器，顺序相反，所以层在相同scale有相同的索引)。当我们专注于单声道语音增强时，模型的输入和输出只是单通道。

在形式上，编码器网络$E$获得原始波形作为输入并输出潜在表示$E(x)=z$。每层包含一层卷积层，其核心大小为$K$，步幅为$S$，具有$2^{i-1}H$然后是输出通道ReLU具有激活函数$2^iH$输出通道的1x1卷积，最后是GLU [15]激活函数，将通道数转换回来到$w^{i-1}H$，请参见图1b直观说明。

接下来，序列模型$R$网络将潜在表达$z$作为输入，输出相同大小的非线性变换$R(z)= LSTM(z) z$，表示为$\hat{z}$。 LSTM网络由2层和$2^{L-1}H$由隐藏单元组成。我们使用单向因果关系预测LSTM，我们使用双向非因果关系模型LSTM，然后用线性层合并两个输出。

最后，解码器网络$D$将$\hat{z}$作为输入和输出估计的清洁信号$D(\hat{z})=\hat{y}$。解码器的第$i$层将$2^{i-1}H$作为输入和应用通道$2^iH$个通道进行1x1卷积，然后输出$2^{i-1}H$通道的GLU最后是激活函数kernel size为8，stride4的转移卷积和带ReLU激活函数的$2^{i-2}H$输出通道。在最后一层，输出是通道，没有ReLU。跳过连接将编码器的第一个$i$解码器第一层的输出$i$层的输入连接，请参见图1a。

我们使用[16]提出的方案初始化所有模型参数。最后，我们注意到了音频feed在编码器之前，取样音频$U$能提高精度。我们以相同的数量采样模型的输出。作为端到端训练的一部分，使用Sinc插值滤波器[17]重新采样，而不是预处理步骤。

(a) 因果Demucs，底部输入嘈杂的声音，顶部输出干净的声音。

箭头表示UNet skip connections。$H$控制模型中通道的数量，$L$控制其深度。

(b) 每个编码器层(底部)和解码器层(顶部)的视图。箭头与模型的其他部分相连。

$C_{in}(resp. C_{out})$是输入通道的数量$(resp. output)$，$K$内核大小，$S$为步数。

图1：左边是因果DEMUCS架构，右边是编码器和解码器层的详细表示。不代表输入/输出的动态重采样，重采样倍数为U。

2.3 目标

我们使用波形$L1$多分辨率用于频谱图幅度的损失STFT类似于在[13、14]中提出的损失。在形式上，给定$y$和$\hat{y}$分别是清洁信号和增强信号。我们将STFT损失被定义为频谱会聚(spectral convergence，sc)损失与范围损失之和如下：

$$公式1：L_{stft}(y,\hat{y})=L_{sc}(y,\hat{y}) L_{mag}(y,\hat(y))\\L_{sc}(y,\hat{y})=\frac{|||STFT(y)|-|STFT(\hat{y})|||_F}{||STFT(y)||_F}\\L_{mag}(y,\hat{y})=\frac{1}{T}||log|STFT(y)|-log|STFT(\hat{y})|||_1$$

其中$||·||_F$和$||·||_1$分别是Frobenius $L_1$范数。多分辨率STFT不同的使用定义了损失STFT参数的所有STFT损耗函数的总和。一般来说，我们希望尽量减少以下内容：

$$公式2：\frac{1}{T}[||y-\hat{y}||_1 \sum_{i=1}^ML_{stft}^{(i)}(y,\hat{y})]$$

其中$M$是STFT每个损失的数量$L_{stft}^{(i)}$都使用不同的分辨率STFT损耗，其中FFT bins数量为{512，1024，2048}，帧移到{50，120，240}，最后窗户长度 {240，600，1200}。

3 实验

我们做了几个实验来评估提出的方法和几个高度竞争的模型。我们报道了Valentini等人的[18]和深度噪声抑制(DNS)[19]客观主观测量基准。此外，我们对增强和损失功能进行了消融研究。最后，我们评估了增强样本的可用性，以改善噪声条件下的ASR性能。代码和示例可以在下面的链接中找到：https://github.com/facebookresearch/denoiser。

3.1 复现细节

　　评价方法我们采用客观和主观两种方法来评价增强语音的质量。对于客观测量，我们使用:(i) PESQ:语音质量的感知评估，使用ITU-T P.862.2[24](从0.5到4.5)推荐的宽带版本(ii)短时客观清晰度(STOI)[25](从0到100)(iii) CSIG:平均意见评分(MOS)预测仅对语音信号[26]的信号失真(从1到5)。(iv) CBAK:对背景噪声[26]的干扰的MOS预测(从1到5)。(v) COVL:对整体效果[26]的MOS预测(从1到5)。

　　对于主观测量，我们进行了ITU-T P.835[27]推荐的MOS研究。为此，我们使用CrowdMOS包[28]进行了众包评估。我们随机抽取100个话语，每一个都由15个不同的评分者沿着三个轴进行评分:扭曲程度，背景噪音干扰程度和整体质量。对所有注释器和查询的平均结果给出最终分数。

　　训练我们在 Valentini [18] 数据集上训练 DEMUCS 模型 400 个时期，在 DNS [19] 数据集上训练 250 个时期。我们使用预测和真实干净语音波形之间的 L1 损失，并且对于 Valentini 数据集，还添加了第 2.3 节中描述的 STFT 损失，权重为 0.5。我们使用 Adam 优化器，步长为 3e−4，动量 B1 = 0.9，分母动量 B2 = 0.999。对于 Valentini 数据集，我们使用原始验证集并保留最佳模型，对于 DNS 数据集，我们在没有验证集的情况下训练并保留最后一个模型。音频以 16 kHz 采样。

　　模型我们使用第 2 节中描述的 DEMUCS 架构的三个变体。对于非因果 DEMUCS，我们取 U=2、S=2、K=8、L=5 和 H=64。对于因果 DEMUCS，我们取 U=4、S=4、K=8 和 L=5，以及 H=48 或 H=64。在将输入输入模型之前，我们通过其标准差对输入进行归一化，并按相同的因子缩小输出。对于因果模型的评估，我们使用标准偏差的在线估计。使用此设置，因果 DEMUCS 处理音频的帧大小为 37 毫秒，步长为 16 毫秒。

　　数据增强我们总是在 0 到 S 秒之间应用随机移位。

Remix 增强将一batch中的噪音打乱以形成新的带噪语音。

Band-Mask 是一种带阻滤波器，其阻带介于 $f_0$ 和 $f_1$ 之间，采样以在梅尔标度中均匀去除 20% 的频率。在波形域中，这等效于用于 ASR 训练的 SpecAug 增强 [29]。

Revecho：给定初始增益 $\lambda$、早期延迟 $\tau$ 和 RT60，它将一系列 N 个干净语音和噪声的衰减回声添加到带噪语音中。第 $n$个回波具有 $n\tau+$ 抖动的延迟和 $\lambda$ 的增益。选择$N$和$\rho$以便当总延迟达到 RT60 时，我们有$\rho^N\leq 1e-3$。 $\lambda$、$\tau$ 和 RT60 分别在 [0, 0.3]、[10, 30] ms、[0.3, 1.3] 秒内均匀采样。

　　我们对所有数据集使用随机移位，对Valentini[18]使用Remix和Banmask，而对DNS[19]使用Revecho。

因果流评估为了在真实条件下测试我们的因果模型，我们在测试时使用特定的流实现。我们不使用音频的标准偏差进行标准化，而是使用直到当前位置的标准偏差(即我们使用累积标准偏差)。我们保留过去输入/输出的小缓冲区，以限制正弦重采样滤波器的副作用。对于输入上采样，我们还使用了 3ms 的前瞻，这使模型的总帧大小达到 40 ms。当将模型应用于信号的给定帧时，输出的最右边部分无效，因为需要未来的音频来正确计算转置卷积的输出。尽管如此，我们注意到使用这个无效部分作为流下采样的填充大大提高了 PESQ。流实现是纯 PyTorch。由于帧之间的重叠，需要注意缓存不同层的输出。

3.2 结果

3.3 消融

3.4 实时评估

3.5 对ASR模型的影响

4 相关工作

　　传统的语音增强方法要么生成幅度谱的增强版本，要么生成理想二进制掩码(IBM)的估计数，然后用于增强幅度谱[5,33]。

　　在过去的几年里，人们对基于DNN的语音增强方法越来越感兴趣[34,35,36,37,20,38,39,22,40,7,41,8,42,21,37]。在[34]中，一个深度前馈神经网络被用来产生一个频率域二进制掩码，使用波形域的代价函数。[43]的作者建议使用多目标损失函数来进一步改善语音质量。另外，作者在[44,35]中使用递归神经网络(RNN)进行语音增强。在[7]中，作者提出了一种端到端的方法，即语音增强生成对抗网络(SEGAN)直接从原始波形进行增强。作者在[41,8,42,21]中进一步改进了这种优化。在[37]中，作者建议使用一个WaveNet[45]模型，通过学习一个函数来将噪声映射到干净的信号中去噪。

　　在考虑因果方法的同时，[46] 中的作者提出了一种频谱级别的卷积循环网络用于实时语音增强，而 Xia、Yangyang 等人则提出了 [30] 建议去除卷积层并应用加权损失函数以进一步改善实时设置的结果。最近，[23] 中的作者使用最小均方误差噪声功率谱密度跟踪器为因果模型和非因果模型提供了令人印象深刻的结果，该跟踪器采用了时间卷积网络 (TCN) 先验 SNR 估计器。

5 讨论

　　我们已经展示了DEMUCS，一个在波形域为音乐源分离而开发的最先进的架构，如何变成一个因果语音增强器，在消费级CPU上实时处理音频。我们在标准的Valentini基准上测试了demacs，并在不使用额外训练数据的情况下获得了最先进的结果。我们还使用DNS数据集在真实混响条件下测试我们的模型。我们以经验证明增强技术(两源混响，局部去混响)如何在主观评价中产生显著的改善。最后，我们证明了我们的模型可以提高ASR模型在噪声条件下的性能，甚至不需要对模型进行再训练。

6 参考文献

[1] C. K. Reddy et al., A scalable noisy speech dataset and online subjective test framework, preprint arXiv:1909.08050, 2019.

[2] C. K. A. Reddy et al., An individualized super-gaussian single microphone speech enhancement for hearing aid users with smartphone as an assistive device, IEEE signal processing letters, vol. 24, no. 11, pp. 1601 1605, 2017.

[3] C. Zorila, C. Boeddeker, R. Doddipatla, and R. Haeb-Umbach, An investigation into the effectiveness of enhancement in asr training and test for chime-5 dinner party transcription, preprint arXiv:1909.12208, 2019.

[4] J. S. Lim and A. V. Oppenheim, Enhancement and bandwidth compression of noisy speech, Proceedings of the IEEE, vol. 67, no. 12, pp. 1586 1604, 1979.

[5] Y. Ephraim and D. Malah, Speech enhancement using a minimum-mean square error short-time spectral amplitude estimator, IEEE Transactions on acoustics, speech, and signal processing, vol. 32, no. 6, pp. 1109 1121, 1984.

[6] N. Krishnamurthy and J. H. Hansen, Babble noise: modeling, analysis, and applications, IEEE transactions on audio, speech, and language processing, vol. 17, no. 7, pp. 1394 1407, 2009.

[7] S. Pascual, A. Bonafonte, and J. Serra, Segan: Speech enhancement generative adversarial network, preprint arXiv:1703.09452, 2017.

[8] H. Phan et al., Improving gans for speech enhancement, preprint arXiv:2001.05532, 2020.

[9] Y. Luo and N. Mesgarani, Conv-TASnet: Surpassing ideal time frequency magnitude masking for speech separation, IEEE/ACM transactions on audio, speech, and language processing, vol. 27, no. 8, pp. 1256 1266, 2019.

[10] E. Nachmani, Y. Adi, and L. Wolf, Voice separation with an unknown number of multiple speakers, arXiv:2003.01531, 2020.

[11] A. Dfossez et al., Music source separation in the waveform domain, 2019, preprint arXiv:1911.13254.

[12] O. Ronneberger, P. Fischer, and T. Brox, U-net: Convolutional networks for biomedical image segmentation, in International Conference on Medical image computing and computer-assisted intervention, 2015.

[13] R. Yamamoto, E. Song, and J.-M. Kim, Parallel wavegan: A fast waveform generation model based on generative adversarial networks with multi-resolution spectrogram, preprint arXiv:1910.11480, 2019.

[14] , Probability density distillation with generative adversarial networks for high-quality parallel waveform generation, preprint arXiv:1904.04472, 2019.

[15] Y. N. Dauphin et al., Language modeling with gated convolutional networks, in ICML, 2017.

[16] K. He, X. Zhang, S. Ren, and J. Sun, Delving deep into rectifiers: Surpassing human-level performance on imagenet classification, in ICCV, 2015.

[17] J. Smith and P. Gossett, A flexible sampling-rate conversion method, in ICASSP, vol. 9. IEEE, 1984, pp. 112 115.

[18] C. Valentini-Botinhao, Noisy speech database for training speech enhancement algorithms and tts models, 2017.

[19] C. K. A. Reddy et al., The interspeech 2020 deep noise suppression challenge: Datasets, subjective speech quality and testing framework, 2020.

[20] C.Macartney and T.Weyde, Improved speech enhancement with the wave-u-net, preprint arXiv:1811.11307, 2018.

[21] M. H. Soni, N. Shah, and H. A. Patil, Time-frequency maskingbased speech enhancement using generative adversarial network, in ICASSP. IEEE, 2018, pp. 5039 5043.

[22] S.-W. Fu et al., Metricgan: Generative adversarial networks based black-box metric scores optimization for speech enhancement, in ICML, 2019.

[23] Q. Zhang et al., Deepmmse: A deep learning approach to mmsebased noise power spectral density estimation, IEEE/ACMTransactions on Audio, Speech, and Language Processing, 2020.

[24] I.-T. Recommendation, Perceptual evaluation of speech quality (pesq): An objective method for end-to-end speech quality assessment of narrow-band telephone networks and speech codecs, Rec. ITU-T P. 862, 2001.

[25] C. H. Taal et al., An algorithm for intelligibility prediction of time frequency weighted noisy speech, IEEE Transactions on Audio, Speech, and Language Processing, vol. 19, no. 7, pp. 2125 2136, 2011.

[26] Y. Hu and P. C. Loizou, Evaluation of objective quality measures for speech enhancement, IEEE Transactions on audio, speech, and language processing, vol. 16, no. 1, pp. 229 238, 2007.

[27] I. Recommendation, Subjective test methodology for evaluating speech communication systems that include noise suppression algorithm, ITU-T recommendation, p. 835, 2003.

[28] F. Protasio Ribeiro et al., Crowdmos: An approach for crowdsourcing mean opinion score studies, in ICASSP. IEEE, 2011.

[29] D. S. Park et al., Specaugment: A simple data augmentation method for automatic speech recognition, in Interspeech, 2019.

[30] Y. Xia et al., Weighted speech distortion losses for neuralnetwork- based real-time speech enhancement, preprint arXiv:2001.10601, 2020.

[31] V. Panayotov et al., Librispeech: an asr corpus based on public domain audio books, in ICASSP. IEEE, 2015, pp. 5206 5210.

[32] G. Synnaeve et al., End-to-end asr: from supervised to semi-supervised learning with modern architectures, preprint arXiv:1911.08460, 2019.

[33] Y. Hu and P. C. Loizou, Subjective comparison of speech enhancement algorithms, in ICASSP, vol. 1. IEEE, 2006, pp. I I.

[34] Y. Wang and D. Wang, A deep neural network for time-domain signal reconstruction, in ICASSP. IEEE, 2015, pp. 4390 4394.

[35] F. Weninger, H. Erdogan, S. Watanabe, E. Vincent, J. Le Roux, J. R. Hershey, and B. Schuller, Speech enhancement with lstm recurrent neural networks and its application to noise-robust asr, in International Conference on Latent Variable Analysis and Signal Separation. Springer, 2015, pp. 91 99.

[36] Y. Xu et al., A regression approach to speech enhancement based on deep neural networks, IEEE/ACM Transactions on Audio, Speech, and Language Processing, vol. 23, no. 1, pp. 7 19, 2014.

[37] D. Rethage, J. Pons, and X. Serra, A wavenet for speech denoising, in ICASSP. IEEE, 2018, pp. 5069 5073.

[38] A. Nicolson and K. K. Paliwal, Deep learning for minimum mean-square error approaches to speech enhancement, Speech Communication, vol. 111, pp. 44 55, 2019.

[39] F. G. Germain, Q. Chen, and V. Koltun, Speech denoising with deep feature losses, preprint arXiv:1806.10522, 2018.

[40] M. Nikzad, A. Nicolson, Y. Gao, J. Zhou, K. K. Paliwal, and F. Shang, Deep residual-dense lattice network for speech enhancement, preprint arXiv:2002.12794, 2020.

[41] K. Wang, J. Zhang, S. Sun, Y. Wang, F. Xiang, and L. Xie, Investigating generative adversarial networks based speech dereverberation for robust speech recognition, arXiv:1803.10132, 2018.

[42] D. Baby and S. Verhulst, Sergan: Speech enhancement using relativistic generative adversarial networks with gradient penalty, in ICASSP. IEEE, 2019, pp. 106 110.

[43] Y. Xu et al., Multi-objective learning and mask-based postprocessing for deep neural network based speech enhancement, preprint arXiv:1703.07172, 2017.

[44] F. Weninger et al., Discriminatively trained recurrent neural networks for single-channel speech separation, in GlobalSIP. IEEE, 2014, pp. 577 581.

[45] A. v. d. Oord et al., Wavenet: A generative model for raw audio, preprint arXiv:1609.03499, 2016.

[46] K. Tan and D. Wang, A convolutional recurrent neural network for real-time speech enhancement. in Interspeech, vol. 2018, 2018, pp. 3229 3233.

资讯详情

论文翻译：2020_Demucs：Real Time Speech Enhancement in the Waveform Domain

摘要

1 引言

2 方法

2.1 设置符号和问题

2.2 DEMUCS架构

2.3 目标

3 实验

3.1 复现细节

3.2 结果

3.3 消融

3.4 实时评估

3.5 对ASR模型的影响

4 相关工作

5 讨论

6 参考文献

动力学技术KTU1121 USB Type-C 端口保护器的介绍、特性、及应用

论文翻译：2020_Demucs：Real Time Speech Enhancement in the Waveform Domain

摘要

1 引言

2 方法

2.1 设置符号和问题

2.2 DEMUCS架构

2.3 目标

3 实验

3.1 复现细节

3.2 结果

3.3 消融

3.4 实时评估

3.5 对ASR模型的影响

4 相关工作

5 讨论

6 参考文献

动力学技术KTU1121 USB Type-C 端口保护器的介绍、特性、及应用

最近热搜

历史搜索 清除历史记录

历史搜索清除历史记录