资讯详情

论文翻译:2021_DeepFilterNet: A Low Complexity Speech Enhancement Framework for Full-Band Audio ...

论文地址:DeepFilterNet:基于深度滤波器的全频带音频低复杂度语音增强框架

论文代码:https://github.com/Rikorose/DeepFilterNet

引用:Schr?ter H, Rosenkranz T, Maier A. DeepFilterNet: A Low Complexity Speech Enhancement Framework for Full-Band Audio based on Deep Filtering[J]. arXiv preprint arXiv:2110.05588, 2021.

摘要

复数处理将基于深度学习的语音增强和信号提取提升到一个新的水平。通常,时频 (TF) 复数掩模用于噪声频谱图(CM)通常比实值掩模更受欢迎,因为它们可以修改相位。最近的工作提出了用复数滤波器代替掩码的逐点乘法。这允许利用每个频带中的局部相关性,将以前和未来的长信息结合起来。

我们提出了这项工作DeepFilterNet,两阶段语音增强框架采用深度滤波器。。除了语音的感知特性,我们还使用语音

我们进一步表明,我们的深度过滤方法在各种频率分辨率和延迟方面都优于复数掩码,与其他最先进的模型相比表现出令人信服的性能。

:深滤波器,语音增强

1 引言

单声道语音增强是自动语音识别、视频会议系统和辅助听力设备等多个系统的重要组成部分。大多数最先进的方法是在短时间内改变傅里叶(STFT)表示工作,并使用深度神经网络进行估计TF其中许多是实值掩模[1、2、3]或复数掩模[4、5、6、7]。为了提高网络训练的稳定性,估计掩码通常定义良好,并受到上界的限制。然而,这两种方法通常会降低频率分辨率,以消除语音谐波之间的噪声。至少20种方法 ms在窗口上工作,最低频率为50 Hz。

在本文中,我们提出了一个基于深度滤波器的(DF)开源语音增强框架[8,9]。我们使用实值增益和深度滤波器组合,而不是在每个TF-bin复数掩模的应用。在第一阶段,由于噪声和声音通常有一个光滑的频谱包络。我们使用等效矩形带宽(Equivalent Rectangular Bandwidth,ERB)滤波器组将输入和输出尺寸降低到只有32个频带,并设计一个计算量小的编码器/解码器网络。因为最终得到的1000 Hz到250 Hz的最小带宽(取决于FFT size)通常不足以增加周期重量。因此,在第二阶段,我们使用深滤网来估计频率范围的系数,直到频率上限$f_{DF}$。将获得的线性复数滤波器应用于数滤波器。 DF 由于周期性语音分量在较低频率中含有大部分能量,因此增强仅适用于较低频率。

首先是深度滤波器Mack et al.[8]和Schr oter et al.[9]提出。因为滤波器应用于多个滤波器T-F bin,DF如缺口滤波器,可恢复信号退化(notch-filters)或时间帧为零(time-frame zeroing)。Schroter等人[9]用这种方法作为复杂的线性编码(Complex Linear Coding,CLC)引入低延迟助听器的应用。CLC动机是它能模拟语音的准静态特性。也就是说,即使在500, Hz在频率带宽下,CLC它还可以降低频带中的噪音,同时保留语音成分。当频率库中有多个语音谐波或用于过滤周期性噪声时,特别有用。最近的工作表明,[7]使用深度滤波器在深度噪声抑制挑战[10]中表现良好。然而,与他们之前使用复杂比例掩码相比,(CRM)与[11]相比,它们的改进主要是通过网络架构的改变,如复数 LSTM或卷积。

在这项工作中,我们证明了从4 ms到30 ms的多种FFT大小的CRMs深度滤波器的优越性能。我们进一步表明,即使低延迟要求,如5毫秒,也会产生250 Hz频率分辨率($\triangle f=\frac{f_s}{N}=\frac{1}{t}$,采样频率为$f_s$,采样时间间隔为t,采样点数为N),DF周期性语音成分仍能增强。

2 DeepfilterNet

2.1 信号模型

设$x(t)$混合信号记录在嘈杂的房间里。

$$公式1:x(t)=s(t)*h(t) z(t)$$

式中,$s(t)$纯语音信号,$h(t)$对麦克风的室内脉冲响应,$z(t)$加性噪声信号已包含在混响环境中。通常,降噪是在频域进行的

$$公式2:X(k,f)=S(k,f)·H(k,f) Z(k,f)$$

其中$X(k,f)$是时域信号$x(t)$的STFT结果,$k$和$f$分别是时间和频率bin 索引。

2.2 Deep Filtering

Deep Filtering被定义为 TF域的 复数滤波器:

$$公式3:Y(k, f)=\sum_{i=0}^{N} C(k, i, f) \cdot X(k-i l, f)$$

其中$C$滤波器阶数为$N$滤波器用于输入频谱系数$X$,$Y$增强频谱。在我们的框架中,Deep Filtering应用于gain-enhanced spectrogram$Y^G$。$l$是可选的look-ahead(前瞻),如果$l\geq 1$,它允许将非因果抽头合并到线性组合中。此外,还可以过滤频率轴,允许合并相关性,如 重叠频带。

进一步保证Deep Filtering只影响周期部分,我们引入了学习到的加权因素$\alpha$生成最终输出频谱。

$$公式4:Y^{D F}(k, f)=\alpha(k) \cdot Y^{D F^{\prime}}(k, f) (1-\alpha(k)) \cdot Y^{G}(k, f)$$

2.3 框架概述

DeepFilterNet 算法概述如图所示 1 所示。给出噪音(noisy)的音频信号$x(t)$,我们使用短时傅立叶变换 (STFT) 将信号转换为频域。 该框架处理 48 kHz 采样率的音频支持高分辨率 VoIP 应用程序和介于 4 ms 和 30 ms 之间的 STFT 窗口大小$N_{FFT}$。 在默认情况下,我们使用它$N_{ov} = 50\%$的重叠,但也支持低延迟场景的更高重叠。 我们是深度神经网络 (DNN) 使用两种输入特性。对于 ERB 编码器/解码器特征$X_{ERB}(k,b)$,$b\in [0, N_{ERB}]$,我们用衰减来计算对数功率谱 1 s 指数均值归一化(exponential mean normalization) [12] 归一化,并应用具有可配置频段的数量$N_{ERB}$的矩形 ERB 滤波器组 (FB)。 深度滤波器网络的特点$X_{DF}(k,f'), f'\in [0, f_{DF}]$,我们使用复数谱作为输入,并使用具有相同衰减的指数单位 [9] 归一化。

图1所示:DeepFilterNet算法概述。蓝色表示在第一阶段,黄色表示在第二阶段。

预测编码器/解码器系统结构ERB利用逆ERB滤波器组将增益转换回频域,然后点乘噪声谱。为了进一步增强周期重量,DeepFilterNet预测每频带滤波器系数$C^N$阶数。我们只使用深度滤波器到频率$f_{DF}$,假设周期成分包含较低频率的大部分能量。

再加上卷积层DNN的look-ahead还有深度滤波器look-ahead,整体延迟为$l_{N_{FT}} l_{N_{ov}} max(l_{DNN}, l_{DF})$的最小延迟为5毫秒。

2.4 DNN模型

我们只专注于设计标准DNN层(如卷积、批处理归一化,ReLU等)的高效DNN,这样,我们就可以利用层融合和推理框架的良好支持。我们使用类似[13,7]的方法UNet如图2所示。我们的卷积块包含可分离的卷积(深度卷积后为1x核大小为(3卷积)x2), C = 然后批归一化和64个通道ReLU激活。卷积层及时对齐,使第一层能引入整体look-ahead $l_{DNN}$。在线和GRU分组广泛应用于层中(grouping)[14,13]。也就是说,层输入分为P = 8组,产生小PGRUs隐藏尺寸为512/线性层P = 64。输出被shuffle恢复组间相关性,再次concatenated(串联)到完全隐藏的大小。带有add skip的卷积pathways(通路)[13,7]用于保持频率分辨率。我们为DF Net为了在输出层提供原始噪声相位,采用全局路径跳过连接。

图2所示:DeepFilterNet架构概述

我们使用1x1路径卷积(PConv)作为add-skip连接和转置卷积块(TConv),类似于编码器块

利用分组线性和GRU (GLinear, GGRU)引入稀疏性

2.5 数据处理

DeepFilterNet框架采用大量实时增强功能。我们相信噪比(SNR){-5,0,5,10,20,40dB的情况下,。为了进一步增加变量,我们使用二阶滤波器1]、EQs和{-6,0,6}dB的随机增益来增强语音信号和噪声信号。随机重采样增加了音高的多样性,室内脉冲响应(RIR)用于模拟混响环境。如果语音信号的采样率低于当前模型的采样率,则在混合前对噪声信号应用低通滤波器。例如,这也允许在全频带音频(48 kHz)上训练的模型在低采样率的输入信号上同样表现良好。我们进一步支持训练衰减有限模型。因此,我们生成一个噪声目标信号$s$,它的信噪比比噪声信号$x$高6到20 dB。在训练期间,我们对预测增益$G$进行clamp,并设定一个有噪声的目标$s$,DF Net将学习不去除超过规定的噪声。这在可穿戴设备上很有用,因为我们想让用户保持一些环境意识。

2.6  损失函数

  提供理想的DF系数$C^N$并非易事,因为有无限多的可能性[8]。相反,我们使用compressed(压缩)频谱损失来隐式学习ERB增益$G$和滤波器系数$C^N$[15,13]。

$$公式5:\mathcal{L}_{s p e c}=\sum_{k, f}\left\||Y|^{c}-|S|^{c}\right\|^{2}+\sum_{k, f}\left\||Y|^{c} e^{j \varphi_{Y}}-|S|^{c} e^{j \varphi_{S}}\right\|^{2}$$

其中,$c=0.6$是建模感知响度的压缩因子[16]。由于具有幅值和相位感知项,使得该损失既适用于建模实值增益,也适用于复数DF系数预测。为了使幅值接近于零的TF bin的梯度变硬(例如,对于采样率较低的输入信号),我们计算$\varphi_X$的向后角度方法,如下所示:

$$公式6:\frac{\delta \varphi}{\delta X}=\delta X \cdot\left(\frac{-\Im\{X\}}{\left|X_{h}\right|^{2}}, \frac{\Re\{X\}}{\left|X_{h}\right|^{2}}\right)$$

式中$\Re\{X\}$和$\Im\{X\}$表示频谱X的实部和虚部,$|X_h|^2=max(\Re\{X\}^2+\Im\{X\}^2,1e^{-12})$平方数量级以避免被0除。

  作为额外的损失项,我们强制DF分量只增强信号的周期性部分。动机如下。对于只有噪音的部分,DF不提供任何优于ERB增益的好处。DF甚至可能通过对周期性噪声(如发动机噪声或巴布噪声)进行建模而产生伪影,这在衰减受限模型中最为明显。此外,对于只有随机成分的语音,如摩擦音或爆破音,DF没有任何好处。假设,这些部分包含大部分的高频率能量,我们计算低于$f_{DF}$频率的局部SNR。因此,$L_{\alpha}$由下式给出:

$$公式7:\mathcal{L}_{\alpha}=\sum_{k}\left\|\alpha \cdot \mathbb{1}_{\mathrm{LSNR}<-10 \mathrm{~dB}}\right\|^{2}+\sum_{k}\left\|(1-\alpha) \cdot \mathbb{1}_{\mathrm{LSNR}>-5 \mathrm{~dB}}\right\|^{2},$$

其中,当局部信噪比(LSNR)小于10 dB时,$\mathbb{I}_{\text {LSNR }}<-10 \mathrm{~dB}$为值为1的特征函数;当局部信噪比大于-5 dB时,$\mathbb{I}_{\text {LSNR }}>-5 \mathrm{~dB}$为1。在20ms窗口范围内,在频域中计算LSNR。综合损失由

$$公式8:\mathcal{L}=\lambda_{\text {spec }} \cdot \mathcal{L}_{\text {spec }}(Y, S)+\lambda_{\alpha} \cdot \mathcal{L}_{\alpha}$$

3  实验

3.1  训练步骤

  我们基于深度噪声抑制(DNS)挑战数据集[10]训练我们的模型,该数据集包含超过750小时的全频带纯净语音和180小时的各种噪声类型。除了提供的在16 kHz采样的RIR外,我们使用image source模型[17]模拟了另外10 000个在48 kHz采样的RIR。我们将数据集分为train/validation/test(70/15/15%)。根据验证损失应用早期停止,结果在测试集中报告。Voice Bank/DEMAND测试集[18]用于比较DeepFilterNet与相关工作,如DCCRN(+)[11,7]和PercepNet[2]。

  所有实验都使用采样率为48khz的全频带信号。我们取$N_{NRB}$= 32,$f_{DF}$ = 5 kHz,DF阶数N = 5,对DF和DNN卷积都取$l=1$帧。我们用一个初始学习率为$1*10^{-3}$的adam优化器,训练我们的模型在3 s样本和32个batch的30个epoch。学习率每3个epoch衰减0.9。损耗参数为$\lambda_{spec} = 1$和$\lambda_\alpha = 0.05$。框架的源代码可以在 https://github.com/Rikorose/DeepFilterNet 获得。

3.2  结果

  我们评估了我们的框架在多种FFT大小上的性能,并基于尺度不变的信号失真率(SI-SDR)比较了DF和CRM的性能[19]。CRM是DF的特例,阶数$N=1$,look-ahead $l=0$。DNN前瞻对于CRM模型保持不变。

  图3显示,在5 ms到30 ms的所有FFT大小中,DF都优于CRM。由于受到频率分辨率的限制,当FFT窗口大小为20 ms时,CRMs的性能会下降。另一方面,由于相邻帧间的相关性较小,DF相对恒定的性能下降了约30 ms。对于低延迟场景,将FFT重叠提高到75%会使DF和CRM的性能略有提高(输入SNR为0时,性能为+0.6 dB SI-SNR)。这种性能的提高可以解释为更高的帧内相关性,以及DNN更新RNN隐藏状态的步骤增加了一倍,但计算复杂度增加了一倍。图4给出了一个定性的例子,说明了DF重构噪声谱图中难以区分的语音谐波的能力。

图3所示。深度滤波器(DF)和常规复比掩模(CRM)在5 ~ 30 ms的多个FFT尺寸上的比较

图4所示 来自Voice Bank测试集的样本。噪声(a), CRM增强(b), DF增强(c) (CRM和DF的NFFT = 960)

  我们比较了使用NFFT=960 (20 ms)的DeepFilterNet和相关的工作,如PercepNet[2],它使用类似的感知方法,以及DCRNN+[7],它也使用深度滤波器。我们使用WB-PESSQ[20]评估语音增强的质量,并比较每秒乘法和累积(MACS)的计算复杂度。表1显示,DeepFilterNet优于PercepNet,性能与DCRNN+相当,同时具有更低的计算复杂度,使DeepFilterNet能够用于实时使用。

表1 Voice Bank/REMAND测试集的客观结果

4  结论

  在这项工作中,我们提出了DeepFilterNet,一个低复杂度的语音增强框架。我们证明了深度过滤网的性能与其他算法相当,而计算量要求要低得多。我们进一步提供了深度过滤优于CRM的证据,特别是在较小的STF窗口大小的情况下。

5  参考文献

[1] Jean-Marc Valin, A hybrid DSP/deep learning approach to real-time full-band speech enhancement, in 2018 IEEE 20th International Workshop on Multimedia Signal Processing (MMSP). IEEE, 2018, pp. 1 5.

[2] Jean-Marc Valin, Umut Isik, Neerad Phansalkar, Ritwik Giri, Karim Helwani, and Arvindh Krishnaswamy, A Perceptually-Motivated Approach for Low-Complexity, Real-Time Enhancement of Fullband Speech, in INTERSPEECH 2020, 2020.

[3] Xu Zhang, Xinlei Ren, Xiguang Zheng, Lianwu Chen, Chen Zhang, Liang Guo, and Bing Yu, Low-Delay Speech Enhancement Using Perceptually Motivated Target and Loss, in Proc. Interspeech 2021, 2021, pp. 2826 2830.

[4] Donald S Williamson, Monaural speech separation using a phase-aware deep denoising auto encoder, in 2018 IEEE 28th International Workshop on Machine Learning for Signal Processing (MLSP). IEEE, 2018, pp. 1 6.

[5] Ke Tan and DeLiang Wang, Complex spectral mapping with a convolutional recurrent network for monaural speech enhancement, in ICASSP 2019-2019 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2019, pp. 6865 6869.

[6] Jonathan Le Roux, Gordon Wichern, Shinji Watanabe, Andy Sarroff, and John R Hershey, Phasebook and friends: Leveraging discrete representations for source separation, IEEE Journal of Selected Topics in Signal Processing, vol. 13, no. 2, pp. 370 382, 2019.

[7] Shubo Lv, Yanxin Hu, Shimin Zhang, and Lei Xie, DCCRN+: Channel-wise Subband DCCRN with SNR Estimation for Speech Enhancement, in INTERSPEECH, 2021.

[8] Wolfgang Mack and Emanu el AP Habets, Deep Filtering: Signal Extraction and Reconstruction Using Complex Time-Frequency Filters, IEEE Signal Processing Letters, vol. 27, pp. 61 65, 2020.

[9] Hendrik Schr oter, Tobias Rosenkranz, Alberto Escalante Banuelos, Marc Aubreville, and Andreas Maier, CLCNet: Deep learning-based noise reduction for hearing aids using complex linear coding, in ICASSP 2020-2020 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), 2020.

[10] Chandan KA Reddy, Harishchandra Dubey, Kazuhito Koishida, Arun Nair, Vishak Gopal, Ross Cutler, Sebastian Braun, Hannes Gamper, Robert Aichner, and Sriram Srinivasan, INTERSPEECH 2021 Deep Noise Suppression Challenge, in INTERSPEECH, 2021. 

[11] Yanxin Hu, Yun Liu, Shubo Lv, Mengtao Xing, Shimin Zhang, Yihui Fu, Jian Wu, Bihong Zhang, and Lei Xie, DCCRN: Deep complex convolution recurrent network for phase-aware speech enhancement, in INTERSPEECH, 2020.

[12] Hendrik Schr oter, Tobias Rosenkranz, Alberto N. Escalante-B. , Pascal Zobel, and Andreas Maier, Lightweight Online Noise Reduction on Embedded Devices using Hierarchical Recurrent Neural Networks, in INTERSPEECH 2020, 2020.

[13] Sebastian Braun, Hannes Gamper, Chandan KA Reddy, and Ivan Tashev, Towards efficient models for real-time deep noise suppression, in ICASSP 2021-2021 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2021, pp. 656 660.

[14] Ke Tan and DeLiangWang, Learning complex spectral mapping with gated convolutional recurrent networks for monaural speech enhancement, IEEE/ACM Transactions on Audio, Speech, and Language Processing, vol. 28, pp. 380 390, 2019.

[15] Ariel Ephrat, Inbar Mosseri, Oran Lang, Tali Dekel, Kevin Wilson, Avinatan Hassidim, William T Freeman, and Michael Rubinstein, Looking to Listen at the Cocktail Party: A Speaker-Independent Audio-Visual Model for Speech Separation, ACM Transactions on Graphics (TOG), vol. 37, no. 4, pp. 1 11, 2018.

[16] Jean-Marc Valin, Srikanth Tenneti, Karim Helwani, Umut Isik, and Arvindh Krishnaswamy, Low- Complexity, Real-Time Joint Neural Echo Control and Speech Enhancement Based On PercepNet, in 2021 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2021.

[17] Emanu el AP Habets and Sharon Gannot, Generating sensor signals in isotropic noise fields, The Journal of the Acoustical Society of America, vol. 122, no. 6, pp. 3464 3470, 2007.

[18] Cassia Valentini-Botinhao, Xin Wang, Shinji Takaki, and Junichi Yamagishi, Investigating RNN-based speech enhancement methods for noise-robust Text-to- Speech, in SSW, 2016, pp. 146 152.

[19] Jonathan Le Roux, Scott Wisdom, Hakan Erdogan, and John R Hershey, SDR half-baked or well done? , in ICASSP 2019-2019 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2019, pp. 626 630.

[20] ITU, Wideband extension to Recommendation P.862 for the assessment of wideband telephone networks and speech codecs, ITU-T Recommendation P.862.2, 2007. 

标签: ariel压缩机配件公连接器

锐单商城拥有海量元器件数据手册IC替代型号,打造 电子元器件IC百科大全!

锐单商城 - 一站式电子元器件采购平台