在日常音视频会议上,我们或多或少会遇到这些场景:喂,你能听到我说话吗?我断断续续地听着你的声音,嘿,我怎么能听到回声?,太吵了,我听不清你在说什么。 等等。如果是重要的会议,这些语音质量问题会影响音频和视频会议的体验,这足以让人感觉良好 恼羞成怒。那么如何有效地减少这些问题呢?本系列文章将与您分享阿里云视频云的保障 RTC 语音质量测试经验。
背景介绍
音频质量是指正常网络下的听觉质量和音频3A 算法质量。听觉质量是人耳在无损网络条件下对语音质量的主观感受。但在现实生活中,不同的人可能会对同一声音有不同的判断,也会受到听力环境和听力心理的影响。在测试过程中,我们可以从声音些指标,从声音的三个要素:响度、音高和音色纬度。此外,这些量化指标将通过一定的加权处理来拟合主观感受,如 POLQA、PESQ 等。
音频 3A 算法是指:
AGC: Automatic gain control(自动增益控制)
ANS: Adaptive noise suppression(噪声抑制)
AEC: Acoustic echo cancellation(回声消除)
本系列文章将从音频质量、适应性测试、Qos 阿里云视频云如何保证质量和自动化方案? RTC 语音质量,本文首先介绍音频质量(正常网络下的听觉质量和音频 3A 算法质量)。
RTC 拆解语音测试链路
在正式测试之前,让我们先了解一下 RTC 语音传输的整个链路框架图,声音通过麦克风收集,然后上行音频算法进行预处理,通过扬声器编解码传输。如果要测试上行音频算法,可以在(1)处输入声音,然后在(2)处拉出输出音频进行分析。在系统测试中,我们经常从端到端的角度进行评估,即从(1)输入声音,然后从(4)拉出声音进行分析。本文的后续测试方法是基于端到端。

音频质量测试方案
阿里云视频云采用业内常用的客观指标 结合主观评价保证音频质量的方法,请参考下图:
【相关学习资料推荐】
客观测试方法
有效频宽
Line in 输入扫频文件 48K 采样率人声音频(音频材料参考如下),Line out 录制输出音频,通过频率分析读取有效频宽;
端到端延迟
方法一:使用 VQT 在测试结果中输出延迟时间。
方法二:自研。Line in 测试素材,Line out 音频延迟时间计算,无需传输和输出。
-
测试材料:连续单音。
-
指标计算:在录制文件中读取未传输音频的起始时间记录为 t1.阅读会议传输的音频的起始时间记录为 t2,则 Delay=t2-t1。
ANS
考察 ANS 该算法在纯噪声和语音噪声混合场景中的表现分析指标包括:降噪一致性、提高信噪比、收敛时间、消噪后的声音质量。
-
测试拓扑
通过音量 Line in 或将背景材料和语音材料输入外部,在拉流端 Line out 录制输出音频进行指标分析。
-
测试素材
-
指标计算
1. 提高信噪比:消噪后要求获信噪比为 A,信噪比增加值 =A- 输入信噪比。
2. 降噪一致性:计算各种噪声输入后的残留值,并统计各种噪声下的残留。
3. 收敛时间:记录噪声能量开始下降的时间为 t1.记录噪声已收敛稳定的初始时间 t2,收敛时间 =t2-t1。
4. 音质:改造 VQT POLQA 测试脚本,计算输入不同信噪比的音频输出 MOS 下表显示输入信噪比为 10dB 带噪声的,输出音频音质 MOS 分:
AGC
考察AGC分析指标包括:声音稳定性和输出响度。
-
测试拓扑
参考 ANS 通过音量测试拓扑图 Line in 或将语音材料输入外部,在拉流端输入 Line out 录制输出音频进行指标分析。
-
测试素材
编辑切换到中间
添加图片注释不得超过 140 字(可选)
-
指标计算
1. 声音稳定性:计算各音量段输出音频的平均值 RMS,然后解决输出音频的平均平均值 RMS 方差。以下如下 RMS 计算公式:
2. 输出响度:Line out 计算输出音频的平均输出 RMS;标准声压计用于外放 A 计权记录响度值。
3. 音质:改造 VQT POLQA 测试脚本,在不同音量输入下计算输出音频 MOS 下表显示大、中、小音量输入,输出音质 MOS 分:
AEC
考察 AEC 是否存在漏回声、人声抑制等问题。
-
测试拓扑
【单讲】
编辑切换到中间
添加图片注释不得超过 140 字(可选)
推流端播放单讲语音素材,拉流端默认配置在空会议室。Line out 录制推流端输出,判断拉流端是否有漏回声。
【双讲】
双讲测试材料同时播放到推流端和拉流端,Line out 录制推流端输出,判断拉流端是否有漏回声和人声抑制。
双讲测试材料同时播放到推流端和拉流端,Line out 录制推流端的输出,判断拉流端是否存在漏回声和人声抑制。
-
测试素材
指标计算
1. 漏回声:理论上,读取录制音频文件的人声残留值为 0- 没有漏回声。
2. 人声抑制:在双讲场景中评估此指标。 3gpp TS 26.132 标准评估剪切情况,最终评估 D 类(连续剪切大于 150ms)值越接近标准 0 质量越好。
3. 收敛时间:测试开始时间记录为 t1,AEC 收敛无漏回声的时间记录为 t2,收敛时间 =t2-t1。
4. 人声音质:在双讲场景下评估此指标。 VQT POLQA 测试脚本,计算双讲场景中人声音质得分。
STOI
短期客观理解,目前学术上更准确、可靠的客观评价方法来计算语音理解,客观测试结果可以在一定程度上反映语音理解和自然。局限性:从采样到 16K 进行计算。
-
拓扑测试:参考 ANS 测试拓扑。
-
测试素材:ITU-P863 提供标准人声素材。
-
指标计算:以下框架图显示 STOI 目前行业内已有计算流程 matlab 和 python 实现该算法的工程。
POLQA
ITU-T P.863 可以提供测试方法 MOS 分和音频延迟 8K、16K、48K 测试,局限性是设备贵。
-
拓扑测试:参考 ANS 测试拓扑。
-
测试素材:ITU-P863 提供标准人声素材 &VQT 内置语音测试素材。
-
指标计算:POLQA MOS 分。
PESQ
ITU-T P.862 提供测试方法,可得到 MOS 分,局限性是仅可支持 8K 和 16K。
-
测试拓扑:参考 ANS 测试拓扑。
-
测试方法:测试素材:ITU-P863 提供标准人声素材。
-
指标计算:PESQ MOS 分
主观测试方法
采用 “YD/T 2309 音频质量主观测试方法(ITU-R BS.1284)” 中提及的评分规则和维度,在不同场景下为专家和普通用户进行打分测试。
评分方法
评价维度
测试场景
测试素材采用“惠威试音碟”和“TUT-acoustic-scenes-2017-development”。