资讯详情

音频相关的基本概念

音频相关的基本概念

1. 声音的本质

声音的本质是介质中波的传播,声波的本质是一种波,一种物理量。 两者不同,声音是抽象的,是声波的传播,声波是物理量。

2. 声音的三要素

人音的大小(俗称音量)由振幅主观感觉(amplitude)与人离声源的距离决定,,人与声源的距离越小,响度越大。

: 由频率决定,(频率单位Hz,赫兹)人耳听觉范围为20~2万Hz。20Hz以下是次声波,2万Hz以上称为超声波)。

。由于不同对象材料的特点,声音有不同的特点,音色本身是抽象的,但波形是抽象和直观的性能。波形因音调而异,可以通过波形来区分不同的音调。 傅立叶理论 (Jean Baptiste Joseph Fourier,1768-1830。他提出 )告诉我们,时域中的任何电信号都可以叠加一个或多个具有适当频率、范围和相位的正弦波。

3.几个基本概念

  • 比特率(码率):比特率是每秒传输的比特数。单位为比特(bps位/秒)。指音频每秒播放的数据量,单位为 bit,例如对于 PCM 流动,采样率为 44100Hz,采样大小为16,声道数为16 2.码率为:44100* 16 * 2 = 1411200 bps。 关于计算文件大小 = (字节)

  • : 采样是将连续的时间信号变成离散的数字信号。

  • :简单来说就是每秒获取声样的次数。

声音是一种具有音频频率和振幅特征的能量波。所以采样过程,其实就是提取一定的频率值。一秒钟提取的点越多,得到的信息就越多; 采样率越高,声音质量越好。但并不是说采样率越高越好,因为人耳听觉的范围是 20Hz ~ 20kHz。一般来讲,44100HZ采样率已满足基本要求。

  • :采样数与采样率和时间有关,如采样率 44100Hz,采样时间为1s,那么1s 内采样数为 44100 个。

  • ?:?采样位数也称为采样大小或量化位数。量化深度表示每个采样点的比例,音频的量化深度一般为 8 、16 、32 例如:量化深度为 8bit 每个采样点都可以表示 256 量化深度为不同的量化值 16bit 每个采样点都可以表示 65536 量化值不同。 ??定量深度影响声音质量。显然,位数越多,定量波形越接近原始波形,声音质量越高,存储空间越大;位数越少,声音质量越低,存储空间越少。CD音质是 16 bits. ?? ?- :单声道、双声道和立体声道是常见的通道数。 ??单声道的声音只能由一个扬声器发出,或者可以处理成两个扬声器输出相同声道的声音。当单声道信息通过两个扬声器回放时,我们可以清楚地感觉到声音从两个扬声器中间传输到我们的耳朵,无法判断声源的具体位置。 ??双声道有两个声音通道。其原理是,当人们听到声音时,他们可以根据左耳和右耳之间的相位差来判断声源的具体位置。在录音过程中,将声音分配到两个独立的声道,从而达到良好的声音定位效果。 ??在记录声音时,如果每次生成声波数据,则称为单声道;每次生成两个声波数据,称为双声道(三维声)。三维声(双声道)的存储尺寸是单声道文件的两倍。

  • :?音频跟视频不太一样,视频的每一帧就是一副图像,但是因为音频是流式的,本身是没有一帧的概念的。而且有些时候确实没有办法说一帧怎么怎么样。比如对于 PCM 采样率为流量 44100Hz,采样位数为 16,通道数为 2.一秒钟的音频固定大小:44100162 / 8 字节。

  • :当采样率大于或等于连续信号最于或等于连续信号最高频率重量的2倍时,采样信号可以用来完美重构原始连续信号.1KHz,48kHz。

  • PCM 流 PCM 当原始包含声音时,数据将保存到一系列 buffer 中,这串 buffer,就采用了 PCM 格式存储。音频采样过程通常称为脉冲编码调制编码,即 PCM(Pulse Code Modulation)编码,采样值也叫 PCM 值。 ??在 windows 中,通过 WaveIn 或者 CoreAudio 收集声音的原始数据是一串PCM格式的buffer。

4.编码过程

编码过程: 模拟信号-> 采样-> 量化-> 编码->数字信号

4.1 采样

所谓采样,就是在时间轴上数字化信号。

根据奈奎斯特定律(也称采样定律),采样是最高频率的两倍。人类听觉的频率(音调)范围是 20Hz–20KHz 。所以至少要大于 40KHz。采样频率一般为44.1kHz,这样可以保证声音的到达 20kHz 也可以数字化.1kHz 就是代表 1 秒会采样 44100次。

4.2 量化

如何表示每个采样?这涉及量化。 ??量化是指在振幅轴上数字化信号。如果使用它 16(8/32) 比特位的二进制信号来表示一个采样,那么一个采样所表示的范围即为【-32768,32767】。

4.3 编码

每个量化都是一个采样。存储这么多采样称为编码。所谓编码,就是按照一定的格式记录采样和量化的数字数据,如顺序存储或压缩存储等。 ??音频裸数据格式通常称为脉冲编码调制(PCM)数据。 ??还有一个概念来描述声音格式的大小,即

4.4 数字信号

用高低电平表示编码数据。

5. 与音频处理有关

5.算法名称及部分功能解释

??在视频或音频通话过程中,当地声音传输到对端播放后,声音将被对端麦克风 收集,混合对端声音传输到当地播放,使当地播放的声音包含当地原始收集的声音,导致主观感觉听到自己的回声。 WebRTC 例如,建议移动设备使用回声抑制模块 AECM 算法,

手机等设备收集的音频数据有时响度高,有时响度低,导致声音大小,影响观众的主观感受。自动增益控制算法根据预先配置的参数对输入声进行正负调节,使输出声适合人耳的主观感受。

静音检测的基本原理:计算音频的功率谱密度。如果功率谱密度小于阈值,则视为静音,否则视为声音。静音检测广泛应用于音频编码AGC、AECM 等。

手机等设备收集的原始声音往往包含背景噪声,影响观众的主观体验,降低音频压缩效率。以 Google 著名的开源框架 WebRTC例如,我们严格测试了噪声抑制算法,发现该算法可以很好地抑制白噪声和有色噪声。满足视频或语音通话的要求。其他常见的噪声抑制算法,如开源项目 Speex 噪声抑制算法也有很好的效果,适用范围更广WebRTC 噪声抑制算法更广泛,可以在任何采样率下使用。 ?舒适噪声的基本原理:根据噪声的功率谱密度,人工构造噪声。广泛应用于音频编码解码器。在编码端计算静音时的白噪声功率谱密度,编码静音时间和功率谱密度信息。在解码端,根据时间信息和功率谱密度信息重建随机白噪声。 ? (Active Noise Control) 噪声抑制/降噪/主动噪声控制/噪声消除/主动降噪 (Automatic Noise Suppression) 噪声抑制/降噪/主动噪声控制/噪声消除/主动降噪 (Noise Cancellation) 噪声抑制/降噪/主动噪声控制/噪声消除/主动降噪 (Acoustic Feedback Cancellation) 啸叫抑制/自适应声反馈消除/声反馈消除 音频均衡 混响去除 波束形成 语音识别 (Automatic Speech Recognition) 语音识别 (Keyword Spotting) 语音唤醒 Enhancement 语音增强 音频编码 麦克风阵列 声纹识别 声源定位

5.2 部分服务

压缩器(compressor):减小高信号的输出 自动增益(AGC):对高信号进行降低,对低信号进行升高 反馈消除(AFC):使某一频率点的输入信号迅速衰弱达到阻止此频率信号通过的效果,避免啸叫产生 回声消除(AEC):进行回声消除 闪避器:保证同一时刻只有输入信号效果好 延时器(Delayer):延缓信号输出时间 音箱管理器(main mixer):可以对输出信号进行一些微调 限幅器(limiter):控制输出信号的最大值

6.音频采集的来源是什么,如何计算?

首先音频的来源一般为麦克风(MediaRecorder.AudioSource.MIC)

  每秒钟音频采样点个数(8000/44100Hz),模拟信号数字化的过程,用0101来表示的数字信号   

  • AudioFormat.CHANNEL_IN_MONO 单声道,一个声道进行采样
  • AudioFormat.CHANNEL_IN_STEREO 双声道,两个声道进行采样

 指定样式的数据的格式和每次采用的大小,数据返回的格式PCM格式,每次采用的位宽为16bit,一般都采用这个 AudioFormat.ENCODING_PCM_16BIT(官方文档表示,该采样精度保证所有设备都支持)

采样率 * 采样大小 * 声道数 每秒钟采样的大小=16bit( 位宽) * 2( 双通道) * 44100(每次采样的次数 hz) =1411200b=1411.2kbps

7.音频使用场景及应用

在现实生活中,音频(audio)主要用在两大场景中:语音(voice)和音乐(music)。语音主要用于沟通通信,如打电话,现在由于语音识别的发展,人机语音交互也是语音的一个应用,目前正在风口上,好多大厂都推出了 智能音箱。音乐主要用于欣赏,如音乐播放。 音频开发的主要应用:

7.1音频播放器

录音机 语音电话 音视频监控应用 音视频直播应用 音频编辑/ 处理软件(ktv 音效、变声, 铃声转换) 蓝牙耳机/音箱

7.2 音频开发的具体内容:

音频采集/播放; 音频算法处理(去噪、VAD 检测、回声消除、音效处理、功放/增强、混音/分离,等等); 音频的编解码和格式转换; 音频传输协议的开发(SIP,A2DP、AVRCP,等等)。

8.混音技术介绍

:顾名思义,就是把两路或者多路音频流混合在一起,形成一路音频流。 :则是指音视频流的混合,也就是视频画面和声音的对齐,也称混流。

并非任何两路音频流都可以直接混合。

8.1

  • 格式相同,要解压成 PCM 格式。
  • 采样率相同,要转换成相同的采样率。主流采样率包括:16k Hz、32k Hz、44.1k Hz 和 48kHz。
  • 帧长相同,帧长由编码格式决定,PCM 没有帧长的概念,开发者自行决定帧长。为了和主流音频编码格式的帧长保持一致,推荐采用 20ms 为帧长。
  • 位深( (Bit-Depth) )式 或采样格式 (Sample Format) 相同,承载每个采样点数据的 bit 数目 要相同。
  • 声道数相同,必须同样是单声道或者双声道 (立体声)。这样,把格式、采样率、帧长、 位深和声道数对齐了以后,两个音频流就可以混合了。

8.2 回声消除、噪音抑制和静音检测等处理

。回声消除和噪音抑制属于语音前处理范畴的工作。在**编码之前,采集、语音前处理、混音之前的处理、混音和混音之后的处理应该按顺序进行。**静音抑制(VAD,Voice Activity Detect)可做可不做。对于终端混音,是要把采集到的主播声音和从音频文件中读到的伴奏声音混合。如果主播停顿一段时间不发出声音,通过 VAD 检测到了,那么这段时间不混音,直接采用伴奏音乐的数据就好了。然而,为了简单起见,也可以不做 VAD。主播不发声音的期间,继续做混音也可以(主播的声音为零振幅)。

9. 音频重采样

重采样即是将音频进行重新采样得到新的采样率的音频。

重采样的原因??? 音频系统中可能存在多个音轨,而每个音轨的原始采样率可能是不一致的。比如在播放音乐的过程中,来了一个提示音,就需要把音乐和提示音都混合到 codec 输出,音乐的原始采样率和提示音的原始采样率可能是不一致的。问题来了,如果 codec 的采样率设置为音乐的原始采样率的话,那么提示音就会失真。因此最简单见效的解决方法是:codec 的采样率固定一个值(44.1KHz/48KHz),所有音轨都重采样到这个采样率,然后才送到 音轨都重采样到这个采样率,然后才送到 codec,保证所有音轨听起来都不失真 ,保证所有音轨听起来都不失真。

10.频谱

频谱是一组正弦波,经适当组合后,形成被考察的。 显示了一个复合信号的波形。假定我们希望看到的是正弦波,但显然图示信号并不是纯粹的正弦形,而仅靠观察又很难确定其中的原因。

11. 嵌入式DSP处理器(Embedded Digital Signal Processor,EDSP)

是一种非常擅长于高速实现各种数字信号处理运算(如等)的嵌入式处理器。由于对DSP硬件结构和指令进行了特殊设计,使其能够高速完成各种数字信号处理算法。

11.1 特点

嵌入式数字信号处理器的长处在于能够进行向量运算、指针线性寻址等运算量较大的数据处理。 嵌入式数字信号处理器是专门用于信号处理的嵌入式处理器,在系统结构和指令算法方面经过特殊设计。因而具有很高的编译效率和指令执行速度。DSP芯片内部采用程序和数据分开的哈佛结构。具有专门的硬件乘法器,广泛采用流水线操作。提供特殊的DSP指令,可以快速实现各种数字信号处理算法。

标签: pcm260变送器

锐单商城拥有海量元器件数据手册IC替代型号,打造 电子元器件IC百科大全!

锐单商城 - 一站式电子元器件采购平台