大家好,我是一个写代码的篮球迷。去年,我一直从事音频相关工作。今天,我刚刚看到卓先生的一篇与声音相关的文章,并与大家分享。
:今天,我安排了本学期信号和系统的小论文作业。我参加了上海中学生科技节的评选。我对他们关于声音和年龄的论文很感兴趣。我不知道我的信号和系统班的学生提交的小论文是否能赶上中学生研究论文的内容。
:人声 谐波 年龄 频谱
01 引?言
1.1 项目由来
??我对音乐很感兴趣,所以当我寻找主题时,我最初的想法也落在了声音上。我了解到谐波分析可以提取声音特征,所以经过几次尝试和调整,我选择以年龄为变量来分析人们的声音。
??对谐波的好奇源于一个声音实验:用湿手指摩擦水高脚杯发出的440 Hz以及国际基准音中心A(440 Hz),他们的声音完全不同。前者刺耳而奇怪,但后者完全在我们舒适的认知范围内。这个例子也表明谐波对人类听觉的影响不容忽视,值得探索。
??所以最后一个话题是:基于频谱分析探索人的声音随年龄而变化。
1.2 文献综述
??通过对声带、年龄等关键词的模糊搜索,我在许多生物学、医学期刊或论文中进一步了解了人们的声音机制。通过搜索谐波、频谱等关键词,我看到了更多关于声音特征提取和谐波对声音的影响。这两部分都有更多的检索结果。相对而言,两者的结合很少。
??尹基德对中国节奏声音的研究就是一个例子。他将声带声音机制与声音的基本声音和谐波相结合,重点关注不同的中国发音作为变量。虽然这项研究与汉语发音无关,但对发音机制和谐波特征的综合研究很少。
1.2.1 声带发声原理
??声带位于人类喉咙,是一种声器器官,主要由甲状软骨、勺状软骨、环状软骨、环甲肌、真声带(声带)、假声带(前庭)等组成。
??秦折波等人利用超声成像分析正常人声带区域的发声原理。他们在研究中提到:声褶本身构成了声门的一部分,其游离内缘形成的开口为声门裂,声门裂是喉腔最窄的部分。在喉内肌协调内肌协调作用的支配下,使声门定期开闭,从气管和肺部冲出的气流不断冲击声带,引起振动和声音。与此同时,他们在分析数据时也指出,随着年龄的增长,声音器官的老化现象:这与甲状软骨随着年龄的增长而逐渐严重钙化的生理特征是一致的,声像图显示,甲状软骨严重钙化也证实了这一点。”
??在对尹基德汉语节奏声音的研究中,他从三个方面讨论了汉语节奏的发音方法:音调调整、时间调整和强度调整。作者提出,最重要的是环甲肌和声带肌。如上图1所示,环甲肌通过拉甲状软骨来调节真声带的张力,从而改变声带肌的硬度和有效质量来调节音调。此外,文章还提到了真假声音的原理是不同的。当环甲肌从正常声音变为假声时,声带肌的电信号明显下降。1注意到这一点,本项目的声音样本采用真声。
??此外,日本耳科协会的一篇文章提出,声带老化的重要指标是声带肌截面积、声带肌纤维数、肌纤维类型和脂褐质沉积率的变化。
??通过对这些文献的参考,我认为人们的声音会随着年龄的增长而变化,如何测量和找到相关性是我研究的重点。
1.2.2 谐波研究概述
??谐波在很多相关的声音文章中被视为关键数据,因为谐波确实离不开我们平时所说的音色。
??张雪源在研究中提到,当人们听到谐波结构的声音时,他们不会依次感知每个单一泛音的频率,而是将整个信号感知为基频频率,并将泛音的数量、能量大小、泛音能衰减速率感知为音色 。黄天乾等人通过分析钢琴特殊的七次谐波和九次谐波来研究其音质5;张雪园得出结论:小提琴因其泛音多、能量衰减慢、黑管泛音少而能量衰减快,前者声音明亮,后者相对较低(张雪园)4;杨静根据谐波的特点提取了不同乐器的音色特征6……这些都反映了谐波作为声音特征的重要地位。因此,谐波研究在定量分析声音的过程中具有重要意义。
1.3 研究意义
??除了纯粹的科学探索外,本实验还可以帮助其他实际领域:
??1. 在此基础上,进一步了解声衰老机制,帮助提出修复方法
??2. 进一步扩展数据可以提取特定年龄的特定声音特征,可用于身份识别等领域。
1.4 创新点
??本人认为,本研究的创新点主要有以下两点:
??1. 通过对人的声音的谐波分析,在前人定性声带衰老的基础上,为定量研究人的声带衰老提供可能。
??2. 声音与数据层面的年龄相关联,并通过提取频谱特征来帮助其推测。
02 原?理
??如上图2谐波原理图所示:黑线为弦,蓝线、黄线、绿线分别代表二次谐波、三次谐波、四次谐波……以此类推,但一般来说,未来能量越弱。很容易知道:波长λ乘以谐波次数n就等于半条弦的长度,同时:一秒钟速度u = 一秒内波的频率f每个波的长度λ。所以得到: 。将第二个公式带入第一个公式, 。
??假设弦长一定,弦各部分均匀,L与u均为定值,则f与n成正比。理论上,倍频的频率应该是基频的整数倍。
03 实?验
3.1 实验器材
【表-1 实验器材】
使用软件 | 功能 | 使用版本 |
---|---|---|
Sigview | 音频分析软件 | Sigview v5.0 |
Adobe Audition CC | 音频截取软件 | Adobe Audition CC20 |
OriginPro | 图表制作软件 | OriginPro9.1 64-bit |
3.2 音频采集
??本文的研究方向是一个人的声音特征随着年龄的变化而变化。由于很难在短时间内跟踪一个人几十年的声音,实验的音频来源是李谷一几乎每年春节联欢晚会演唱的《难忘的今晚》。还有另一个原因:歌唱不同于演讲,歌唱可以确定一个相对稳定的音高,有效地控制实验的变量。正如杨静在学术论文中所说,音乐信号比语音信号具有更明显的谐波特征。
??从第一次演唱的1984年到最近的2019年,时间跨度为35年。除了一些不是李谷一演唱的部分,大概可以留下13个样本,数据充足。我两次截取了不同年份音频中所有的忘字和宵字。
??伴奏音乐实际上是一个非常大的实验干扰。起初,我粗略地截取了她唱的整个声音,但他们的伴奏往往掩盖了下半场的声音,导致音频价值低下。所以我用它adobe audition较精细地裁剪掉了后边乐声掩盖了人声的部分。
3.3 频谱分析
??我导入音频sigview后,进行了fft分析。如图4所示,蓝色是打开音频时的初始状态,是横轴为时间的图像;红色是傅里叶变换后输出的频谱。在这一步之后,获得近30个频谱是我的原始数据。
??数据收集可以说是本实验中遇到的一大难题,这与我的实验本身的特点有关。经过fft分析后获得的数据是原始的、复杂的、混乱的,所以我在选择使用这些数据作为有效数据时遇到了困难。为了避免混乱,获得固定的数据收集方法是非常重要的。在确定数据收集我在确定数据收集方法时的各种分析和考虑。
3.3.1 输入基频数据的方式
??从三个方面输入基频数据:
??1. 假设它是基频,能否找到相应的倍频?
??2. 是否落在歌曲的范围内(忘记:392Hz-415Hz,“宵”:440-460Hz)
??3. 直接排除上述任何答案的替代峰值。如果仍有多个选项,则y值明显较高。
??若无明显更大,则改组数据不参与分析计算,仅供参考。
3.3.2 倍频数据输入模式
??倍频数据的输入是基于已确定的基频,应同时使用set harmonic marker”、“show 5 highest points”两个sigview自带功能。一是选择频率后,自动显示其所有理论倍频的位置。“show 5 highest points同样的字面意思,会显示你框定范围内的五个最高点,并直接读取此坐标。
??左下图的情况(红圈是理论倍频,蓝色是实际峰值)容易解决,理论倍频可以直接靠近最近最高峰值,但是右下图怎么办?左边不远处是最高峰,右边更近的地方是次高峰,所以峰值更大的还是取更近的?实际操作一下就不难发现,取最高峰非常好操作,答案也唯一。反之,如果把“取更近的”作为规则,那么在遇到图5情况时,就得不到答案了。
图5中,如果按照取最近峰值的原则,4号点应该是首推,但4号点的纵轴数值极小。那在就近的原则下,再取了3号点作为最终数据。但一比对,最高峰1号似乎只比三号点略远非常微弱的一点点,却在纵轴数值上大了一倍,二者便很难取舍了……这种混乱的取值方式是行不通的,因为在选择过程中,只要数据采集者随意地心念一动,最终的取值就会发生翻天覆地的变化,数据也就失去了它应有的价值。
故而,在所有倍频数据的采集过程当中,我都是直接取了候选名单中的最高峰。这样子完全地杜绝了采集标准摇摆不定带来的问题,但这样做同时也可能在实验中留下问题——凭什么最大值就是真正应该选择的倍频呢?理由有二:
第一,在这些候选峰值之中,横坐标的差值是非常小的,往往都在理论值的正负0.1-0.7%的区间内。上图是为了凸显选择数据的纠结所以把图像放得很大,但实际上,往往横坐标只浮动了几赫兹就能让纵坐标翻一倍、甚至三四倍,那么取舍也很分明了。
第二,李谷一她自己唱出的声音并不完美,有多个峰值是正常现象。虽然我记录的n次倍频不能全然代表整段的n次谐波,但它是这一段谐波里最能代表这段谐波的峰值。
故而经过仔细取舍,我最终选择采取“取最高峰”的方式来记录倍频的值。
04 数据分析
我的基础数据来源于两波样本——声源为“忘”字的12份、声源为“宵”字的12份。其中“宵”字样本的质量我观察下来是更高的,所以在之后也会使用的略多一点。
在第二部分“原理”中,已经解释了基频与倍频的关系——倍频频率按理论来说必然是基频频率的整数倍。回顾我们得到理想公式的诸多假设,其中两点实际上并不能完全成立:一.振动的弦长度是一定的。二.弦是各处均匀的。人的声带在振动时长度是一定的吗?人的声带是均匀的吗?正是因为这些假设我们不能保证,所以说会出现各种具有研究意义的误差以及有意思的现象,也能观察到一些规律。
4.1 峰值偏离与是年龄关系
4.1.1 峰值偏移与年龄观察
在理想模型里面,倍频应该是严谨地是基频的整数倍。所以我在最开始时,是非常严格地遵守这一条规则去采集数据的。但是我逐渐发现,恰在x值=基频整数倍的时候,y值并不在峰之上,甚至还有的恰好落在了谷底,那样子的得到的y值数据十分不恰当。所以在实验进程初期个人就有猜测:当把理论体系搬运到实际实验中时,因为种种理想假设失效,会出现一些小误差。得出这个结论以后,我转变了数据的采集方法,也开始深入研究真实峰值与理论峰值的偏离与年龄的关系。
在这个问题中首先要把握住“偏离”这个词汇,也由此延伸出两条不同的道路——分析差值,分析比值。
基础数据中不难发现,在倍频倍数增大的同时,理论峰值与真实峰值横坐标上的差值也在增大。可是这个趋势并不意为着什么,分析差值的大小我个人认为不可取。第一、这个偏离的产生虽然原因不明,但偏离的大小是很可能与基频取值相关的,表中可见每年的基频都有变化,未经过归一化就去分析相当于忽视了基频取值这一变量,让基频不同的年份无法统一分析。第二、在倍频被得出的过程中,牵涉到的变量仅仅有“基频”与“倍频是乘以几”这两项,所以在同一年中基频固定时,造成这个偏离的只能是来源于“真实乘上去的数”与“理论上应乘上去的数”不一样。倍频是一个经过乘法(而不是加减)得到的数据,所以该分析是真实测出的倍频与整数倍倍频的比值(而不是差值)。
所以我放弃了对于数据散乱的差值的分析,转入对于比值的分析。在此部分中,新的问题又涌现出来,这也是我至今并未给出确定答案的——如何用几个已知的变量去定义这个偏离?我在尝试中从三种思路提出了三种效果不同但各有道理的方案:
令基频=b,谐波次数=n,真实频率=t,abs()为取绝对值函数,理论频率
三个方案的数据意义是不同的。第一个反应的是真实与理论的差值以真实频率值为参考的偏离率;第二个反应的是真实与理论的差值以理论值为参考的偏离率;第三个反应的则是基频与倍频的直接运算关系,即基频*(h(x)+n)=倍频。在三者都各自有其不可替代的意义的情况下,我把三种分析方式的结果都罗列了出来。另外,为了对于每一年的总体偏离状况有一个总体的了解,我把2-8次谐波的偏离率全部相加,得到了total一栏。此处以“宵”字为例,计算得三张表格:
年份 | f(x) total | g(x) total | h(x) total |
---|---|---|---|
2019 | 0.037030 | 0.036831 | 0.153925 |
2018 | 0.040015 | 0.040001 | 0.187327 |
2017 | 0.014949 | 0.014903 | 0.061542 |
2016 | 0.035468 | 0.035663 | 0.120753 |
2015 | 0.040381 | 0.040372 | 0.172545 |
2014 | 0.045170 | 0.045437 | 0.204236 |
2013 | 0.051366 | 0.051117 | 0.247460 |
2011 | 0.045015 | 0.045084 | 0.265867 |
1996 | 0.025946 | 0.025933 | 0.108896 |
1992 | 0.019542 | 0.019492 | 0.091860 |
1990 | 0.032161 | 0.032152 | 0.145650 |
1984 | 0.032722 | 0.032963 | 0.132432 |
(注:在求和时考虑到有些年份观察不到某些次数的谐波,所以在计算时引入变量k,表示有k个谐波是观测不到的。因为观测不到谐波并不能够证明偏离是没有的,所以为公平起见,total这个量在通加的基础上进行覆盖: 。)
三者虽然不尽相同,但三个公式得出的值的大趋势是一样的。根据数据制作的相应变化趋势图如下图所示:
1997-2010年间,因为李谷一并未演唱,所以数据缺失,这是本实验的一个遗憾。根据先前他人的研究,一个字的发音方式不同也会对于这个实验带来影响1,并且也不好确定不同歌里面的音调是否一致,所以缺失年份数据很难补充。
回到这三张图,可以看到他们大趋势一致:其偏离率都随着演唱者年龄的增大而增大。这个趋势作为结论不够严谨,因为仍然能看到年龄增大、偏离却减小的许多例子。本人认为这与基音可能有关,此问题将在下一部分中解释。
4.1.2 峰值偏移、基频频率与年龄关系
随着李谷一年龄的增长,她歌唱的基音是在下降的。比如“忘”字:(为了让这个下降表现得更加直观,它的频率的数值统一被减去了385 Hz)。又如“宵”字,仍然是明显的下降趋势。随着演唱者年龄的增大,她有意或无意地降低了基音的高度。纵观1984-2019的35年,在两个音的演唱中都大约下降了20-25 Hz,不过仍然还处在半音范围内。
年纪增长时基频有所下降并不难理解,相比更有趣的事情是峰值微弱偏离与基频的存在的一种互动。我们把2011-2019年这一段数据密集的内容单独拿出,并把他们n次谐波的x值分别除以n来反应偏移。
可以看到在2011年时它的五种颜色的点都很接近,没有较大的偏离且基频教高;2013年,即年龄+2后,几个点的偏移略微增大(这与我4.2.1对于偏离率增大的趋势是吻合的),同时基音下降;2014年基音抬高,让五个点的上下浮动达到了一个峰值,偏离严重;2015年,基音重新降下来以后这个浮动也有缩小;2016年基音再抬升,偏移达到最大值;2017基频下降,偏移缩小;2018年基频没有下降,偏移增大;2019年基频下降,偏移缩小。
就本图中的三个变量:年龄、基音、偏移而言,年龄的增长是客观的,偏移来源于声带的条件,唯独“基音”是一个可以随着演唱者主观意志而改变的。正是因为这种主观意志的影响,所以对于“基音”我们仅把握住一个大趋势即可。同时我们也发现,在年龄增加的过程中,每一次基音的抬高都带来了偏移程度的扩大。做一个总结,基音的升高与年龄的增长都会导致偏移程度的增加,而基音降低可以导致偏移程度降低。
把样本扩大进行进一步分析。本图的扩大体现在两方面:年份添加了1984、1990、1992、1996四份数据,谐波最高次数从上一张的5次提升到了7次。基频为黑色,而2-7次谐波x值除以各自次数分别为红色、绿色、蓝色、淡紫色、黄色、深紫色。
在这一张图中,通过图像与数据可以发现,这组数据完全满足结论:1.随着年龄增长,每一次基音的抬高都会导致偏移程度的增大。2.每一次基音的降低都会导致偏移程度的缩小。
第一条结论与第一张小范围的数据分析结论是一致的,而第二条个人认为是属于巧合——基音降低使偏移缩小、年龄增加使偏移增加,两个作用相反的变化同时存在,最后恰巧前者的影响力更大一些。
分两次来制图分析是我认为有必要的。第一,1984-2010年跨越了26年却仅有4份数据,要研究一个连贯的变化不如2011-2019年的数据有效。第二,谐波次数增加以后数据过于复杂,直接上手分析会造成困扰,不过最后发现的规律也得到了验证。
本章承接4.1.1峰值偏移与年龄的初步结论,观察到偏移、基频、年龄三者互动关系的存在,为定量尝试做了事实基础。
4.2 基频倍频与峰值偏移与年龄相关分析
本部分旨在提出基于上文所观察到明显规律的进一步探索的方法。
本部分将围绕“关联函数”(即两个数组协方差比上各自标准差的值)展开。一般而言,两个数组的关联度如果可以达到0.9以上,那么就可以认为是具有较强关联性的。在初步尝试中,本人将各年龄的峰值偏移总和作为数组A,各年龄的基音频率作为数组B,经计算得关联函数等于0.61545。这个数据表明,三个因素在计算关联函数是是必须要同时考虑到的。
为把“年龄”融入到这个关联系数的计算当中,经过思考,我把[峰值偏移+f(相对年龄)]作为数组A,各年龄的基音频率作为数组B进行尝试。相对年龄是我在这里使用的年龄计算方式,即把最早的1984年作为0,1990作为6,1992作为8,以此类推。
现在待确定的是这个f(x)到底是何种关系。因为每一次计算关联系数步骤很复杂,所以我手动计算不是很切实际,因为我要处理的数据量是极大的。鉴此,我用python简单地编程了一个程序来进行计算。我先假设它的影响方式是一次的,设斜率为k,以0.1为步长从0开始增大到100,又以0.1为步长从0开始减小到100。下图是结果展示,k>0时最大值在k=100时取到0.89左右,并仍然具有缓慢上升的趋势,可能在0.90左右存在其渐近线。k<0时,最大值在k=-2时取到,为0.91141。由此,最合理的猜测是数组(峰值偏移-2*相对年龄)与数组f有关。
这个尝试是初步的,具有很大的发展空间。
首先,年龄以正比例形式影响偏离量是我的假设,也有可能是有常数项的一次、二次、三次……在这个方案中,只需要略微改动程序为双层嵌套、三层嵌套也能实现。其次,年龄是使用相对年龄还是李谷一本人的年龄有待考量。这两种算法的结果是不一样的,但这很可能牵涉到生物领域,要了解声带老化过程的起始点等等复杂因素。
希望本尝试对于峰值偏移、年龄、基频之间定量关系的探索有一定意义。
4.3 倍频相对峰值偏移与年龄原因探索
先从基音随年龄增长而下降的趋势说起,因为在此处计算还不涉及到倍频峰值偏移的问题,所以用较理想的公式进行计算。整理一下现有公式:u=λ•f;F=k•f;另外是波在弦中的速度u=根号下T/ρ,其中T 为张力,ρ为线密度。
所以 又因为 ,弦长改变,所以最后得到的式子,抛开定量L与ρ,本质是基频与k、Δx二者变化的关系。粗浅来讲,随着一个人年龄增长的声带肌肉老化松弛,这个系数k会降低,从而也在Δ降不发生改变的情况下使基频f0下降,这也就能成功解释在4.1.2开头提到的现象了。
当然,也很明显这个下降是可以有意识地人为避免的,如果演唱者想要在年龄增大以后仍然保持基频在同一高度,如果仍然对其施加一样的力的话,T一定那么k下降则Δ降增大,结果是分子不变,分母变大,基音下降。想要使f0保持稳定的关键是在于保持下式不变:
p为定制,变化得:402 Payment Required
可见为使基频稳定,T随k的减小应当减小,但这个减小的程度便涉及到这个复杂的函数了。所以本部分得出结论:由于肌肉的老化导致的松弛,使k减小从而导致基频下降。演唱者通过有意识地抬高基频可以缓解,并且在这个抬高的过程中肌肉拉力T会减小。
4.4 倍频值岁年龄变化
上一部分是对于峰值x值的研究,而此板块则是对于分析y值数据的尝试。
初始数据因为音源响度、杂音等问题杂乱无章,所以第一步要进行归一化。把每份音频中基频的y值定为1,那么其余峰值的y值也得相应地缩小,汇入下表以后得到的便是比较有意义的数据(数据见附录)。
把它们制图后得到:
最明显的现象是二次谐波、三次谐波的突出。如果把各年数据进行累加则同时能在二次、三次谐波上面发现这一点。另外,把各个年份的同次谐波的y值进行累加,也可以看到在其宵字中在七次谐波的一个略微上浮。
结合年龄来看,随着李谷一年龄的增大,“宵”字同年各次谐波归一化后y值之和随着年龄增大而减小(如表所示),而“忘”字数据则混乱不堪没有规律,趋势线为水平。结合上一章的分析,我认为导致此结果的原因可能是李谷一随着年龄上升,基频各峰值趋于分散所致。正是这种分散,在我只采取最高峰值的数据收集方法下,很难观察到随年龄变化的结论。这一部分的分析是不成功的。
05 结论与展望
5.1 结论
这里我按照数据分析各板块的顺序来进行结论的总结。
首先是在4.1.1中,通过不同的定量方式来考察“宵”字12份样本中每一次峰值横坐标与理论的偏离程度,并发现随着年龄上升,偏离率在三种定量方式中都处于上升的趋势之中。随后在4.1.2进一步分析,加入基音频率作为第三个变量分析,发现基音的上升和年龄的上升共同会导致偏离程度的加剧。此两章论证了年龄增长会导致这个偏离变大,但同时降低基频可以一定程度上掩盖此问题。
4.1.3是一个对上文三变量定量情况的讨论,目前得出最合理的说法是:数组(峰值偏移-2*相对年龄)与基频关联度最大。这个尝试具有可拓展性,也或许可以为定量表示声带衰老程度提供提示。
最后,在4.2中,我对于每一次峰值的y值进行分析,发现二次、三次谐波显著含能量更大。因为数据采集方式问题导致此板块无法深入分析。如果可以在进一步研究中把图像围成的面积作为新的y值标准,或许会有新的突破。
5.2 展望
一方面,这个项目本身可以被进一步优化。
因为前后此项目并前后用时也未超过一年,我是很难做到自己来做实验样本的。所以就只能在网上去获得实验样本。《难忘今宵》作为一个跨度非常大而且还是同一位演唱者的一份数据在我看来已经是非常好的突破口了。然而它也存在着伴奏音乐、背景噪声、多次录制使音频质量下降(它录一次,我再录一次)等等问题。如果能把这个项目作为一个长期项目(至少……四五年)的话,一定会是对于实验的一个重要优化。
我的对于这个课题所涉及的领域的了解还需要加深。举一个例子,我在确定谐波峰值(见3.2.4)时最终统一采取了最高峰峰值,虽然成功避免了数据的混乱,但这样子是不够严谨的。我想可能是因为我对于谐波的认知不够到位所以才找不到一个更好的方法。
其实做这个项目的过程也是一个我自己去摸索去提高的过程,在我的认知不断地被新知更新的时候,许多原先做的老数据就会暴露出问题。我不断地回过头去刷新老数据实际上花了挺多时间。如果时间允许,我希望可以再多挑几个字出来进行研究来把这个数据量进一步扩大。相信那样能让我发现更多。
另一方面,这个项目在几个点上可以被进一步拓展:
此处引入的仅仅是“年龄”这个单一变量,那么性别呢?是否经过训练呢?歌唱技巧呢?……更多的变量在一个全新的课题里是可以被拓展进去的。
可观测到的最高谐波次数到底与什么有关?这个问题在调查过程中就已经引起了我的好奇了,为什么我第一波样本里一般只能最高到达三次、四次,而第二波里却能达到八次、九次?是时长问题,还是强度问题,还是发音口型问题呢?
是否能将我的结论与生物板块进行更多的结合,而不要只是停留在发声器官老化这一层上?(当然我可以预想到,这个结合是对现在的我还是有一定技术困难的。)
声带老化在生物领域中更多是现象性的,如果本研究足够成熟,本人认为有可能可以作为定量声带衰老程度的一种方式。
音发声研究[D]. 博士学位论文,北京大学,2010 [2]覃折波,何芸,冯玉洁,郭燕丽,华兴. 正常成人声带区解剖结构的超声成像[J]. 临床超声医学杂志 2017,19(1):14-17 [3]铃木徹. 声带肌的衰老变化[J]. 日本耳科会报1982,85(11):1469 [4]张雪源. 面向音频检索的音频特征分析方法研究[D]. 博士学位论文,华南理工大学,2015 [5]黄天乾,谢志文. 钢琴幅度谱的七、九次谐波对钢琴音质影响的研究[J]. 电声基础 2005,4:4-7 [6]杨婧. 基于谐波结构的乐器音色提取方法研究[D]. 硕士学位论文,哈尔比工业大学,2018