论文部分内容阅读
美声唱法是一种区别于其他音乐流派的优美的共鸣唱法。一直以来众多学者对美声的研究主要集中在寻找美声与其他唱法的发声方法差异以及频谱能量分布差异上。本文进行了基于源-滤波器模型的音色研究,提取时域、频域以及倒频域三类与共鸣有关的声学特征,并研究这些特征对美声歌唱声与说话声以及美声歌手与非专业歌手的分类识别能力。具体工作包括:本文用基于源-滤波器模型的六种频谱包络提取算法以及正弦模型、谐波加噪声模型进行合成实验。在基于源-滤波器模型的六种算法中,倒谱类算法不仅提取的包络与频谱匹配度高,而且合成信号的平均意见得分(MOS, Mean Opinion Score)也相对较高,但没有超越正弦模型的合成效果。若考查全部八种算法,谐波加噪声模型最好。需要指出的是,不管是哪种合成方法基本都保留了原信号的音色信息。谱包络包含了大部分的音色信息,体现了不同类别声音的共鸣特性。时域的基频微扰、振幅微扰和噪谐比三个标量特征,衡量的是发声者对声带振动的控制能力。在对专业歌手的歌唱声和朗读声的分类实验中,基频微扰的分类效果比振幅微扰和噪谐比都好。美声专业学生在歌唱时可以更好地控制声带振动的频率。考察频域的向量特征长时平均谱,和歌声功率比、歌手共振峰频率、谱斜率、低高频能量比等四个标量特征发现:美声歌曲以及男性歌手有较高的歌声功率比;美声歌曲的谱斜率和低高频能量比数值较高;歌手共振峰频率对美声、通俗、朗读的分类效果很差,其他频域特征的分类效果一般。考察倒频域的倒谱系数、梅尔倒谱系数(MFCC, Mel Frequency Cepstrum Coefficient)以及改进的抑制谐波倒谱系数和抑制谐波MFCC等四个向量特征发现,向量特征并不是维数越高分类效果越好,且在三个分类实验中最佳维数并不恒定。在三类特征中,倒频域特征的分类效果最好,特别是抑制谐波的倒谱系数和MFCC。通过长时平均谱可以看出美声在3kHz附近能量值较大,而在5kHz以上频段的能量值较小,这也是频域、倒频域特征对不同类别声音进行分类的基础。将三类特征进行组合并重新进行分类实验,虽然没有获得更好的分类效果,但是某些特征组合后的确可以改善分类效果。特征组合是改善分类效果的有效尝试。