论文部分内容阅读
共振峰是语音处理领域最重要的特征参数之一,不仅是区分不同元音的重要参数而且反映了不同说话人的个性特征,在说话人识别、语音合成、语音编码等领域得到了广泛使用。随着人们对说话人识别识别率和合成语音音质要求的提高,共振峰参数的准确提取已经成为语音学研究的重要课题。本文在详细分析了传统的共振峰提取算法的基础上,并深入研究了加权Mel倒谱法和EMD分解法,提出了两种语音信号共振峰提取算法。本文的主要工作及创新如下: 1.提出了一种基于加权Mel倒谱(Weighted Mel-Cepstral,WMCEP)的语音信号共振峰提取算法。Mel倒谱法是一种短时信号分析方法,是基于人耳听觉的非线性特点提出的,能够很好地反映语音信号的频谱极点和零点,但却会移动共振峰的位置增强共振峰的频率。本算法在对Mel倒谱分析的基础上引入基于心理声学模型的感知权重函数对Mel倒谱进行加权处理,得到加权Mel倒谱系数。加权Mel倒谱系数保留了原始语音信号频谱的主要成分,其对应的频谱包络能够准确地逼近语音信号共振峰处的修正周期图,再利用离散余弦变换(Discrete Cosine Transformation,DCT)平滑算法对加权Mel倒谱包络进行平滑校准,得到若干候选峰值。候选峰值既存在正确的估计也存在错误的估计,根据共振峰轨迹的连续性约束条件和频率范围,对这些侯选值进行筛选得到筛选后的共振峰频率,然后根据各筛选后的共振峰频率的大小进行加权平均得到最终的共振峰估计值。实验结果表明,WMCEP法比传统的LPC法提取的共振峰误差更小,在信噪比大于20dB的噪声环境下具有较好的鲁棒性。 2.提出了一种基于EMD+WMCEP的共振峰提取算法。加权Mel倒谱法虽然能够准确提取纯净语音的共振峰,但对带噪语音的提取结果不是很理想,在信噪比等于10dB时已经不能提取共振峰。为了进一步提高加权Mel倒谱法在噪声环境下的鲁棒性,文中引入了经验模态分解(Empirical Mode Decomposition,EMD)法。EMD分解法是一种具有自适应特性的非线性非平稳信号分析方法,首先对语音信号进行EMD分解得到一组包含不同频率尺度的固有模态函数(Intrinsic Mode Function,IMF)分量,然后在找出含有噪声的IMF和含有共振峰的IMF后,去除含有噪声的IMF将含有共振峰的IMF进行重构得到一个新的重构语音信号,最后利用加权Mel倒谱法提取重构语音信号的共振峰。实验结果表明,基于EMD+WMCEP的共振峰提取算法比单独的WMCEP法提取的共振峰更准确,而且在信噪比小于20dB时仍然能够准确提取出共振峰。