基于GMM的低码率语音编码器

论文部分内容阅读

本文研究了一种新颖的基于高斯混合模型(Gaussian Mixture Model,GMM)的低码率语音编码系统。该编码器利用GMM对短时语音谱包络进行拟合后用GMM参数来表示语音谱包络。由于GMM参数较少,从而可以使得编码速率很低。语音谱包络决定了合成语音的可懂度,文中研究了LPC法、LPC倒谱法和SEEVOC法的谱包络估计,并进行了仿真实验。经过对比,本系统采用SEEVOC法来获取短时语音谱包络。研究了GMM和EM算法,用6阶GMM参数(均值、方差、混合权重)表示短时语音谱包络。人耳对基音的变化比对其它任何参数的变化都要敏感,因此基音的检测对合成语音质量很关键。文中基于变长平均幅度差函数(LVAMDF)提出了一种改进的基音周期检测算法(Modified LVAMDF,M-LVAMDF),改进算法在LVAMDF的基础上结合修正的阈值线和简化的自相关函数(ACF)。经仿真测试表明,此方法能检测出汉语语音中基音变化较快的语音帧的平均周期,提高了汉语语音解码质量。本文建立了基于GMM的低码率语音编码器方案,对方案各模块进行了仿真并最终实现了整个编解码系统。仿真结果表明:该编码器在传输码率降低到2.35kb/s时,解码得到的语音有较理想的清晰度、可懂度和自然度,令人比较满意。

其他学术论文