论文部分内容阅读
说话人识别是一种模式识别技术。通过对采集到的语音信号提取相应的特征,建立相应的模型,然后判断说话人身份。说话人识别在电子商务和信息安全等领域都具有广泛的应用前景。
本文研究了说话人识别的历史与发展现状、意义和应用领域,同时研究了该技术的难点所在及目前研究的热点。文章在研究语音信号的产生方法的基础上研究了语音信号的数字模型,包括激励模型、声管模型和辐射模型这三个子模型。并且研究了语音信号的预处理,从语音信号的分帧、加窗和端点检测这些方面具体分析了预处理的方法。
本说话人识别系统采用矢量量化方法,它包括两个主要模块:特征提取和特征匹配。在特征提取的过程中,提取少量能够体现每个说话人特征的语音信号的参数。在特征匹配模块中包括有两个步骤:一是训练步骤,二是识别步骤。
文中在研究说话人识别的参数和特征提取原理的基础上,重点研究了线性预测倒谱系数(LPCC)的原理和特征,并设计和实现了线性预测倒谱系数提取过程。文中研究表明,反映说话人特征信息的特征参数矢量的各个分量通常具有不同的分布,对正确识别说话人身份的有效性是有差别的。文中通过增减分量的方法对LPCC的各维分量进行分析,得到一个关于LPCC参数各维分量的平均贡献序列,用此序列来对LPCC各分量进行加权有助于提高系统的识别率。不同分量对说话人识别系统有不同的识别能力,识别能力的大小用权值来衡量,大的权值有大的识别能力,反之亦然。平均贡献大的分量识别能力大,则平均贡献大的分量应得到大的权值。基于这一思想,本文尝试赋予不同平均贡献的分量以不同的权值,以此来提高特征参数的性能,从而提高识别的正确率。
本文在介绍了矢量量化的基本原理和失真测度方法的基础上,重点研究了矢量量化器最佳码本设计的算—LBG算法,以此为本系统的矢量量化方法。最后提出一种以LPCC加权参数为特征的矢量量化的说话人识别方案,并在MATLAB上进行了仿真实验。
本系统通过MATLAB语音处理工具箱,提取输入语音的特征参数,采用了线性预测倒谱系数的加权特征参数,提高了系统的识别性能,采用LBG算法进行码书设计,并通过使用矢量量化技术为每一说话人设计码书,避免了由于说话人使用同一码书带来的量化误差,使系统获得了较高的识别率。