论文部分内容阅读
说话人识别技术属于生物特征识别技术领域范畴,是用计算机来理解人的语言,自动识别说话人身份(说话人是谁)的一门技术。近年来由于信号与信息处理、模式识别、人工智能以及机器学习等学科理论技术的飞速发展,说话人识别技术也随之迅速崛起。与其它的生物特征识别技术相比,说话人识别技术具有操作简便,实用经济等许多优势。说话人识别技术具有非常广阔的前景,广泛应用于信息服务类、公安司法、军事、财经等许多领域。 本文主要研究基于高斯混合模型(Gaussian mixture model,GMM)的说话人身份识别的算法,识别、训练样本分开,样本内容为文本无关。 本文所作的工作主要有以下几点:首先把采集到的语音信号进行了预处理,在端点检测环节,本文提出了一种新的端点检测算法,采用把语音信号进行幅值归一化,把语音信号的幅值分布在0~1之间,以短时能量和为依据设定阈值进行判决。实验结果表明,该端点检测算法较之传统的基于短时能量和短时平均过零率端点检测算法能更有效的检测出语音信号的起始点和结束点,具有良好的检测性能;然后把端点检测后真正的语音段用来提取特征参数,使用了基于人耳听觉特性的美尔倒谱系数(Mel-frequencycepstral coefficient,MFCC)来提取;最后用GMM对说话人识别进行了建模,在进行说话人识别时,采用YOHO标准高质量可靠的语音数据库选取50人和自己录制的小型汉语语音数据库20人进行了实验,详细分析了设置不同系统参数,如训练样本个数、帧长、测试语音长度、GMM阶数等对系统识别率的影响。本文的说话人辨认模型的参数选取考虑效率和模型识别率的前提下,YOHO数据库50人,系统的识别率为97.3%;汉语语音库20人,系统识别率达到96.5%。