论文部分内容阅读
说话人识别属于生物特征识别技术的一种,是一项根据语音信号中反映说话人生理和行为特征的语音参数,自动识别说话人身份的技术。与语音识别不同的是,说话人识别利用的是语音信号中的说话人信息,而不考虑语音中的字词意思,它强调说话人的个性;而语音识别的目的是识别出语音信号中的言语内容,并不考虑说话人是谁,它强调共性。 说话人识别系统主要包括两部分,即特征检测和模式匹配。特征检测的任务是选取唯一表现说话人身份的有效且稳定可靠的特征,模式匹配的任务是对训练和识别时的特征模式做相似性匹配。说话人识别可以分为说话人辨识和说话多人确认两大类,本文的研究内容是任意文本的说话人确认系统,主要做了以下工作:
1. 介绍了人类语音产生的原理及其数字模型,为课题的研究奠定基础。
2. 研究了常见的几种说话人特征的性质和提取方法,这些特征包括基音周期、FFT倒谱、LPC倒谱、MEL倒谱等等。
3. 对于传统VQ算法和基于遗传算法的VQ算法的研究。
4. 讨论了传统GMM说话人模型的建模方法,并详细研究了用于GMM模型建模的EM算法,建立了基于传统EM算法GMM模型。
5. 研究了用于提高任一给定算法的性能的通用算法,AdaBoost算法。讨论了将AdaBoost算法与GMM算法结合,用于建立AdaBoost-GMM模型。
6. 最后根据LBG-VQ算法、基于遗传算法的VQ算法、GMM算法、AdaBoost GMM算法弱分类器、AdaBoost-GMM算法强分类器五种模型得出实验结果,并对这五种模型得出的实验结果进行比较。