基于GMM的说话人身份识别算法的研究

来源 :西安理工大学 | 被引量 : 0次 | 上传用户:jgxyjg
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
说话人识别技术属于生物特征识别技术领域范畴,是用计算机来理解人的语言,自动识别说话人身份(说话人是谁)的一门技术。近年来由于信号与信息处理、模式识别、人工智能以及机器学习等学科理论技术的飞速发展,说话人识别技术也随之迅速崛起。与其它的生物特征识别技术相比,说话人识别技术具有操作简便,实用经济等许多优势。说话人识别技术具有非常广阔的前景,广泛应用于信息服务类、公安司法、军事、财经等许多领域。  本文主要研究基于高斯混合模型(Gaussian mixture model,GMM)的说话人身份识别的算法,识别、训练样本分开,样本内容为文本无关。  本文所作的工作主要有以下几点:首先把采集到的语音信号进行了预处理,在端点检测环节,本文提出了一种新的端点检测算法,采用把语音信号进行幅值归一化,把语音信号的幅值分布在0~1之间,以短时能量和为依据设定阈值进行判决。实验结果表明,该端点检测算法较之传统的基于短时能量和短时平均过零率端点检测算法能更有效的检测出语音信号的起始点和结束点,具有良好的检测性能;然后把端点检测后真正的语音段用来提取特征参数,使用了基于人耳听觉特性的美尔倒谱系数(Mel-frequencycepstral coefficient,MFCC)来提取;最后用GMM对说话人识别进行了建模,在进行说话人识别时,采用YOHO标准高质量可靠的语音数据库选取50人和自己录制的小型汉语语音数据库20人进行了实验,详细分析了设置不同系统参数,如训练样本个数、帧长、测试语音长度、GMM阶数等对系统识别率的影响。本文的说话人辨认模型的参数选取考虑效率和模型识别率的前提下,YOHO数据库50人,系统的识别率为97.3%;汉语语音库20人,系统识别率达到96.5%。
其他文献
从我们的大规模cDNA克隆和测序计划中,利用表达谱基因芯片筛选的结果并通过生物信息学分析,我们选取了与疾病相关的人类CRBN基因(cereblon)进行进一步的研究,以探讨该基因的功能
摘要:有良好家庭教养的孩子会在学校延续这种美德,使学校教学任务能够完成得更快、更好,且更善于延续开展课堂外的活动;但如果学生在家庭中缺失了这种美德,孩子将会在学校暴露各种问题,学习有障碍不自信反倒其次,心理疾病、破坏纪律、扰乱秩序等不安定的因素困扰着班级及学校管理,成为令教师和学校头疼的问题。  关键词:家庭教育;成分复杂;负面循环  中图分类号:G632.0 文献标识码:A 文章编号:1992-
受激布里渊散射效应(stimulated Brillouin scattering)是在光纤内发生的一种非常重要的非线性过程,是泵浦波与斯托克斯波通过声波相互作用而进行的一种非线性效应。自1964年
本研究在原代培养的乳鼠心肌细胞,观察不同浓度瘦素对血清剥夺诱导心肌细胞凋亡、细胞活力以及过氧化指标的影响,并初步探讨其作用机制。结果显示:瘦素(5×10)可抑制血清剥夺诱
学位
随着计算机互联网的发展,人们通过网络进行着娱乐、购物、工作、电子商务等一系列的活动。其中,网页浏览在这些活动当中占据着非常多的一部分比重,正因为如此,许多不法分子和黑客
光纤陀螺传感技术在工业和军事等各个领域都具有良好的应用前景。  如何提高光纤陀螺的精度和稳定度,一直是人们研究和开发的目标。本文研究高精度光纤陀螺中的两个关键问
花生四烯酸及其代谢产物在细胞信号转导、收缩、趋化以及细胞生长和分化中发挥重要的作用。近年来发现花生四烯酸参与了某些疾病(如动脉粥样硬化)的发生和发展。为了阐明花生
Ad Hoc网络是一种自组织、自适应网络。无论是在军用、民用、还是在商业领域都具有广阔的应用前景。目前,移动Ad Hoc网路技术在世界范围内引起了极大的关注。而网络节点之间
浅海海域是重要的渔场,有丰富的生物和矿物资源,在政治、经济等各个方面都有十分重要的意义。本文根据合成孔径雷达(Synthetic Aperture Radar,SAR)浅海地形遥感成像机制,对S