基于拓展和聚类的情感鲁棒说话人识别研究

来源 :浙江大学 | 被引量 : 0次 | 上传用户:ddr133
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
说话人识别技术是根据包含在语音波形中特有的个体信息,以声音作为生物特征,自动识别说话人身份的过程。它被认为是最自然的生物认证技术,具有广泛的应用前景。传统说话人识别系统当系统用户在平静状态下训练、测试时,已取得了非常出色的识别性能。然而,当说话人在不同情感状态间转变时,由于说话人情绪的改变引起了发音方式的变化,使得基于中性训练语音的说话人识别系统的性能急剧下降。在综述情感语音处理现状和存在情感影响的说话人识别系统的最新进展的基础上,本文紧紧围绕如何提高训练语音和测试语音之间的情感匹配度这个问题,从情感拓展和聚类角度给出了有效的解决方案,从特征、模型和得分三个层次上提出了构建情感鲁棒的说话人识别模型的关键算法。本文的主要贡献总结如下:1.深入分析了情感语音对说话人识别系统的影响本文分别从文本的相关性、文本的情感性、不同训练情感语料的数量、不同建模方法、不同取得分策略以及不同背景模型等方面对存在情感差异性语音的说话人识别系统进行深入研究。针对情感语音对说话人识别系统的影响,提出了抗情感变化的说话人识别系统的建设对策以及基于拓展和聚类的情感鲁棒说话人识别模型。2.提出了一个基于规则的特征修正方法针对说话人情感状态转变带来的系统训练和测试时情感状态不匹配,基于规则的特征修正方法通过学习相同文本下情感语音和中性语音间的韵律参数变化规则,对系统注册用户的中性语音特征进行修正,有助于丰富训练语音的情感信息,从而较大幅度地提高了识别性能。3.提出了一个基于情感模型间参数迁移规律的特征映射方法本文根据模型自适应UBM-MAP方法中,背景模型与自适应得到的模型中的各个高斯分布分量之间存在一一对应关系这一显著特点,根据情感无关的通用背景模型与情感相关模型之间的参数迁移规律,通过对中性语音特征进行映射,改变中性语音的特征分布,以使训练特征具有情感语音特征的分布信息,有效提高了训练语音和测试语音之间的情感匹配度。4.提出了一个基于情感语音聚类的说话人建模方法根据语音特征空间分布随说话人所处的情感状态的改变而移动,本文认为相似的韵律特征变化产生了倒谱特征在空间分布上相似变形,基于情感语音聚类的说话人建模方法把韵律特征变化趋势一致的情感语音聚类一类,对说话人的情感语音分类建模。实验表明,基于情感语音聚类的说话人建模方法具有良好地表达说话人情感语音特征分布的能力。5.提出了一个基于语音帧加权的得分规整算法文本在研究基于语音帧的说话人系统中目标模型和非目标模型帧似然概率特性的基础上,借鉴语音帧的得分对说话人模型的排序,对得分重加权,有效地增加了正确帧的得分权重,并优化了测试语句的最终得分。同时,该方法改进了传统基于语句的得分规整方法不能提高说话人鉴别率的缺点。
其他文献
目的:研究半完壁式乳突病变切除鼓室成形术治疗中耳后天原发性胆脂瘤的疗效。方法:行半完壁式乳突病变切除鼓室成形术治疗中耳后天原发性胆脂瘤21例,同期行开放式乳突切开鼓室
异构数据库由一组互连的、自治的成员数据库组成。这些成员相互通信,以便交换信息和回答查询。一个成员数据库中的对象可能与其他成员数据库中的对象很不相同,使得很难将他们
在分析了生物质燃烧过程的基础上,设计了一种新型户用高效生物质直燃炉。该炉点火方便、操作简单、节能安全,一次风、二次风配风系统分开,对燃料无苛刻要求,配有星型给料机可
矩阵广义特征值问题是当前迅速发展的计算机科学和数值代数中的一个非常活跃的研究课题。它在很多应用中扮演非常重要的角色,从数学角度来看,矩阵特征值问题的应用大多来自数学
建筑行业是我国的重要支柱产业之一,近年来得到迅速发展,而频繁发生的建筑火灾事故把人们的目光都聚集在建筑消防的问题上,如何优化建筑消防设计,提高建筑消防能力成为社会普
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
会议
虚拟现实技术是近十几年悄然兴起的高新技术,协同虚拟环境(CVE)是虚拟现实技术与网络技术相结合的产物,将分布在不同地理位置的独立的虚拟现实系统通过网络连接起来,多个用户在
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield