基于瞬时频率估计的耳语音说话人识别研究

来源 :苏州大学 | 被引量 : 0次 | 上传用户:dy_dj
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
耳语音作为人类的一种特殊发音方式,在语音学和生理学上都有别于正常音。随着社会经济生活的发展,耳语音在很多场合下得到了应用,在金融通信、公安司法、身份安全认证等领域中发挥着越来越重要的作用。耳语音在说话人识别的实际应用中,可以作为正常音的一种补充,完善说话人识别系统的性能。耳语音自身的特点决定了其识别的难度大于正常音,且易遭受信道的干扰,传统的语音参数在耳语音应用中稳健性较差,因此研究一种有效的耳语音参数用于说话人识别系统是一个亟待解决的问题。另外,考虑到当一个正常音训练的说话人系统用耳语音识别时,系统的性能表现会急速下降。那么在无法获得充分耳语音训练数据的前提下,如何提高耳语音说话人识别的准确率也值得探讨。针对以上问题,本文做了以下几个方面的工作。一、针对语音产生中的非线性现象,根据语音产生的共振峰调制理论,介绍了语音产生的调幅-调频模型(AM-FM Model),详细讨论了基于此模型的Teager能量算子和能量分离算法(DESA)在语音中的应用,并和其他具有类似功能的算法做了比较。二、根据多成分AM-FM信号侦测的多带解调分析(MDA)理论和能量分离算法,获得语音信号的瞬时幅度和频率。通过两者的加权估计得到了一种语音特征参数—瞬时频率估计(IFE),该参数可以描绘语音的精细频率结构。将该特征用于耳语话者识别并和传统的Mel倒谱系数(MFCC)进行了比较。实验结果表明,随着测试人数的增加和信道变化,新特征参数具有更好的识别率和稳健性。三、为了改善正常音训练的说话人系统中,用耳语音测试造成的系统性能急速下降的情况。本文将耳语音和正常音假设成两种不同的信道,在通用背景模型的基础上,对语音参数做特征映射后再进行训练和识别,以减少信道的影响。实验结果表明,加入特征映射后系统的识别率得到提高,并且和传统的MFCC参数相比,IFE参数的识别率和稳健性都有提高。
其他文献
随着GPU运算能力和可编程性的大幅提高,GPU已经成为高性价比的并行计算协处理器,特别适于密集的、高并行的通用计算。越来越多的研究人员开始把各种基于CPU的密集计算引入到GPU
随着现代农业的发展,“绿色农业”的理念深入人心,人们不再仅仅只关注农业的产量,同时也重视农产品的安全性。在农业系统中,昆虫占据着一个重要的环节。处理昆虫方法的好坏直
近年来面向网络应用的视频服务飞速增长,视频越来越多地被各种应用所采用。由于用户使用的设备具有多样性,视频应用环境差异性很大,加上网络带宽的时变性,使得传统的只有单一
癫痫是脑部的一种慢性的神经系统疾病,它具有突发性和反复性。癫痫患者无论在身体还是精神上都遭受着巨大的痛苦。癫痫患者容易产生运动障碍,意识丧失,感觉、情感以及精神功
随着科技的发展,我国的汽车工业得到了蓬勃的进步,道路交通网络被不断扩充和提高,为经济的发展提供了重要的保障。但是伴随而来是环境污染、能源浪费、道路拥挤、交通事故频
学位
脉冲超宽带技术是一种可满足短距离和高速率传输的新型无线通信技术,它具有低功耗、高带宽、抗多径等优点。脉冲超宽带系统与其它窄带通信系统采用频谱重叠的方式共享频谱资
计算机信息技术和系统软件的发展,为应用软件和专业软件提供了更加广阔的开发平台,由于客户的要求越来越高,系统会变得越来越复杂,如何有效管理系统中成百上千的对象组织,使
光纤光栅(FBG)传感作为一种新的传感方式,由于它具有抗电磁干扰,工作的频带宽,体积小,易弯曲等优点,特别的适合易燃、易爆等恶劣的环境下使用。本课题结合FP滤波器技术、ARM处理器
随着社会的进步和无线通信技术的发展,频谱供需的矛盾日趋尖锐。认知无线电技术通过频谱资源的“二次利用”,极大的提高了现有授权频谱资源的利用率,可以从根本上缓解这一矛
随着网络技术的蓬勃发展,服务于网络的各个层面的通信协议也被制定出来。尽管协议标准的语法是规范的,然而,在业务应用中,协议的语义和语用很多地方是用自然语言描述的,还无法实现