基于HMM的说话置信度估计的研究

来源 :南京大学 | 被引量 : 0次 | 上传用户:a398215555
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
语音识别技术发展迅速,并已得到广泛应用。语音识别的性能远非完美,不能做到100%准确。说话置信度估计对进入到语音识别器的语音信号进行判断,排除未在词表中定义的词和无意义的声音,有效的降低系统的误识别率。说话置信度估计对关键词系统和口语对话系统特别重要。论文中的方法不仅适用于英语的语音识别系统,对中文系统也同样有效。 本文主要研究英语命令词语音识别器的说话置信度估计,进而对识别结果进行分类。分类器的错误可以分为两类,误拒绝和误接受。本文构建了元音和辅音(C+V),类音素,全音素三种类型的补白模型。实验主要采用C+V补白模型,该补白模型的建模方法比较简单,易于实现。实验结果显示,C+V补白模型归一化似然等错率从16个共享高斯数的21.55%下降到50个共享高斯数的17.02%。补白模型的共享高斯数越多,等错率越低。全音素的补白模型的归一化的似然等错率是14.18%,类音素补白模型的归一化似然等错率是16.02%,C+V补白模型的归一化似然等错率是17.02%。全音素补白模型的等错率是三个补白模型中最低的,它的性能是最好的。由于全音素补白模型比较细化,模型数目比较多。在硬件实现,特别是嵌入式系统的实现过程需要存储量大,实现困难。全音素补自模型对不同的语种有差异,要经过一定的修改,才能应用到汉语或者其他语种的说话置信度研究估计中。C+V补白模型泛化能力强,精细度弱于全音素补白模型,对不同的语种C+V补白模型相同。实验结果显示,对不同的人,其最佳阈值都很接近,都在0附近,因此说话置信度估计对不同人及不同性别影响不大。 在评价说话置信度估计的过程中,采用了等错误率准则来衡量分类器的性能。本文引入了区分性训练的概念,将差分的训练方法运用到说话置信度的估计上。实验表明,区分性训练的EER比MLE训练的EER降低了15.12%,性能显著提高。
其他文献
在基因表达谱数据分析和肿瘤诊断中,信息基因的选取是很重要的问题。本文基于冗余度和多基因分析提出了一种后过滤信息基因选取算法,即用于选取能够区分正常样本和癌变样本(或
军事通信是一种特殊的技术领域,它不仅汇集了当今世界上所有先进的技术成果,使通信系统能够适应复杂多变的自然环境,同时又要能够承受现代技术自身地攻击与对抗。短波信道所具有
以易早衰的超级杂交稻组合培矮64S/E32为材料,以不早衰的超级杂交稻组合两优培九为对照,系统研究了不同生育期剑叶叶片及叶鞘衰老过程中的某些生理生化指标及其变化规律以及剑叶
本文的内容是关于人脸识别算法的一些研究。通常的人脸识别系统由三部分组成:人脸检测、特征提取以及识别或鉴别。本工作是针对人脸识别系统中后两个组成部分即特征提取和识别
动中通是战术通信的最重要的特征。“动中通”网络中,不仅移动用户在动,无线接入点(RAP)甚至网络本身也都在动。“动中通”技术,即是要求在无线接入点(RAP)和移动用户都在随
VR实景漫游系统采用人机交互界面和虚拟导航的方式,让受众根据系统路线提示在虚拟景区中自由参观,并且可在不同的景点之间自主漫游。现着重介绍一款360°VR实景漫游系统的开发过程和关键技术,该系统基于某省级科研项目,结合VR技术、全景漫游技术、PTGui全景图制作等技术,以苏州漕湖农业产业园环境为虚拟空间,最终研发成功,并经网络发布投入实际使用。
摘要: 学习兴趣是学生学好数学的最现实、最活泼的心理成份,是学习动力的重要源泉,兴趣是最好的老师。  关键词:培养;初中;数学教学;学习兴趣  在新课程数学教学中,学生自主学习兴趣的培养有着特殊的地位,它是学生学习自觉性和积极性的核心因素,是自主学习的强化剂。主动有兴趣地学习不仅能使学生全神贯注积极思考,甚至会使他们达到废寝忘食的境地。在课堂教学中注重发挥教师的主导作用,着力激发学生学习数学的兴趣
MCCDMA(Multi-CarrierCode-DivisionMultipleAccess)结合了CDMA(Code-DivisionMultipleAccess)和OFDM(OrthogonalFrequency-DivisionMultiplexing)的优点,越来越受到人们的关
随着IT业和GIS业的迅猛发展,作为信息重要组成部分的空间信息也越来越广泛地应用于国民经济的各领域,各种专业地理信息系统对各种地理空间信息的需求越来越多。在地理信息快
学位