电话语音环境的鲁棒说话人识别

来源 :中国科学院自动化研究所 | 被引量 : 0次 | 上传用户：tc2020

【摘要】

：

电话语音环境下说话人识别技术的研究面临许多亟待解决的问题，包括语音环境的通道鲁棒性、说话人差异和系统判决拒识等等。近年来，针对概率统计模型和区分训练框架，研究人员进行

【作者】

：

郑榕

【机构】

：

中国科学院自动化研究所

【出处】

：

中国科学院自动化研究所

【发表日期】

：

2007年期

【关键词】

：

电话语音环境语音识别高斯混合度支持向量机鲁棒说话人识别

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

电话语音环境下说话人识别技术的研究面临许多亟待解决的问题，包括语音环境的通道鲁棒性、说话人差异和系统判决拒识等等。近年来，针对概率统计模型和区分训练框架，研究人员进行了很多有益地探索和研究，这对于说话人识别技术走向实用有着重大的意义。本文在高斯混合度信息利用、特征处理和输出分数处理、引入质量测度估计的说话人识别和对话语音分割说话人跟踪检测方面进行了研究。主要研究内容及结果包括：　　 ⑴针对高斯混合模型的相关框架进行了研究，提出了以下两方面的改进。首先，对奇异帧和混淆帧的实验分析提出了帧似然得分非线性后处理方法。该方法有效地抑止同一说话人在相邻时间上分数的差异，同时拉开不同说话人在同一特征矢量上的分数距离。其次，在GMM-UBM说话人确认系统中，通过对传统似然分数比的近似计算推导，提出利用高斯混合度的细致信息，得到基于高斯混合信息似然比的说话人确认。　　 ⑵面向电话信道应用的说话人识别系统中，训练和测试环境失配会造成系统识别性能急剧下降，本文提出了从特征规整和评分规整两个方面进行声学环境失配补偿的方法。首先，改进了基于分段的倒谱均值方差规整方法，将倒谱系数都规整到相同的段内高斯统计分布，以提高不同环境条件下特征参数的匹配程度；其次，由于不同说话人和不同测试环境引起输出评分分布变化，本文综合利用零规整和测试规整对输出分数进行变换，提出了两阶段的评分规整方法，使得失配环境下与说话人无关的决策门限更加鲁棒。最后，将分数规整变换方法的思想应用到基于MFCC和韵律特征参数的说话人辨认系统中，结合实验分析了该算法的有效性。　　 ⑶针对语音特征矢量与说话人模型的相似分数计算公式的一些局限性，提出了引入质量测度估计的说话人识别，解决识别系统输出分数对不同特征矢量同等看待，从而导致识别性能不高的问题。为每个说话人建立高斯混合质量参考模型，估计测试语音的质量测度值，得到对输出得分的贡献率，更好的符合了得分计算。同时，从提高质量测度的区分性和降低算法的计算量出发，分别考虑了散度距离和基于聚类的矢量预量化，使得系统具有较高的识别率。　　 ⑷通过分析真实环境下对话语音信号的主要特点，把说话人分割聚类技术和说话人识别技术相结合，设计并实现了一个面向复杂语音环境的说话人检测系统。该系统应用了音频信号预处理技术、对话语音自动分割聚类技术、单人识别技术和两人识别技术，实现对海量真实的电话语音进行说话人分割和识别，并在多个电话语音数据集上分析了各工作模块和系统的性能，获得了较好的应用前景。

其他文献

复杂Job Shop调度问题的遗传算法研究及其应用

制造过程调度是先进制造和自动化领域中前沿性研究方向。本文在国家973计划项目及国家自然科学基金项目等支持下，面向实际制造过程，研究适合求解复杂Jobshop调度问题的遗传算法

学位

复杂Job Shop调度问题遗传算法自适应分解优化算法预测机制模糊数逼近

基于立体视觉的三维测量系统关键技术研究

双目立体视觉主要研究运用两个摄像机对同一景物从不同位置拍摄成像并根据几何原理如何实现三维场景的恢复。随着计算机技术的快速发展，双目立体视觉成为了计算机视觉领域的一

学位

双目立体视觉双目立体视觉Marr视觉理论Marr视觉理论摄像机标定摄像机标定立体匹配立体匹配三维测量系统三维测量系统图像预处理图像预处理

广义预测控制的算法改进及其应用

广义预测控制是80年代产生的一种新型计算机控制方法，是预测控制中最具代表性的算法之一。它一出现就受到了国内外控制理论界和工业界的重视，成为研究领域中最为活跃的一种预测

学位

广义预测控制鲁棒性加权序列

基于模型引导的半自主抓取作业研究

本文以非结构环境下机器人的抓取作业为研究背景，开展了机器人在非结构环境下抓取操作的相关技术研究。为了在复杂背景下推测目标物的抓取位置和姿态，进行了基于“人机系统”理

学位

虚拟现实旋转体定位视觉抓取人机系统

基于内容的网页敏感信息识别与过滤方法

伴随着近几年来互联网的飞速发展，全世界的人们都从这种全球性的信息共享和传播中获益匪浅。与此同时，WWW时代的到来对人们来说也是一把双刃剑，这点表现为互联网在传播各种各样

学位

互联网网页处理敏感信息识别方法过滤方法

影像引导中分割与配准关键技术研究

随着医学成像技术和计算能力不断地革新发展,微创介入手术由原来的尝试到现阶段的广泛应用于临床实践,并引出了许多崭新的微创介入手术领域,这提供了许多有意义的技术挑战,继

学位

影像引导图像分割图像配准超声断层图深度学习

复杂疾病的生物信息学研究

人类各种常见疾病都属于复杂疾病。它们不是由单一基因所决定的，而是由多基因、多因素、遗传和环境共同作用的结果。因此，对于复杂疾病的研究来说，孟德尔遗传疾病的研究模式已经

学位

复杂疾病多特征融合生物信息学多种生物学数据神经网络集成脑基因网络

基于NTCIP及W-Lan技术的ATMS的实现

近年来，随着我国经济的不断发展，交通运输系统所承受的压力也越来越大，拥挤的交通己经成为了阻碍社会经济发展的一个重要因素。而智能交通系统(IntelligentTransportation Syste

学位

交通管理系统交通管理系统通信技术通信技术网络安全网络安全智能交通系统智能交通系统W-Lan技术W-Lan技术

基于数码影像的文字识别技术中若干问题研究

近年来，随着高分辨率数码影像设备普及率的提高，将数码影像设备作为文字图像的获取工具相对于扫描仪具有更大的优势，如携带方便，操作简单，可以实现无接触获取图像等。因此，OCR领域

学位

数码影像文字识别变形校正算法文档图像

农事信息采集系统的研究与设计

为了实现从“农田到餐桌”的全过程食品安全监控，需要建设农产品质量追踪体系，目的在于明确农产品的身份，建立农产品质量档案，一旦发现有质量问题的农产品，可以追踪到问题发生的环

学位

农事信息手持终端操作菜单消息驱动低功耗通信协议

电话语音环境的鲁棒说话人识别

其他学术论文