说话人识别中特征参数加权方法的研究

来源 :中国地质大学(武汉) | 被引量 : 0次 | 上传用户:sztsb99
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
说话人识别是一种模式识别技术。通过对采集到的语音信号提取相应的特征,建立相应的模型,然后判断说话人身份。说话人识别在电子商务和信息安全等领域都具有广泛的应用前景。   本文研究了说话人识别的历史与发展现状、意义和应用领域,同时研究了该技术的难点所在及目前研究的热点。文章在研究语音信号的产生方法的基础上研究了语音信号的数字模型,包括激励模型、声管模型和辐射模型这三个子模型。并且研究了语音信号的预处理,从语音信号的分帧、加窗和端点检测这些方面具体分析了预处理的方法。   本说话人识别系统采用矢量量化方法,它包括两个主要模块:特征提取和特征匹配。在特征提取的过程中,提取少量能够体现每个说话人特征的语音信号的参数。在特征匹配模块中包括有两个步骤:一是训练步骤,二是识别步骤。   文中在研究说话人识别的参数和特征提取原理的基础上,重点研究了线性预测倒谱系数(LPCC)的原理和特征,并设计和实现了线性预测倒谱系数提取过程。文中研究表明,反映说话人特征信息的特征参数矢量的各个分量通常具有不同的分布,对正确识别说话人身份的有效性是有差别的。文中通过增减分量的方法对LPCC的各维分量进行分析,得到一个关于LPCC参数各维分量的平均贡献序列,用此序列来对LPCC各分量进行加权有助于提高系统的识别率。不同分量对说话人识别系统有不同的识别能力,识别能力的大小用权值来衡量,大的权值有大的识别能力,反之亦然。平均贡献大的分量识别能力大,则平均贡献大的分量应得到大的权值。基于这一思想,本文尝试赋予不同平均贡献的分量以不同的权值,以此来提高特征参数的性能,从而提高识别的正确率。   本文在介绍了矢量量化的基本原理和失真测度方法的基础上,重点研究了矢量量化器最佳码本设计的算—LBG算法,以此为本系统的矢量量化方法。最后提出一种以LPCC加权参数为特征的矢量量化的说话人识别方案,并在MATLAB上进行了仿真实验。   本系统通过MATLAB语音处理工具箱,提取输入语音的特征参数,采用了线性预测倒谱系数的加权特征参数,提高了系统的识别性能,采用LBG算法进行码书设计,并通过使用矢量量化技术为每一说话人设计码书,避免了由于说话人使用同一码书带来的量化误差,使系统获得了较高的识别率。
其他文献
生物絮凝剂是由微生物产生的一类生物大分子物质,具有一定的絮凝活性,能使液体中难沉降的固体悬浮颗粒聚凝,加速沉降以达到固液分离的目的。而且较之传统的无机絮凝剂和有机合成高分子絮凝剂,具有安全、无毒、易降解等特点,此外它还具有吸附重金属的功能,因而备受关注,成为国内外絮凝剂研制开发的热点之一。 本文从10个不同样品中筛选分离得到28株具有絮凝活性的菌株,其中筛选自活性污泥,编号M—503的菌株所
无线通信技术的快速发展和人们对无线通信业务需求的快速增加,使得可用的无线频谱资源越来越少。同时无线频谱资源固定分配政策使得频谱资源利用率很低,相当多频段并没有得到充
学位
随着当今社会的日益发展,证件在各行业领域的使用也日益广泛,与此同时证件的伪造现象也层出不穷。由于传统的证件大多缺乏机器识别功能,主要依靠主观辨识,防伪性能较差,对国家的经
数字技术的飞速发展,带动了各行各业的巨大变革,旅游业也随着时代的变迁走向数字化,数字旅游作为数字技术在旅游业中的应用,更是将数字技术直接用于推动经济建设的发展当中。数字
谷氨酰胺转胺酶(Transglutaminase,R-谷氨酰胺酰-肽γ-谷氨酰胺酰基转移酶,EC 2.3.2.13简称TGase)是一种硫醇酶,通过催化蛋白质分子内或分子间发生交联、蛋白质和氨基酸之间连
无线传感器网络是一个多学科交叉的前沿性研究领域,在军事和民用领域都有广阔的应用前景,无线传感器网络被认为是二十一世纪最具影响力的技术之一。  无线传感器网络固有的
智能视频监控是计算机视觉一个新兴的应用方向。计算机视觉中对于事件检测问题的研究,既是一个热点又是一个难点。本文根据广西千亿元产业重大科技攻关工程项目《车载雷达前
RFID(Radio Frequency Identification)射频识别是一种非接触式的自动识别技术。它利用射频信号来自动识别目标对象并获取相关数据,识别过程无需直接接触与人工干预。随着技术
随着网络技术的发展,更多的商业应用服务开始由网络承载,新兴的语音、视频等多媒体业务大量在网络上应用,不可避免的会出现链路失效、节点失效等网络故障,这对网络的生存性和