基于支持向量机电话语音情感识别方法的研究与实现

来源 :北京大学 | 被引量 : 0次 | 上传用户:q398197371
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
语言是人类交际中最重要的交流工具。人类的话语在包含文字符号信息的同时,还包含了丰富的说话人感情和情绪等信息。传统语音识别主要关注于对语意文字的识别,而通过对语音信号的测量、分解、分析,开展情感方面的参数计算,进而实现语音情感识别,则是近几年刚刚兴起的研究方向,受到语音信号处理、心理学、信息管理等研究领域的广泛关注。尤其是随着呼叫中心(Call Center)等技术和应用的迅猛发展,如何针对海量的电话语音录音数据,通过快速、精确的语音情感识别,实现对通话质量的自动监控,已经成为迫切的应用需求。   本文结合呼叫中心的实际应用需求,开展了语音情感识别的相关研究,主要研究内容和取得的成果如下:   1.设计并实现了基于BIC准则的多说话人语音分割与聚类方法   对于以电话语音为代表的多说话人语音分割,以过零率ZCR和能量E为特征,设计了语音端点检测方法,实现了静音的有效排除;针对一段连续语音,设计并开发了基于BIC准则的语音分割方法,实现了连续语音的多说话人分割;进而提出了基于BIC距离矩阵的K-均值聚类算法,为每段独立语音分配所属的说话人。   2.提出了基于启发式搜索的语音情感特征参数选择与降维方法   以独立语音段为情感识别的基本单位,以韵律特征为全局统计量,以时间构造、基频构造、振幅能量构造和共振峰构造为重点特征参数,分析情感语音的变化。在初步选定与情感状态相关的特征参数后,本文提出了基于启发式搜索的高维特征降维方法。   3.基于核矩阵校准的策略选择核函数,设计并实现了基于SVM的语音情感识别方法   由于目前选择最合适的核函数还缺乏相应的理论指导,本文采用基于矩阵间相似度的比较得出对于语音情感识别问题比较适合的核函数;并针对SVM方法在支持二分类问题的优势,论文给出一种面向语音情感多分类问题有效转化为SVM二分类问题的策略;实验结果显示,SVM方法在训练样本不充分情况下具有优势。   4.基于SVM电话语音情感识别原型系统TSER的设计和实现   在研究关键技术的基础上,设计和实现了集电话情感语音分割、特征提取、训练及识别为一体的原型系统TSER。该平台既是基于SVM进行电话语音的情感识别相关关键技术研究的实验和测试平台,也是走向实际应用的原型系统。
其他文献
在大数据时代,数据总量快速增长,构建具有高可靠、高性能存储系统的需求不断增大,而传统的RAID(如RAID5、RAID6等)存在不能同时兼顾系统性能与存储空间利用率以及小写性能低下的缺
近年来,由于移动通信业务的快速发展,各电信运营商积累了海量的移动通信数据,在这种情况下,基于客户的静态行为信息的客户行为分析已经不能适应快速变化的环境。如何在移动环境中
随着互联网的发展,各种类型的信息层出不穷,快速从过量的信息中找到感兴趣的内容已成为用户的迫切需求。因而,作为解决信息过载问题的有效手段,个性化推荐受到了广泛关注。个性化
建立过程管理系统的根本目的是用来支持企业管理的自动化,但现有的过程管理技术存在的问题是,它为企业规定了一套固定的运营模式,因而既不能支持决策型任务,也存在灵活性、适应性
上下文感知计算是普适计算的一个核心内容。由于上下文的类型多样、语义复杂,其数据又是经常动态变化的,因而上下文数据管理中涉及到上下文数据的建模、查询语言、上下文数据质
P2P网络(Peer to Peer,P2P网络)是一种完全分布的、合作式的自组织系统。与传统的Client/Server网络相比具有更好的扩展性,更强的健壮性。P2P网络技术使得互联网中内容容量急剧
随着语义网与本体研究的开展,本体被广泛应用到各个领域之中,越来越多的本体被构建用以表示知识与共享知识。由于不同领域问题的不同特征以及网络分布的不集中性,不同领域构建的
随着虚拟化技术在云计算环境下的广泛应用,虚拟机系统的安全问题变得越来越突出。虚拟机系统装载企业用户的应用暴露在互联网环境下运行,很显然会遭受到来自网络环境中的各种攻
计算机安全的主要目标是保障信息的保密性、完整性和可用性。如今,计算机网络几乎延伸到了世界的各个角落。网络环境中Windows操作系统主机的非法外联问题是内网安全的重要问
本文是国家863计划重大项目“水稻精准作业技术集成与应用(2006AA10A307)”中联合收割机测产系统研究的部分内容。在水稻收获测产系统中,稻谷含水率是准确计算产量的一个重要