论文部分内容阅读
语言是人类交际中最重要的交流工具。人类的话语在包含文字符号信息的同时,还包含了丰富的说话人感情和情绪等信息。传统语音识别主要关注于对语意文字的识别,而通过对语音信号的测量、分解、分析,开展情感方面的参数计算,进而实现语音情感识别,则是近几年刚刚兴起的研究方向,受到语音信号处理、心理学、信息管理等研究领域的广泛关注。尤其是随着呼叫中心(Call Center)等技术和应用的迅猛发展,如何针对海量的电话语音录音数据,通过快速、精确的语音情感识别,实现对通话质量的自动监控,已经成为迫切的应用需求。
本文结合呼叫中心的实际应用需求,开展了语音情感识别的相关研究,主要研究内容和取得的成果如下:
1.设计并实现了基于BIC准则的多说话人语音分割与聚类方法
对于以电话语音为代表的多说话人语音分割,以过零率ZCR和能量E为特征,设计了语音端点检测方法,实现了静音的有效排除;针对一段连续语音,设计并开发了基于BIC准则的语音分割方法,实现了连续语音的多说话人分割;进而提出了基于BIC距离矩阵的K-均值聚类算法,为每段独立语音分配所属的说话人。
2.提出了基于启发式搜索的语音情感特征参数选择与降维方法
以独立语音段为情感识别的基本单位,以韵律特征为全局统计量,以时间构造、基频构造、振幅能量构造和共振峰构造为重点特征参数,分析情感语音的变化。在初步选定与情感状态相关的特征参数后,本文提出了基于启发式搜索的高维特征降维方法。
3.基于核矩阵校准的策略选择核函数,设计并实现了基于SVM的语音情感识别方法
由于目前选择最合适的核函数还缺乏相应的理论指导,本文采用基于矩阵间相似度的比较得出对于语音情感识别问题比较适合的核函数;并针对SVM方法在支持二分类问题的优势,论文给出一种面向语音情感多分类问题有效转化为SVM二分类问题的策略;实验结果显示,SVM方法在训练样本不充分情况下具有优势。
4.基于SVM电话语音情感识别原型系统TSER的设计和实现
在研究关键技术的基础上,设计和实现了集电话情感语音分割、特征提取、训练及识别为一体的原型系统TSER。该平台既是基于SVM进行电话语音的情感识别相关关键技术研究的实验和测试平台,也是走向实际应用的原型系统。