论文部分内容阅读
语音是人类之间沟通和交往当中最重要的方式,因为语音信号不但蕴含了各种丰富的语义信息,还传达流露出人们交流时丰富的情绪状态。计算机进一步去分析语音信号中包含的情感特征,理解其中蕴含的情感信息,是为了更友好更高效更便捷的人机交互,它具有重要的应用价值和巨大的研究意义。但是,根据存在现有语音情感识别中缺乏情感表达关联更加密切的新特征的问题,本文通过查阅大量国内外相关文献资料,学习并深入研究了语音情感识别的相关理论与技术,提出一种新的基于频谱感知的子带感知谱能量特征BPSE,并采用特征融合算法将MFCC和BPSE特征融合得到了BPSE-MFCC新特征用于提升语音情感识别的性能,其主要工作内容如下:第一,针对现有语音情感常用特征提取都是基于物理声学特性,只考虑声音的物理特性,且存在识别率不高等问题,本文提出了子带感知谱能量特征BPSE,解决了现有语音情感识别中缺乏情感表达关联更加密切的新特征的问题;第二,针对提出新的语音情感特征子带感知谱能量BPSE仍较单一,识别率尚未达到最优的问题,采取语音情感识别特征参数选择和融合方法,使用F比与D比的语音情感识别特征参数评价方法,进而将MFCC与BPSE中的最优部分特征进行融合,得到了新的语音情感融合特征BPSE-MFCC,新特征可以有效表达语音情感识别的物理特性和听觉感知特性。第三,构建了基于SVM模型的语音情感识别系统,并在Matlab仿真环境下对汉语情感语料库CASIA和柏林德语情感语音库EMO-DB进行实验,提取了常用语音情感特征、新特征BPSE和新融合特征BPSE-MFCC,并对比分析这些特征的语音情感识别性能。实验结果表明新特征BPSE和新融合特征BPSE-MFCC识别效果均优于常用的语音情感特征,大大提升了语音情感识别性能。