论文部分内容阅读
在计算机技术领域,未来的目标将是减少人与机器的沟通障碍。提取信号中蕴含的情感特征来判断情绪波动的语音情感研究已成为一个很有发展潜力的研究课题。结合语音情感识别的广泛需求,本文研究了基于神经网络的语音情感识别算法。具体研究内容如下:提取了四种不同情感的语音特征。四种不同情感为生气、害怕、快乐和伤心。首先提取了语速、短时平均能量、短时平均过零率和基音频率四个韵律学特征;然后提取了音质特征共振峰;最后提取了基于谱的相关特征梅尔频率倒谱系数。研究了基于BP神经网络的语音情感识别算法。首先对BP神经网络进行训练,其中输入为不同语音特征组成的行向量,最后对不同情感类别的语音进行识别。基于BP神经网络的语音情感识别实验主要从迭代训练次数、学习率、隐含层神经元个数、样本集个数、不同特征组合和情感种类数六个方面展开。实验结果表明:当对四种不同的情感两两组合时,语音情感识别率在65.85%到91.00%之间;本文对四种不同情感的识别率比选用支持向量机算法提高了5.47%。研究了基于卷积神经网络的语音情感识别算法。首先对卷积神经网络进行训练,其中特征输入为一个梅尔频率倒谱系数情感特征组成的矩阵,最终对不同情感类别的语音进行识别。基于卷积神经网络的语音情感识别实验,分别从情感种类和训练集个数两个方面展开。实验结果表明:基于卷积神经网络的语音情感识别算法识别率,在四种不同情感下相对于BP神经网络提升了6.50%;当对四种情感两两组合时,语音情感识别率在72.00%到97.00%之间,均好于BP神经网络算法。本文的实验成果可以应用到服务业,从而减少人为干预。比如远程会议、车载安全等。对情感强度的进一步研究,可使医生为有精神疾病的患者提供相应的治疗。