论文部分内容阅读
电话语音环境下说话人识别技术的研究面临许多亟待解决的问题,包括语音环境的通道鲁棒性、说话人差异和系统判决拒识等等。近年来,针对概率统计模型和区分训练框架,研究人员进行了很多有益地探索和研究,这对于说话人识别技术走向实用有着重大的意义。本文在高斯混合度信息利用、特征处理和输出分数处理、引入质量测度估计的说话人识别和对话语音分割说话人跟踪检测方面进行了研究。主要研究内容及结果包括:
⑴针对高斯混合模型的相关框架进行了研究,提出了以下两方面的改进。首先,对奇异帧和混淆帧的实验分析提出了帧似然得分非线性后处理方法。该方法有效地抑止同一说话人在相邻时间上分数的差异,同时拉开不同说话人在同一特征矢量上的分数距离。其次,在GMM-UBM说话人确认系统中,通过对传统似然分数比的近似计算推导,提出利用高斯混合度的细致信息,得到基于高斯混合信息似然比的说话人确认。
⑵面向电话信道应用的说话人识别系统中,训练和测试环境失配会造成系统识别性能急剧下降,本文提出了从特征规整和评分规整两个方面进行声学环境失配补偿的方法。首先,改进了基于分段的倒谱均值方差规整方法,将倒谱系数都规整到相同的段内高斯统计分布,以提高不同环境条件下特征参数的匹配程度;其次,由于不同说话人和不同测试环境引起输出评分分布变化,本文综合利用零规整和测试规整对输出分数进行变换,提出了两阶段的评分规整方法,使得失配环境下与说话人无关的决策门限更加鲁棒。最后,将分数规整变换方法的思想应用到基于MFCC和韵律特征参数的说话人辨认系统中,结合实验分析了该算法的有效性。
⑶针对语音特征矢量与说话人模型的相似分数计算公式的一些局限性,提出了引入质量测度估计的说话人识别,解决识别系统输出分数对不同特征矢量同等看待,从而导致识别性能不高的问题。为每个说话人建立高斯混合质量参考模型,估计测试语音的质量测度值,得到对输出得分的贡献率,更好的符合了得分计算。同时,从提高质量测度的区分性和降低算法的计算量出发,分别考虑了散度距离和基于聚类的矢量预量化,使得系统具有较高的识别率。
⑷通过分析真实环境下对话语音信号的主要特点,把说话人分割聚类技术和说话人识别技术相结合,设计并实现了一个面向复杂语音环境的说话人检测系统。该系统应用了音频信号预处理技术、对话语音自动分割聚类技术、单人识别技术和两人识别技术,实现对海量真实的电话语音进行说话人分割和识别,并在多个电话语音数据集上分析了各工作模块和系统的性能,获得了较好的应用前景。