论文部分内容阅读
语音信号传递着许多方面的信息,比如说话的内容、说话人使用的语言、说话人性别和其身份信息等。说话人识别就是提取语音信号中包含的说话人身份信息并以此辨别其身份的技术,是生物识别技术的一种。经过数十年的发展,说话人识别技术已经在网络接入控制、电话银行交易认证、司法安全等领域获得了广泛的应用。目前常用的说话人识别方法主要可以分成两大类:一种是基于模版匹配的方法,另一种是基于概率统计的方法。模版匹配方法提取测试语音的特征向量,并计算与训练语音中的特征向量的相似度,特点是模型简单、计算量小,但是识别精度不高,并且训练数据对识别性能的影响比较大。概率统计方法用特定的概率密度函数来描述说话人的特征,识别过程计算测试语音中提取的特征向量与概率密度函数的对数似然比,优点是模型精确、识别率高,但是模型复杂、训练和识别过程计算量大。随着说话入识别系统的注册人数增加,识别过程所用时间大幅增长,导致识别速度显著降低,难以满足系统的实时性要求。针对常用模型的上述不足,本文提出了一种基于VQ-VP树和GMM-UBM的双层说话人识别模型,将识别过程分成两步进行。首先快速搜索出与待识别说话人声纹特征最相近的K个目标说话人,然后利用GMM-UBM精确计算测试特征向量与这K个目标说话人的似然度,做出判决。快速识别模型采用VQ-VP树方式,即利用矢量量化的LBG算法建立说话人码书,并采用VP树对所有码书中的码字进行索引,搜索过程为对数时间复杂度,因此可以实现快速识别。精确识别模型采用GMM-UBM,保证识别精度,并采用快速得分算法,进一步减小计算量。双层识别模型结合了模版匹配方法的快速性和概率统计方法的准确性,在识别性能损失有限的情况下提高了系统的识别速度。