论文部分内容阅读
声纹识别是根据语音对说话人进行自动区分,从而进行说话人身份鉴别以及认证的生物特征识别技术。其中,文本无关的声纹识别更是由于其应用环境的灵活性,成为学术界以及工业界的一个研究热点。本文将以文本无关的声纹识别为研究重点,致力于完成一个完善的且性能良好的声纹识别系统。主要采用四种建模方法进行研究以及系统实现,包括: 1、介绍基于GMM-UBM的声纹识别系统,以此为基础,研究并实现了基于TVM-I-Vector的声纹识别系统。混合高斯-通用背景模型(Gaussian Mixture Model-Universal Background Model,GMM-UBM)将声学特征投影到高维空间上,得到高维的均值超矢量。UBM采用大规模的说话人语料训练完成,并因此可以被采进行说话人的共性特征的描述。然后,以UBM为初始模型,采用目标说话人数据进行基于最大后验概率(MaximumA Posterior,MAP)的自适应训练,得到目标说话人的混合高斯模型(GMM)。通过计算似然值的方法进行说话人打分,进而进行识别判决。说话人矢量因子(Identity-Vector,I-Vector)模型以GMM-UBM为基础,基于的假设是所有的说话人信息隐含在高维的均值超矢量中。它的基本思想是将高维的均值超矢量投影至低维空间中进行建模,即将长短不一的语音文件通过全局差异空间建模(Total Variable space Model,TVM)的方式,得到长度一致的低维向量作为说话人模型。这个低维矢量即为I-Vector。由于I-Vector建模中没有区分语音中说话人信息以及信道信息,为了降低信道对识别的影响,本文分别采用了线性判别分析(LinearDiscriminant Analysis,LDA)以及概率线性判别分析(Probability Linear DiscriminantAnalysis,PLDA)对I-Vector进行信道补偿,提高识别效果。 2、研究并实现了基于DNN统计量提取的I-Vector声纹识别系统。在基于TVM-I-Vector的声纹识别系统中,采用UBM计算后验概率,提取相关统计量,从而进行全局差异空间的估计。考虑到UBM数据驱动的建模方式可能会导致后验概率计算的误差较大,从而影响识别性能,本文采用自动语音识别(Automatic SpeechRecognition,ASR)任务中训练得到的深度神经网络(Deep Neural Network,DNN)模型作为计算后验概率的模型替代UBM,以得到更准确的统计量进行模型估计,从而提高识别效果。 3、研究并实现了基于深度瓶颈特征(Deep Bottleneck Feature,DBF)的I-Vector声纹识别系统。深度瓶颈层(Deep Bottleneck Layer)在语音识别中的成功应用证明了DBF在特征表示上的优势。低维的DBF在网络结构中能够实现高维输入至输出的重现,说明它是一种抽象、凝练且更具区分性的特征。相比于声纹识别中的Mel频率倒谱系数(Mel Frequency Cepstral Coefficients,MFCC)特征,DBF在声纹识别上也表现出了一定的优势。在本文中,实现了基于DBF的I-Vector模型的估计。此外,考虑到MFCC以及DBF的互补作用,进行了基于DBF以及MFCC特征融合的I-Vector建模,进一步提高声纹识别系统的性能。