论文部分内容阅读
说话人识别技术作为身份识别应用中的重要技术之一,以其无需密码、无需个体接触、识别设备成本较低等优势,广泛应用于各种身份认证系统中,倍受企业与研究者们的关注。经过数十年的发展,说话人识别研究取得了巨大进展;其中,特征提取作为寻找说话人个性信息的重要手段一直是研究热点之一。在各类语音处理应用中,由于语音信号具有短时平稳的特性,一般采用短时的帧级声学特征来刻画语音。然而,说话人的个性信息往往蕴藏在较长语音段的统计特性中,因此如何从一段语音的帧级特征序列中提取出话语级说话人特征,就成为说话人识别研究的关注焦点之一。值得注意的是,话语级特征提取一般依赖于特征空间学习,而以身份-矢量(i-vector)特征空间学习为代表的一系列方法,最受研究者们的青睐。然而,目前的i-vector特征空间学习方法在如何有效利用类别信息方面仍然缺少深入研究,它们并没有充分利用好类别这一重要的先验信息。
基于以上分析,本文围绕类别信息的有效性利用问题,以进行有监督的i-vector特征空间学习为目标,从两个角度开展研究:一是直接利用类别信息,通过寻找数据与其类别标签间公共信息的方式,来将二者的对应关系引入到i-vector特征空间学习中。二是间接利用类别信息,将能够有效利用类别标签的后端分类器与i-vector特征空间联合考虑,通过利用分类器学习过程中所获得的有利于识别不同类别数据的区分性信息,来反馈指导i-vector特征空间学习。本文主要研究内容与创新工作如下:
(1)在直接利用类别信息方面,试图通过构建数据及其类别标签的公共子空间的方式,来引入它们间的对应关系;并借助偏最小二乘方法来选择一个包含二者有效信息最多,且相关性最大的公共子空间作为i-vector特征空间。进而提出基于公共子空间中相关性学习的i-vector特征空间学习方法,其所提取的i-vector特征由于受到类别信息的指导而更具有区分性;同时,还给出一种基于预测标签相关性的i-vector特征维度选择方法。实验结果表明,所提出的方法能够有效提升说话人识别系统的性能。
(2)在直接利用类别信息方面,考虑到当开发集数据不充足时,其中所包含的信息量会减小。为此,试图对数据与其类别标签在潜在公共内容条件下的概率分布进行高斯先验假设,从而用先验信息来弥补少量数据所携带的信息量有限问题,并在该假设指导下建立起数据及其标签的关系。同时,借助概率偏最小二乘方法来学习使二者联合概率密度最大的公共隐变量表示,作为它们的公共内容,其所在空间即为i-vector特征空间。进而提出基于公共隐变量表示的i-vector特征空间学习方法,其所提取的i-vector特征不仅更具有区分性,而且由于引入先验假设而受小数据规模产生的影响较小。实验结果表明,当数据不充足时,与其他方法相比,所提出的方法能够有效提升说话人识别系统的性能。
(3)在间接利用类别信息方面,考虑到用于会话补偿的i-vector特征空间(以下简称“会话补偿特征空间”)与后端分类器通常为互相分离的独立学习过程,其在求解自身参数后,无法利用后端分类器根据类别标签所学习到的区分性信息。为此,试图以识别任务来驱动会话补偿特征空间学习的方式,将会话补偿特征空间与分类器进行联合优化,从而将分类器学习到的上述信息反馈回会话补偿特征空间的学习过程中。同时,由于具有稀疏约束的字典学习方法能够有效进行会话补偿,而且能够为后端分类器提供更简单且易于被线性表示的特征。基于此,提出基于任务驱动字典学习的会话无关i-vector特征空间学习方法。实验结果表明,与其他会话补偿方法相比,所提出的方法能够进一步提升会话补偿后i-vector特征的区分性,并有效提升说话人识别系统的性能。
(4)在间接利用类别信息方面,考虑到i-vector方法中包括分类器及其之前的多个阶段在内的学习方式,属于一种任务分段式的学习策略,各阶段均具有自己的独立优化目标,除分类器学习之外的各阶段均无法利用分类器学到的区分性信息。为此,试图以识别任务驱动各个阶段学习的方式,来将分类器学习到的上述信息反馈回其前的各个学习阶段中,从而使得它们均能够在统一识别任务指导下进行各自目标的优化。基于此,提出基于任务驱动多层联合优化的i-vector特征空间学习方法,将i-vector方法的各个阶段置于多层结构的各层之中,并对上述多层结构进行联合优化。实验结果表明,与各阶段进行独立优化的i-vector方法以及其他有监督的特征空间学习方法相比,所提出的方法能够有效提升说话人识别系统的性能。
基于以上分析,本文围绕类别信息的有效性利用问题,以进行有监督的i-vector特征空间学习为目标,从两个角度开展研究:一是直接利用类别信息,通过寻找数据与其类别标签间公共信息的方式,来将二者的对应关系引入到i-vector特征空间学习中。二是间接利用类别信息,将能够有效利用类别标签的后端分类器与i-vector特征空间联合考虑,通过利用分类器学习过程中所获得的有利于识别不同类别数据的区分性信息,来反馈指导i-vector特征空间学习。本文主要研究内容与创新工作如下:
(1)在直接利用类别信息方面,试图通过构建数据及其类别标签的公共子空间的方式,来引入它们间的对应关系;并借助偏最小二乘方法来选择一个包含二者有效信息最多,且相关性最大的公共子空间作为i-vector特征空间。进而提出基于公共子空间中相关性学习的i-vector特征空间学习方法,其所提取的i-vector特征由于受到类别信息的指导而更具有区分性;同时,还给出一种基于预测标签相关性的i-vector特征维度选择方法。实验结果表明,所提出的方法能够有效提升说话人识别系统的性能。
(2)在直接利用类别信息方面,考虑到当开发集数据不充足时,其中所包含的信息量会减小。为此,试图对数据与其类别标签在潜在公共内容条件下的概率分布进行高斯先验假设,从而用先验信息来弥补少量数据所携带的信息量有限问题,并在该假设指导下建立起数据及其标签的关系。同时,借助概率偏最小二乘方法来学习使二者联合概率密度最大的公共隐变量表示,作为它们的公共内容,其所在空间即为i-vector特征空间。进而提出基于公共隐变量表示的i-vector特征空间学习方法,其所提取的i-vector特征不仅更具有区分性,而且由于引入先验假设而受小数据规模产生的影响较小。实验结果表明,当数据不充足时,与其他方法相比,所提出的方法能够有效提升说话人识别系统的性能。
(3)在间接利用类别信息方面,考虑到用于会话补偿的i-vector特征空间(以下简称“会话补偿特征空间”)与后端分类器通常为互相分离的独立学习过程,其在求解自身参数后,无法利用后端分类器根据类别标签所学习到的区分性信息。为此,试图以识别任务来驱动会话补偿特征空间学习的方式,将会话补偿特征空间与分类器进行联合优化,从而将分类器学习到的上述信息反馈回会话补偿特征空间的学习过程中。同时,由于具有稀疏约束的字典学习方法能够有效进行会话补偿,而且能够为后端分类器提供更简单且易于被线性表示的特征。基于此,提出基于任务驱动字典学习的会话无关i-vector特征空间学习方法。实验结果表明,与其他会话补偿方法相比,所提出的方法能够进一步提升会话补偿后i-vector特征的区分性,并有效提升说话人识别系统的性能。
(4)在间接利用类别信息方面,考虑到i-vector方法中包括分类器及其之前的多个阶段在内的学习方式,属于一种任务分段式的学习策略,各阶段均具有自己的独立优化目标,除分类器学习之外的各阶段均无法利用分类器学到的区分性信息。为此,试图以识别任务驱动各个阶段学习的方式,来将分类器学习到的上述信息反馈回其前的各个学习阶段中,从而使得它们均能够在统一识别任务指导下进行各自目标的优化。基于此,提出基于任务驱动多层联合优化的i-vector特征空间学习方法,将i-vector方法的各个阶段置于多层结构的各层之中,并对上述多层结构进行联合优化。实验结果表明,与各阶段进行独立优化的i-vector方法以及其他有监督的特征空间学习方法相比,所提出的方法能够有效提升说话人识别系统的性能。