论文部分内容阅读
声纹识别因为其语音采集设备简单普及,非接触式识别方式以及快速有效的识别效率等特点在生物特征识别领域得到了越来越广泛的应用。例如,司法鉴定领域使用声纹识别技术提供身份验证服务、增加审判依据;刑事案件侦查领域使用声纹识别技术可缩小侦查范围甚至直接确定罪犯身份;军事领域使用声纹识别技术可快速有效确定目标位置。因此,开展声纹识别技术的研究具有重要的现实应用需求。实际生活中大部分接触到的语音均为变长度语音或者连续语音,在经过梅尔频率倒谱系数特征提取后特征参数维度往往与语音时长密切相关。在使用卷积神经网络进行变长度语音的声纹识别时,由于卷积神经网络的输入需要匹配固定长度的数据,因此存在特征参数与网络输入不匹配问题。同时,考虑当下语音采集方式多样化,语音传输信道也从单一的使用无线电传输转变为多种信道传输,例如使用毫米波,光波,太赫兹通信等,当传输信道发生变化以后,在声纹识别建模部分也要同时考虑如何去除信道的影响。特别地,在近地无线光通信信道中传输的语音数据由于其信道的特殊性,语音中携带的噪声信号也与其他信道传输的语音存在差异,故需对当前声纹识别预处理方法进行改进。论文围绕解决声纹识别在使用经过近地无线光通信信道传输的变长度语音信号下的识别率提升问题而开展研究工作。采用卷积神经网络作为识别核心,论文设计的基于特征聚类的卷积神经网络声纹识别方案有效提升了在无线光通信下声纹识别的识别率。同时,本文针对无线光通信中获取的带噪语音进行预处理方法的改进,提高了声纹识别在经过近地无线光通信信道传输的语音中的鲁棒性。此外,论文通过对比多种聚类方法的不同适用条件、不同识别效果后,引入一种有效的聚类方法,解决了特征参数与网络输入不匹配问题,实现了在变长度语音下的卷积神经网络声纹识别。通过在声学-音素连续语音语料库,自建带噪语音库(经过近地无线光通信信道传输的语音),自建无噪语音库中对于高斯通用背景模型,身份向量模型以及卷积神经网络模型三种不同的识别方案进行实验验证,对比实验结果,验证了基于特征聚类的卷积神经网络方案在自建带噪语音库中性能优于高斯通用背景模型方案和身份向量模型方案。