基于深度特征的声纹识别系统

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户：yczcjlk

【摘要】

：

声纹识别是根据语音对说话人进行自动区分，从而进行说话人身份鉴别以及认证的生物特征识别技术。其中，文本无关的声纹识别更是由于其应用环境的灵活性，成为学术界以及工业界的一

【作者】

：

方硕

【机构】

：

中国科学院大学

【出处】

：

中国科学院大学

【发表日期】

：

2016年期

【关键词】

：

声纹识别深度特征说话人矢量因子深度神经网络概率线性判别

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

声纹识别是根据语音对说话人进行自动区分，从而进行说话人身份鉴别以及认证的生物特征识别技术。其中，文本无关的声纹识别更是由于其应用环境的灵活性，成为学术界以及工业界的一个研究热点。本文将以文本无关的声纹识别为研究重点，致力于完成一个完善的且性能良好的声纹识别系统。主要采用四种建模方法进行研究以及系统实现，包括:　　1、介绍基于GMM-UBM的声纹识别系统，以此为基础，研究并实现了基于TVM-I-Vector的声纹识别系统。混合高斯-通用背景模型(Gaussian Mixture Model-Universal Background Model，GMM-UBM)将声学特征投影到高维空间上，得到高维的均值超矢量。UBM采用大规模的说话人语料训练完成，并因此可以被采进行说话人的共性特征的描述。然后，以UBM为初始模型，采用目标说话人数据进行基于最大后验概率(MaximumA Posterior,MAP)的自适应训练，得到目标说话人的混合高斯模型(GMM)。通过计算似然值的方法进行说话人打分，进而进行识别判决。说话人矢量因子(Identity-Vector，I-Vector)模型以GMM-UBM为基础，基于的假设是所有的说话人信息隐含在高维的均值超矢量中。它的基本思想是将高维的均值超矢量投影至低维空间中进行建模，即将长短不一的语音文件通过全局差异空间建模(Total Variable space Model，TVM)的方式，得到长度一致的低维向量作为说话人模型。这个低维矢量即为I-Vector。由于I-Vector建模中没有区分语音中说话人信息以及信道信息，为了降低信道对识别的影响，本文分别采用了线性判别分析(LinearDiscriminant Analysis，LDA)以及概率线性判别分析(Probability Linear DiscriminantAnalysis，PLDA)对I-Vector进行信道补偿，提高识别效果。　　2、研究并实现了基于DNN统计量提取的I-Vector声纹识别系统。在基于TVM-I-Vector的声纹识别系统中，采用UBM计算后验概率，提取相关统计量，从而进行全局差异空间的估计。考虑到UBM数据驱动的建模方式可能会导致后验概率计算的误差较大，从而影响识别性能，本文采用自动语音识别(Automatic SpeechRecognition，ASR)任务中训练得到的深度神经网络（Deep Neural Network,DNN）模型作为计算后验概率的模型替代UBM，以得到更准确的统计量进行模型估计，从而提高识别效果。　　3、研究并实现了基于深度瓶颈特征（Deep Bottleneck Feature，DBF）的I-Vector声纹识别系统。深度瓶颈层(Deep Bottleneck Layer)在语音识别中的成功应用证明了DBF在特征表示上的优势。低维的DBF在网络结构中能够实现高维输入至输出的重现，说明它是一种抽象、凝练且更具区分性的特征。相比于声纹识别中的Mel频率倒谱系数(Mel Frequency Cepstral Coefficients,MFCC)特征，DBF在声纹识别上也表现出了一定的优势。在本文中，实现了基于DBF的I-Vector模型的估计。此外，考虑到MFCC以及DBF的互补作用，进行了基于DBF以及MFCC特征融合的I-Vector建模，进一步提高声纹识别系统的性能。

其他文献

基于RBF神经网络的非线性系统建模与移动机器人轨迹跟踪控制

神经网络具有较强的逼近非线性函数的能力，并具有自适应学习、并行分布处理和较强的鲁棒性及容错性等特点，为解决未知不确定非线性系统的建模和控制问题提供了一种有效的途径。

学位

智能机器人智能控制神经网络移动机器人轨迹控制轨迹跟踪

矿井移动目标精确定位关键技术研究和实现

基于位置的服务作为一种战略新兴产业，已经广泛的进入了人们的生活。随着应急救援、公共安全、购物服务等领域对室内高精度定位的需求越来越迫切，室内定位技术的研究已经成为一

学位

煤矿井下目标无线精确定位超宽带通信非视距抑制时间同步最小二乘算法

压缩系统失稳现象的主动控制

本文基于轴流压缩系统的改进的MG模型，用非线性控制理论中的backstepping方法设计了抑制压缩系统失稳现象的主动控制律，将该控制律应用于模型进行仿真实现，获得了不同加速过程中

学位

压缩系统失稳现象旋转失速喘振主动控制轴流压缩系统非线性控制

基于统计形状模型的医学图像分割研究

医学图像处理与分析作为现代医学的一个非常重要的组成部分正越来越多地受到人们的重视。医学图像分割技术是医学图像处理与分析中的一个重要的组成部分。在医学图像中，通过对

学位

医学图像分割统计形状模型肝脏分割各向异性各向同性

基于分形技术的网络流量行为特性分析

网络流量行为特性是网络行为学的重要研究内容，它为网络规划、设计和管理提供基本依据，为网络性能、网络运行的服务质量保证和网络安全提供重要的手段。对网络流量行为的研究已

学位

网络流量行为特性蠕虫流量时间尺度网络负载数据流底层网络协议环路时间

基于视觉的四旋翼飞行器运动控制

四旋翼飞行器作为无人机的重要分支，具有垂直起降、自由悬停、低空低速飞行、灵活机动等优点，在探测监视、目标定位、救援救灾等方面具有广泛的应用。本文针对基于视觉的四旋翼

学位

四旋翼飞行器视觉控制图像矩悬停控制目标跟踪

电磁发射机AC/DC可控源电路控制技术研究

学位

车牌照定位和分割算法的研究

车辆牌照识别系统的研制与开发,成为现代化交通发展的热点问题,也是影响交通系统智能化、现代化的重要因素。而车牌照的定位和分割是其中最为关键的技术之一,它是字符分割和

学位

车牌定位图像分割中值滤波阈值边缘检测

快速个性化人脸建模和动画的研究

个性化人脸造型和动画一直是当前研究的热点和难点。本文以“快速个性化人脸建模和动画”为主题，采用普通摄像头获取图像，围绕着其中的人脸特征点获取、特征点深度信息估计、标

学位

个性化人脸建模标准模型检索深度信息估计表情动画图像获取

基于静息态功能磁共振成像的弱视患者脑功能研究

弱视是一种严重影响儿童视功能的眼科疾病，近些年其研究逐步得到关注。本文利用静息态功能磁共振成像(functional Magnetic Resonance Imaging，fMRI)数据，从脑功能层次来研究弱

学位

弱视患者脑功能改变功能磁共振成像低频振荡振幅镜像同伦连接

基于深度特征的声纹识别系统

其他学术论文