论文部分内容阅读
在远场语音识别系统中,麦克风接收到的远场语音信号会受到背景噪声、人声干扰和混响干扰的影响,使语音的质量和可懂度显著下降,并严重影响语音识别系统的性能。因此,近年来高效的语音增强算法,包括多通道语音去混响算法、多通道波束形成算法以及单通道语音增强算法,在语音信号处理领域变得格外引人注目。对于混响干扰,最常用的方法是多通道线性预测(Multi-Channel Linear Prediction,MCLP)自适应去混响算法;对于人声干扰,目前主要依赖波束形成算法抑制指定方向外的干扰;对于背景噪声,除传统的信号处理算法外,基于深度神经网络(Deep Neural Network,DNN)的方法也已经开始应用到语音增强领域中。目前波束形成算法主要采用广义旁瓣相消器(Generalized Sidelobe Canceller,GSC),因此,本文没有详细描述波束形成算法,而是主要对MCLP自适应去混响算法以及单通道的语音增强算法进行了研究,主要的研究内容如下:首先,针对递归最小二乘(Recursive Least Squares,RLS)算法在理论上具有数值不稳定性的问题,本文对原型的基于RLS的MCLP自适应去混响算法进行改进,提出了基于正交分解的递归最小二乘(QR-decomposition Recursive Least Squares,QRRLS)的MCLP自适应去混响算法,该算法具有与原型算法相同的去混响特性和更好的数值稳定性。然后,在基于QR-RLS的MCLP自适应去混响算法的基础上,推导了基于可变遗忘因子的正交三角分解递归最小二乘(Variable Forgetting Factor QRdecomposition Recursive Least Squares,VFFQR-RLS)的MCLP自适应去混响算法。该算法可以根据系数向量的变化来选择合适的遗忘因子,使得算法在收敛性和最小均方误差(Minimum Mean Square Error,MMSE)之间达到较好的均衡。仿真实验表明,在不同的混响特性下,两种改进的MCLP自适应去混响算法均具有较好的去混响性能和稳定性。其次,针对基于DNN的单通道语音增强算法,本文提出了基于渐进式深度神经网络(Progressive Deep Neural Networks,PDNNs)以及渐进式长短期记忆网络(Progressive Long Short-Term Memory Networks,PLSTMs)来解决原型DNN语音增强算法在低信噪比下性能严重下降的问题。该方法将整个增强任务分解为多个子任务来完成,并且前面完成的子任务会为后面的子任务提供先验知识,使得后面的子任务可以更好地学习它的目标。针对学习目标,本文也提出了对于多个子任务基于信噪比的语音特征。仿真结果表明,提出的基于PDNNs和基于PLSTMs的单通道语音增强算法在各个信噪比下的性能对比原始的DNN和LSTMs(Long Short-Term Memory Networks,LSTMs)均有显著的提升,其中包括在低信噪比下的泛化性,以及在抑制噪声的同时,也减小了语音信号的失真度。最后,本文提出了远场语音识别系统中的语音增强框架,包括维纳滤波预处理模块、语音去混响模块、波束形成模块以及单通道后处理模块。仿真实验表明,提出的语音增强框架能有效地抑制远场语音识别系统中存在的干扰,对于语音质量以及语音可懂度有显著的提升效果。