远场语音识别系统中的语音增强技术研究

来源 :重庆邮电大学 | 被引量 : 0次 | 上传用户:zxjds
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在远场语音识别系统中,麦克风接收到的远场语音信号会受到背景噪声、人声干扰和混响干扰的影响,使语音的质量和可懂度显著下降,并严重影响语音识别系统的性能。因此,近年来高效的语音增强算法,包括多通道语音去混响算法、多通道波束形成算法以及单通道语音增强算法,在语音信号处理领域变得格外引人注目。对于混响干扰,最常用的方法是多通道线性预测(Multi-Channel Linear Prediction,MCLP)自适应去混响算法;对于人声干扰,目前主要依赖波束形成算法抑制指定方向外的干扰;对于背景噪声,除传统的信号处理算法外,基于深度神经网络(Deep Neural Network,DNN)的方法也已经开始应用到语音增强领域中。目前波束形成算法主要采用广义旁瓣相消器(Generalized Sidelobe Canceller,GSC),因此,本文没有详细描述波束形成算法,而是主要对MCLP自适应去混响算法以及单通道的语音增强算法进行了研究,主要的研究内容如下:首先,针对递归最小二乘(Recursive Least Squares,RLS)算法在理论上具有数值不稳定性的问题,本文对原型的基于RLS的MCLP自适应去混响算法进行改进,提出了基于正交分解的递归最小二乘(QR-decomposition Recursive Least Squares,QRRLS)的MCLP自适应去混响算法,该算法具有与原型算法相同的去混响特性和更好的数值稳定性。然后,在基于QR-RLS的MCLP自适应去混响算法的基础上,推导了基于可变遗忘因子的正交三角分解递归最小二乘(Variable Forgetting Factor QRdecomposition Recursive Least Squares,VFFQR-RLS)的MCLP自适应去混响算法。该算法可以根据系数向量的变化来选择合适的遗忘因子,使得算法在收敛性和最小均方误差(Minimum Mean Square Error,MMSE)之间达到较好的均衡。仿真实验表明,在不同的混响特性下,两种改进的MCLP自适应去混响算法均具有较好的去混响性能和稳定性。其次,针对基于DNN的单通道语音增强算法,本文提出了基于渐进式深度神经网络(Progressive Deep Neural Networks,PDNNs)以及渐进式长短期记忆网络(Progressive Long Short-Term Memory Networks,PLSTMs)来解决原型DNN语音增强算法在低信噪比下性能严重下降的问题。该方法将整个增强任务分解为多个子任务来完成,并且前面完成的子任务会为后面的子任务提供先验知识,使得后面的子任务可以更好地学习它的目标。针对学习目标,本文也提出了对于多个子任务基于信噪比的语音特征。仿真结果表明,提出的基于PDNNs和基于PLSTMs的单通道语音增强算法在各个信噪比下的性能对比原始的DNN和LSTMs(Long Short-Term Memory Networks,LSTMs)均有显著的提升,其中包括在低信噪比下的泛化性,以及在抑制噪声的同时,也减小了语音信号的失真度。最后,本文提出了远场语音识别系统中的语音增强框架,包括维纳滤波预处理模块、语音去混响模块、波束形成模块以及单通道后处理模块。仿真实验表明,提出的语音增强框架能有效地抑制远场语音识别系统中存在的干扰,对于语音质量以及语音可懂度有显著的提升效果。
其他文献
<正>人类的文化与文明,是以符号和仪式作为表征得以传承的,它的核心内涵是生活价值系统,而其主要呈现方式则是符号象征形式。文化符号既包括语言符号又包括非语言符号,它承载
目的:通过临床观察和总结,探讨亚低温治疗的护理方法,减少并发症的发生,促进患者康复。方法:采用药物+物理降温的方法,将患者温度控制在合理范围内,监测患者病情变化及有无并
本文通过对《新视野大学英语》这套教材特点的分析,以当今英语作为第二外语教学的研究成果为理论依据,结合笔者在使用该教材进行英语教学工作中积累的实践经验,论述了《新视野大
佛教在经过隋唐的吸收和消化后,降及宋朝,虽然处于中国社会发展由盛转衰的转折期,但是其对当时社会、文化发展的作用却不容忽视。文章通过历来较少受学人所重视的笔记——《湘山
有效探测识别低空飞行器已成为雷达等传统监控手段亟待解决的问题,而声目标识别凭借全向探测、被动探测和隐蔽性好等诸多优势,在低空飞行器探测识别方面获得广泛的关注和应用。本文以国防和公共安全的实时监控为应用背景,针对直升机这一典型低空飞行器飞行过程中连续识别的准确率和鲁棒性问题,在深入总结和分析直升机声信号产生机理和特性的基础上,对声目标识别中声信号预处理、特征提取和识别等关键技术进行研究,提出基于深度
云技术的发展使得很多领域能够在远程进行数据交互,极大地提高了各行各业运作的协同性,对医疗卫生行业更是产生了巨大的帮助和推进。该文首先基于云平台技术提出了伤口数据由
孔子《论语&#183;学而》第一句话说:"学而时习之,不亦说乎?"有人问我,这个"时"字该如何解释。在很多中学语文课本里,"时"被解释为"时常",原话可以翻译为:"学习,并且时常进行实习,不是很高
从空间视角研究许渊冲古诗词英译的特点,通过对中国古诗词空间表达和英文译本的分析,以及不同译本的对比研究,从"空间方位提示"、"意象空间链接"、"实景和心境的空间转换"和"客观物
<正>2009年8月21日,全国首批临床心灵关怀学员的结业典礼在湖南省肿瘤医院办公楼六楼学术会议厅举行。香港临床牧关、教牧辅导教育协会的董事们,林锦涛会长,姚镜鸿博士,湖南