基于掩蔽效应的小波包语音增强

来源 :华南师范大学 | 被引量 : 0次 | 上传用户:ydaf9ta7
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
语音增强就是从含有噪声的语音信号中提取出有用的语音,从而增强带噪语音的听觉质量的一种技术,是语音处理技术中一个重要和热门的研究方向。语音增强可以分为单通道和多通道两种,通常所说的语音增强是在单通道条件下进行的,即无法直接获取环境的噪声,只能通过带噪的语音中估计噪声能量。因此如何有效估计噪声成了语音增强中一个关键同时也是比较困难的的问题。传统的噪声估计是利用前几帧的语音从而得到噪声,然而这样的估计值具有不稳定性和较大的误差,近年来出现的小波变换技术由于其自身拥有多分辨率分析和多尺度分析等优点,使得语音和噪声在小波变换下具有不同的特性,从而将语音和噪声进行很好的分离,它不需要对噪声进行估计,从而减少了估计的误差,因此本文选用了小波变换来作为语音增强的工具。小波包变换是在小波变换基础上提出来的,它具有时频联合局部化分析的能力。与小波相比,小波包通过对小波中没有分解的高频段迸一步分解,提供了一种更加精细的分析方法,同时根据信号的特征,可以进一步分解出满足人耳听觉的模型,因此它更适合于来分析非平稳的信号。  本文首先阐述了小波变换和小波包变换的基础理论以及基于它们的语音增强算法的原理。通过讨论这些方法,总结基于小波去噪的一般性的步骤以及方法,进而提出本文的语音增强算法。在小波包去噪过程中,有三个关键的步骤:小波基的选取,小波阈值的求解以及小波函数的选择。本文主要从这三个方面进行讨论。  小波基的选取上,使用了基于Bark刻度的小波包分解,由于实验中语音的采样率为8KHz,其最大带宽为4KHz,因此总共有17个Bark刻度带。首先对带噪语音进行五层的小波包变换,根据Bark刻度频率带的分布修正分解树,使得其满足分解模型人耳听觉模型,实验中证明基于Bark刻度小波包频率分布图和人耳听觉分布图能够很好的吻合。同时由于在同一个Bark刻度下各频率语音人耳是统一分析的,而不同Bark刻度的频率之间的差异显著增加,因此该分解模式也使得各个信号子带间的相关性减小,有利用语音和噪声之间的分离。  小波阈值的求解上,常用的阈值是通用固定阈值,由于噪声的多变性,因此采用固定阈值的小波包去噪将会造成语音的失真,本文利用人耳掩蔽效应以及噪声的强度来自适应的调整通用阈值,实验证明了本文提出的阈值比通用阈值的去噪效果更加明显。入耳掩蔽效应是指两个强度不同的声音同时作用在人耳上,强度较大的声音掩蔽强度弱的声音。利用这一思想,本文算法步骤为首先计算通用的阈值;计算每一个子带的噪声掩蔽阈值;利用小波系数相关性计算每个子带的噪声能量;最后通过修正函数对通用阈值进行求解。  小波函数的选择上,针对传统的软、硬阈值函数存在的问题,提出了新的阈值函数。该函数综合了软、硬阈值优缺点,软阈值函数重构后的语音平滑性较好,但是小波系数与真实语音小波系数存在恒定的偏差,造成语音的失真;硬阈值函数能较好还原原始语音,但是在阈值点处不连续,本文使用的阈值函数使得阈值化后的小波系数介于软、硬函数之间,实验证明该函数去噪的效果得到增加,减少了语音的失真。
其他文献
数字水印技术作为信息隐藏领域的一个热点,在数字信息的版权保护方面有其不可替代的作用。随着网络的繁荣,各类数字产品爆炸式的增长,社会上对数字产品的版权保护也越来越受重视
学位
学位
学位
学位
随着我国科研水平的提高,良好的学术环境变得日益重要,同时伴随着互联网的迅速发展,学术领域的数据在无限扩大,大量的学术资源数据分散于各种会议网站、学术社交平台及各类期刊杂
学位
随着模型预测控制越来越多地被应用到工程实践中去,人们对预测控制的研究也更加深入和全面。时滞对象的控制问题和控制系统故障处理方法一直以来都是研究的热点,本文对预测控制
学位
随着科技文献资源的爆炸性增长,科技研究人员一方面受益于信息的便捷性和丰富性,另一方面颇受“信息过载”问题所带来的困扰。如何更高效地检索资源、分析挖掘文献资源中的语义