基于相位谱重构联合幅度谱估计的语音增强算法研究

来源 :太原理工大学 | 被引量 : 0次 | 上传用户:zsz520
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
语音增强的目的是从含噪语音中尽可能的恢复出干净语音,提升语音的感知质量和可懂度,从而使接收方收听更加舒适和准确。语音增强常使用短时傅里叶变换(STFT)将时域信号转换到频域中进行处理,然而人们通常仅关注频域中幅度信息而忽视了相位信息,这主要是因为相位卷绕(phase wrapping)导致相位谱非结构性分布,使之难以估计和重构。但近年来研究表明相位信息能够有效提高语音性能,因而对于相位信息的估计和重构在语音增强中是一个重要的问题。同时,如若仅增强相位信息的话,虽然能够抑制噪声信号,但是会引入语音失真的问题。针对以上提出的问题,本文主要研究基于语音相位谱重构的方法以及幅度谱联合相位谱估计的语音增强算法。本文主要工作包括:(1)简单介绍了语音增强的研究意义以及国内外研究现状,同时探究了常见的语音特性,深入研究了相位对语音增强的意义。讨论了基于深度学习的语音增强算法框架和增强步骤,以及几种经典的语音增强训练目标。此外介绍了基于多目标神经网络的学习框架和在本研究中的应用。(2)针对目前很多基于深度学习的语音增强算法无法处理高度非结构化特性的相位谱的问题,提出了一种改进的相位谱补偿语音增强算法。该算法联合信噪比(SNR)改进了传统的相位谱补偿(PSC),能够根据语音能量变化灵活的对噪声相位进行抑制,提高了传统PSC算法在非平稳噪声下的去噪性能。此外使用多目标神经网络,将幅度谱掩蔽和改进的PSC算法作为训练目标,进行联合估计。并将增强结果通过客观评价,评价得分证明改进的算法能够有效的提高语音的质量和可懂度。(3)针对传统相位比算法结构单一,无法有效针对非平稳含噪语音的问题,提出了一种基于浊音谐波相位比的相位重构方法。研究证明有效的增强浊音段语音能够提升该算法在非平稳噪声下的性能,同时浊音段具有清晰的谐波结构,有利于区分噪声信号。该算法首先提出了基于线性预测编码(LPC)的清浊音分类方法,能够在准确率上优于传统方法提取浊音段,然后将浊音段结合谐波模型提取谐波相位计算其相位比,最后联合语音频谱,重构相位得到增强语音。改进的相位比算法较传统算法,提升了在非平稳噪声下的性能,同时提高了在女性说话人下的去噪稳定性。此外本方法具有普适性,为了解决仅增强相位时造成的语音失真问题,提出联合幅度谱估计的相位比语音增强算法。通过多目标神经网络联合估计幅度谱掩蔽和改进的相位比,经过训练得到的增强语音在语音质量和可懂度得分上,均优于传统算法的表现。
其他文献
随着模式识别和机器视觉技术的不断发展,行人属性识别在智能视频监控场景显示出巨大的潜力。人们迫切的希望获取视频中有关行人更多的特征,例如外貌特征、性别特征、年龄特征等。目前大多数行人属性识别方法都只关注行人的整体特征,忽略了对行人细粒度特征的识别和局部特征的提取,而且因为视角的变化和行人姿态的改变,一些语义组件之间会发生不同程度的空间偏移,给行人属性识别带来了许多困难。针对行人属性识别中存在的问题,
2019年中国GDP总量达到了13.6万亿,人均可支配下收入达到了30733元。随着中国经济发展持续向好,国民收入的不断提升,人民消费能力逐渐增强,保健品行业需求自然会日益增强;经济总体水平的提高带来了中高端产品需求的飞速上升,消费群体日益庞大;我国当前人口年龄分布较前些年发生了很大的变化,一些常见慢性疾病发生率也在不断提升,亚健康国民人数也一直在增高,这也在一定程度上令消费者提高对保健产品消费,
针对机场道面积冰厚度预测问题,建立了降雨过程中的热量平衡模型,分析在空气温度、湿度、风速、降雨量四个气象因素与道面材料影响下的道面积冰生长规律。根据正交实验表进行
我国作业水文预报一直沿用确定性的点估计预报形式,忽略了水文预报过程中广泛存在的不确定性因素,导致决策者无法获悉预报风险信息,基于确定性预报作出的决策从风险层面而言
水库工程关系国民经济和社会发展,在社会发展的经济和社会效益巨大,也极大地稳定了国民经济的持续发展。但水库工程建设项目规模大,占用土地面积较多,一些大型水库工程运作过程会影响周边环境,影响人们生活与工作,这就需要对项目所在地居民进行移民。因工程移民范围大,建设周期长、投资大、涉及部门多、人员复杂,并具有非自愿性,因此又会产生各种问题,引发各种风险,它包括经济、社会、政治、环境等方面。如不能妥善地安置
双层股权结构是股权结构设计中的一个热点问题,在企业进行融资过程中,设计相应股权结构可以让企业家继续掌控公司控制权,让企业家精神得以在企业延续下去。近年来,学者们开始
背景:早产儿脑白质损伤(white matter damage,WMD)是儿童脑瘫和智障的主要原因之一,目前仍无特效疗法。少突胶质前体细胞(Oligodendrocyte Precursor Cells,OPC)是中枢神经系
近年来,行人导航定位系统在全球范围内有着巨大的市场需求,我国也在全力以赴推动室内外导航定位技术的发展,但多数导航定位系统依赖于专业设备支撑,价格昂贵,且在复杂环境中(
黄土高原地区广泛发育流滑型滑坡,如陕西泾阳南塬、甘肃黑方台地区等,该类滑坡发生具有突发性、高速远程性等特点,往往影响范围大、破坏性强,严重威胁当地人民生命财产安全。
D-塔格糖因其独特的生理功能作为功能性甜味剂用于食品药品等行业。塔格糖的化学生产法因反应速度快,转化率高,已实现工业化生产,但副产物多且反应过程中强酸强碱的使用对环境压力大,使得专一性高、没有副产物、对环境友好的酶法逐渐成为研究热点。使用L-阿拉伯糖异构酶将乳糖水解生成的D-半乳糖转化为D-塔格糖。已有研究中,水解与异构反应多分为两步进行,且中间产物糖缺乏利用,也增加下游纯化难度。为缩减生产周期、