电话和语音识别系统的语音增强

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:liupu555
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文在电信和语音识别系统中考虑了自适应滤波算法的语音增强和降噪问题。在真实嘈杂的环境中存在这些系统会降低其效率并降低其性能。例如,对于电信系统,背景噪声信号破坏传输的语音信号并使其可懂度和质量降低。对于语音识别系统,它们使测试和训练语音信号之间不匹配。
  过去已经提出了几种单麦克风增强技术,这里将对其进行讨论。这些技术中的大多数基于噪声平稳性的假设,但是在现实生活环境中,该假设未被广泛验证,这使得这些技术通过许多失真影响语音信号。此外,这些技术受到低输入SNR(<=5dB),噪声水平和噪声类型的低性能限制。这些限制导致我们使用第二个麦克风,它允许获得信号特性并使我们摆脱噪声平稳性的假设。然而,两个麦克风的存在提供了两个观察信号。这里的问题是我们如何通过仅使用观察信号来分离两个源信号(语音和噪声)而没有关于源信号的任何先验信息?这个问题在名称盲源分离(BSS)下是已知的,这是语音增强领域中最重要的问题。
  本文首先介绍了关于语音增强技术的历史和文献综述。其次,为了能够加深对于这个领域实际问题的理解,对自适应滤波算法的理论基础进行了详尽的学习与研究。在展示对于创新算法的主要贡献之前,先讲解并分析了三种传统的TM-BSS算法。而研究的创新算法被称为双传声器缩小尺寸简化快速横向滤波器(TM-RSMFTF)算法,是之前提出的经典算法的创新替代方案。该算法是已知前向盲源分离结构与能够减小尺寸和简化快速横向滤波器(R-SMFTF)的自适应滤波算法的结合。
  最后,在不同的条件和情况下进行了数值模拟,结果表明该算法在计算复杂度和分段信噪比,系统失配和分段均方误差等目标指标方面具有良好的性能和有效性。本文还对各种TM-BSS算法进行了比较研究从而得出结论,并提出了今后的工作方向。
其他文献
萌文化起源于日本的“可爱文化”和“御宅文化”,在日本有着深厚的思想文化基础,并得到了长足的发展。萌文化进入中国之后,起初只是作为一种青年亚文化在御宅族内部和年轻网民之间传播流行,后随着传播媒介的发展,萌文化逐渐走进了大众的视野,被越来越多的普通大众熟知和喜爱,并发展成为一种拥有新内涵和意义的大众流行文化。  萌文化在发展演变的过程中形成了纯真可爱、轻松愉悦、亲切和谐等审美特征。在当代中国,萌一方面
学位
自清华简2008年7月入藏清华大学以来,至今已有十余年,引领了一阵学术研究的热潮,很多学者都投身於简文的整理和释读工作,涌现出了众多研究成果。《清华大学藏战国竹简(壹)》(以下简称:《清华简(壹)》)保留了先秦文献特别是《尚书》类文献的原始形态;内容丰富,极大程度复原了楚国历史面貌、地理环境和人文风情;提供了古文字和古文献研究的珍贵材料。词汇作为汉语中最活跃的部分,对於简帛词汇的研究也是其中最为重
学位
转录因子Foxg1在神经发育过程中发挥重要作用,其突变导致FOXG1综合征,患者表现为严重的社交和认知障碍等。以前对Foxg1的功能研究主要集中在发育阶段。由于Foxg1也强烈表达于生后至成年的神经元中,提示Foxg1在有丝分裂后及成熟神经元中也可能发挥重要作用。线粒体是真核细胞的主要供能器官,调控众多细胞生命活动。线粒体在不同类型细胞以及细胞不同的生理状态下呈现出不同的形态特征,而这种形态变化对
株高是水稻的重要农艺性状,决定了水稻的抗倒伏能力、理想株型和产量。鉴定挖掘并有效利用矮秆新资源,深入研究调控引起水稻矮秆的分子机制,将有助于加快水稻高产育种进程,为分子设计育种改良水稻株型提供理论指导。本论文以水稻组培过程产生的小粒矮秆突变体small grain and dwarf2(sgd2)为研究材料,对sgd2的表型进行了鉴定,通过图位克隆分离到一个影响水稻生长发育的关键因子SGD2,并对
学位
细胞周期蛋白依赖性激酶(CDKs)和许多其它蛋白质控制着植物细胞周期的进程,在真核细胞周期的调节中起主要作用。CDKs的活性可被一些称为KRP(kip相关蛋白)的细胞周期蛋白依赖性激酶抑制因子所抑制。据报道,在叶片发育过程中KRP1会导致细胞数目减少,同时也会显著降低种子的灌浆充实度。此外,KRP1参与细胞核DNA复制及籽粒灌浆有丝分裂终止的调控过程。  为了进一步阐明KRP1的功能,实验室构建了
学位
本文介绍了催化剂应用于汽车尾气排放控制的发展过程和催化反应理论知识。采用新的合成方法和新的配方,制备了包括Cu-ZSM-5、Cu-TS-1、贵金属催化剂和全铂催化剂在内的多种用于柴油机尾气NOx控制的催化转化陶瓷。考察了催化剂在柴油机实际尾气环境下对NO的催化转化性能和耐久性情况。分析了多种因素对催化剂催化效率的影响,对NO在Cu-ZSM-5表面的催化反应机理和反应动力学方程进行了分析推导。试验结
学位
对于患有严重听力障碍的人群来说,可以使用人工耳蜗(cochlear implant,CI)实现听力的部分恢复,虽然CI可以帮助听障用户在安静环境下获得高水平的语音理解表现,但在复杂的听觉场景中,CI植入人群对于感知语音往往存在较多的挑战。在实际的收听环境中,听众首先需要解析所有收听到的声音,之后将这些声音分组为不同的听觉流,并有选择地关注感兴趣的声音流。因此,对于听觉流的分离能力,将会严重影响听众
随着对包括高效调制技术在内的复杂无线移动应用的需求不断增加,对支持这些应用的大带宽的需求也急剧上升。然而,带宽资源是有限的。当前联邦通信委员会频谱分配政策仅允许许可用户访问频谱。但事实证明,当前许可频谱在时间和频率上的使用效率低下。因此,提出了无执照的二级用户概念,他们临时从现有的一级许可用户处租借频谱来提高频谱利用率,即从“频谱池”中租借频率。该项技术是基于动态频谱接入的(DSA),被称为认知无
随着社会信息化程度的不断深化使得对于通信网络的吞吐量及、时延及连接数等性能要求越来越高,这也驱动着通信基础设施及用户设备的持续更新,通信技术也日新月异。其中,大规模多输入多输出(Massive MIMO: Multiple Input Multiple Output)系统是第五代(5G)蜂窝通信系统关键技术之一。大规模MIMO可以通过提供大的空间复用和分集增益来提高性能,被认为是未来通信系统提高数
深度学习是基于人工神经网络的机器学习方法的一种。深度学习具有不同的架构,可应用于计算机视觉,语音识别,自然语言处理等领域。首先,我们研究了基于人工神经网络的深度学习模型。另一方面,神经网络是在输入和输出层之间具有多个层的深度神经网络。这些深度神经网络用于计算机视觉。深度学习具有很强的学习能力,可以从数据集中提取特征。在这些深度神经网络中,一个网络称为卷积神经网络。图像分类是机器学习中的一个重要问题