【摘 要】
:
近距离场景下的语音识别已经达到了令人满意的结果,但是由于受到噪声和混响等因素的影响,远距离场景下的语音识别依然具有很大的挑战性。和单路麦克风相比,麦克风阵列波束形
论文部分内容阅读
近距离场景下的语音识别已经达到了令人满意的结果,但是由于受到噪声和混响等因素的影响,远距离场景下的语音识别依然具有很大的挑战性。和单路麦克风相比,麦克风阵列波束形成已经成为远场下语音智能获取与识别的重要组成部分。深度神经网络因其具有强大的建模能力,在语音识别领域中已展现出巨大的优势。因此,基于波束形成与深度神经网络的远距离语音识别成为近些年来人们的研究热点。论文以麦克风阵列和深度神经网络相关算法为基础,描述了远距离语音识别的基本理论,阐述了语音识别基本流程,分析了如何利用波束形成进行语音增强,详细描述了语音识别现阶段采用的两大类声学模型,即DNN-HMM声学模型和端到端的声学模型,以及语音识别解码的基本算法。在此基础上,论文展开了在远距离场景下结合语音增强进行语音识别的方法研究。针对传统方法将语音增强和语音识别作为两个独立过程分别处理的情况,论文给出了两种改进方案。考虑到在噪声和混响环境下多通道互相关系数信息鲁棒性更强,论文首先提出了一种基于改进波束形成器网络的远距离语音识别方法,该方法采用多通道互相关系数信息作为波束形成器网络的输入特征来估计MVDR波束形成器参数。该方法在提高原算法识别性能的同时,降低了运算复杂度,减小了系统训练时间。其次,论文提出了一种基于注意力机制声学模型的远距离语音识别方法,该方法将语音增强网络和语音识别模型作为一个整体进行联合处理,并将基于注意力机制网络的语音识别扩展到远距离的场景。仿真结果表明,该方法可以提升系统的识别性能。
其他文献
研究目的:骨血管分布密集且广泛,在骨的生长发育中,骨血管不仅提供必需的氧和营养物质,而且通过调节各种骨细胞和血管细胞间的相互作用,为骨形成提供必要的刺激信号。局部血
电网系统是国家重要的基础设施和民生工程,在国计民生方面发挥着重要作用。而保护设备是整个网络中的重要基础设施,其部件多,结构复杂,负荷影响大,是电网设备的薄弱环节。对
传统的信号采样理论奈奎斯特定理指出,只有在采样频率高于两倍的信号最高频率时,才能完全不失真的恢复原信号。压缩感知理论以全新的视角,给出了解决问题的理论方法,利用信号
人工智能领域近年来得到了快速的发展,这得益于计算机处理能力的提升以及先进的机器学习算法。因此,在许多使用传统算法难以解决的问题,使用人工智能算法都逐步地被解决。一
近二十年来,有机电致发光器件(OLED)由于其视角宽、节省能源、材料来源多且环保、质量轻薄、可制备大尺寸柔性弯折显示等众多的突出优点,引起了学术界与制造界的高度重视,被
随着神经网络理论的提出及其不断发展,它已经给人类的科学技术,及其对自然的认知带来了很大的影响。忆阻器是除了电感器、电阻器、电容器之外的四种基本无源电子元件之一,是
无线传感器网络已广泛应用于军事、医疗、环境监测等多个领域。两层传感器网络作为传统无线传感器网络的延伸和发展,因其良好的可扩展性、有效的能耗和空间节省、高效的查询
集成电路规模的飞速增长,使得集成电路功能复杂度日益提升,一方面为信息技术产业带来了生机和活力,另一方面也产生了许多问题和挑战。集成电路的功能正确性是这些问题和挑战
计算机I/O总线连接丰富的各类I/O设备,是实现计算机I/O连接及外部扩展的关键技术。随着I/O设备性能的持续攀升,计算机系统总线已从传统的ISA、PCI等共享介质总线发展至基于点
嵌入式系统是一种专用的计算机系统,通过裁剪、结合软硬件的资源,可以满足用户各项性能指标的要求,包括功能需求、可靠性、成本、能耗、体积等等。在嵌入式系统设备中,有一种