论文部分内容阅读
在嘈杂的室内环境中,听者对特定目标语音的加工会受到周围背景噪声和其他说话人语音的干扰。听觉系统如何从接收到的混合声波中有效地识别和理解目标语音至今尚未得到充分的解释,被称为“鸡尾酒会问题”。为此,很多学者开展了听觉场景分析(Auditory Scene Analysis,ASA)及计算听觉场景分析(Computational Auditory Scene Analysis,CASA)的研究工作,并于近年来提出了理想二值掩模(Ideal Binary Mask,IdBM)方法。IdBM作为计算听觉场景分析努力的目标和方向,是研究计算听觉场景分析的一个重要手段,同时对研究言语可懂度也有着重要的作用。本文基于IdBM方法对言语可懂度机理开展了研究工作,具体内容包括以下四个方面:
1.研究了不同掩蔽条件下,IdBM方法对汉语语音可懂度的影响。实验结果发现,在汉语二说话人掩蔽条件下,利用IdBM方法处理后的语音可懂度的提高幅度最显著,英语二说话人掩蔽条件提高的幅度次之,语谱噪声掩模条件提高的幅度最小。
2.研究了在IdBM处理后语音中加入微小背景噪声方法对可懂度的影响。研究结果表明,加入背景噪声可以提高IdBM方法处理后语音的可懂度。在语谱噪声掩蔽条件下,可懂度提高的幅度为1.5 dB;在汉语单说话人掩蔽条件下,可懂度提高的幅度为3.3 dB;在汉语二说话人掩蔽条件下,可懂度提高的幅度为1.9dB。该方法有效地提高了IdBM方法作为计算听觉场景分析的理想方法所能达到的可懂度上限。
3.基于听觉系统的时间分辨率特点,研究了IdBM方法中时间分辨率对言语可懂度的影响。结果表明,基于多尺度的时间分析方法得到的言语可懂度要显著高于固定时间分析尺度的方法,进一步提高了IdBM方法所能达到的可懂度上限。
4.研究了IdBM方法中的LC(local SNR criterion)值确定问题。研究结果表明,在不同的掩蔽声类型和不同信噪比条件下,LC的最优取值有所不同。
本研究对言语可懂度机理进行了更加深入的探索。同时,所取得的研究成果在自动语音识别、助听器设计及人工耳蜗植入等技术领域中也具有一定的借鉴意义。