基于听觉理想二值掩模的言语可懂度机理研究

来源 :北京大学 | 被引量 : 0次 | 上传用户:show_me_the_money
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在嘈杂的室内环境中,听者对特定目标语音的加工会受到周围背景噪声和其他说话人语音的干扰。听觉系统如何从接收到的混合声波中有效地识别和理解目标语音至今尚未得到充分的解释,被称为“鸡尾酒会问题”。为此,很多学者开展了听觉场景分析(Auditory Scene Analysis,ASA)及计算听觉场景分析(Computational Auditory Scene Analysis,CASA)的研究工作,并于近年来提出了理想二值掩模(Ideal Binary Mask,IdBM)方法。IdBM作为计算听觉场景分析努力的目标和方向,是研究计算听觉场景分析的一个重要手段,同时对研究言语可懂度也有着重要的作用。本文基于IdBM方法对言语可懂度机理开展了研究工作,具体内容包括以下四个方面:   1.研究了不同掩蔽条件下,IdBM方法对汉语语音可懂度的影响。实验结果发现,在汉语二说话人掩蔽条件下,利用IdBM方法处理后的语音可懂度的提高幅度最显著,英语二说话人掩蔽条件提高的幅度次之,语谱噪声掩模条件提高的幅度最小。   2.研究了在IdBM处理后语音中加入微小背景噪声方法对可懂度的影响。研究结果表明,加入背景噪声可以提高IdBM方法处理后语音的可懂度。在语谱噪声掩蔽条件下,可懂度提高的幅度为1.5 dB;在汉语单说话人掩蔽条件下,可懂度提高的幅度为3.3 dB;在汉语二说话人掩蔽条件下,可懂度提高的幅度为1.9dB。该方法有效地提高了IdBM方法作为计算听觉场景分析的理想方法所能达到的可懂度上限。   3.基于听觉系统的时间分辨率特点,研究了IdBM方法中时间分辨率对言语可懂度的影响。结果表明,基于多尺度的时间分析方法得到的言语可懂度要显著高于固定时间分析尺度的方法,进一步提高了IdBM方法所能达到的可懂度上限。   4.研究了IdBM方法中的LC(local SNR criterion)值确定问题。研究结果表明,在不同的掩蔽声类型和不同信噪比条件下,LC的最优取值有所不同。   本研究对言语可懂度机理进行了更加深入的探索。同时,所取得的研究成果在自动语音识别、助听器设计及人工耳蜗植入等技术领域中也具有一定的借鉴意义。
其他文献
术语抽取是自动知识获取的主要研究课题,在信息抽取、知识表示、信息检索、机器翻译等领域有着广泛的应用。针对中文开展术语抽取相关研究,对中文信息处理的技术和应用发展具
目前交通视频检测技术已成为智能交通系统领域近年来的研究热点,在实际工程中得到越来越多的应用。车辆检测作为交通视频检测的重点和难点所在,占有重要的研究地位和意义。  
现代战争对战场打击效果信息收集的要求迅速提高,弹载侦察相机挂载在导弹上,在导弹攻击目标前夕与弹头分离、拍摄照片实时传回控制中心,比较弹头爆炸前后的图片,能提供有效的战场
本文针对在p2p环境下服务端由普通个人主机充当,无法保障下载者的数据传输体验的问题,提出了基于节点互动的合作下载机制。具体的研究工作如下:   首先,通过对Maze系统运行日
从传统手持设备的存储卡到嵌入式设备的永久存储介质,MMC/SD卡以其体积小、容量大、操作简单的特性被应用在日常生活的方方面面。在北大众志自主设计的系统芯片PKUnity-3上,M
因为互联网的普及与发展,如今已经进入了信息过载的时代,用户没有足够的能力和精力对海量的信息进行鉴别和过滤。个性化推荐技术,能够根据用户的个性化偏好为用户推荐其可能
随着互联网的发展,移动互联网的成熟,用户量不断增大,用户的需求也变得多样化,传统的服务器架构已经不能承受住来自海量用户的并发请求了。本文通过对Nginx服务器进行研究,掌
NAND Flash存储器以其体积小、功耗低、启动快、价格低廉和抗恶劣环境等优点,已被广泛应用于嵌入式领域作为数据存储设备。同时,基于NAND Flash存储技术的固态盘已被看做传统磁
语音增强技术用于减小含噪语音中的噪声干扰,提高语音的质量和可懂度,因此在语音通信、语音识别、助听器等领域具有重要的作用。本文针对语音增强中的噪声估计和噪声去除这两
随着移动通信以及空间定位等技术的融合和发展,移动通信领域中产生并积累了海量的、动态变化的时空数据。这些信息中蕴藏着丰富的用户行为规律。利用数据分析及数据挖掘等技