基于十字形麦克风阵列的实时语音定位系统

来源 :北京大学 | 被引量 : 0次 | 上传用户:bbyyqq555
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近些年随着人机接口和智能人机交互技术的发展,智能机器人技术逐渐成熟,尤其是服务型机器人逐渐走向家庭。与此同时,由于机器人的运动路径的不确定性、噪音以及混响的干扰,并且针对语音定位及麦克风阵列模型的简便易携带等需求的日益提高,使得移动机器人的语音定位技术面临极大的挑战。   针对这种情况,本文在实验室自主研发的智能交互机器人“鹏鹏Ⅱ”的平台上从四麦克风构成的十字形平面麦克风阵列出发,对动态环境下的机器人语音定位进行了研究。首先搭建实验平台,确定麦克风阵列模型的参数及属性;然后结合空间环境的特性提出谱减法和倒谱均值归一化相结合的去噪算法;接着提出基于广义互相关.改进相位转换加权函数的算法(GCC-PHAT-ργ)和指导性谱分割技术计算麦克风对的到达时间差的算法;最后采用几何定位法计算声源的位置。本文的主要工作在于:   (1)针对移动机器人运动时产生机体噪音的特点,提出谱减法和倒谱均值归一化相结合的去噪算法;   (2)提出广义互相关函数相位转换改进加权函数算法;   (3)为消除语音源通过墙壁和机器人身体等障碍物产生的混响,提出指导性谱分割技术,结合(2)获得的定位结果和信噪比将频率片分割进行分别加权,获得锐化的互相关函数峰值,即时间差。   (4)将机器人语音定位与语音识别、全方位视觉跟踪和举手检测结合,形成一个多功能的移动机器人系统,并用“捉迷藏”的游戏验证了系统的可靠性、鲁棒性和高效性。   本系统共完成2936组实验,即使在噪音和混响比较严重的环境中,仍然有超过2800组实验取得良好的定位结果。利用指导性谱分割技术有95%以上的实验数据最终定位角度误差控制在15°以内。同时算法的实时性好,基于四个麦克风阵列的实验数据平均每次语音定位时间小于0.4s。
其他文献
内网信息安全的实质是对内网信息流和数据流进行全生命周期的有效管理,确保信息的保密性、可用性、完整性、可控性和不可否认性。现有的内网信息安全技术大多依赖于内部网络
近年来,国内外学者对不确定数据流的聚类问题进行了大量的研究,但仍有不少问题尚待解决。大多数不确定数据流聚类算法不能在线得到精确的聚类结果;现有算法采用固定划分网格
随着科技水平的发展和社会信息化程度的提高,生物特征识别技术已经逐渐深入社会的各个领域,成为人们生产、生活中不可或缺的环节。自动指纹识别,作为生物特征识别中的研究最
21世纪是一个以网络为核心的信息时代,全球数字化、网络化、信息化发展日益凸显。目前Peer-to-Peer网络因在分享资源方面的独特优势而被广泛应用,但由于自身的分布式和自组织的
Android作为当前最流行的移动设备开发平台,从推出开始就受到了开发者与用户的一致好评与推崇。而随着近一段时间大家对于应用程序安全、个人隐私关注度的逐步提高,Android系统
在当今Web2.0的环境下,社会化媒体从最近几年的时间中得到长足的发展,从国外的多种多样的基于社会网络的媒体内容分享网站的兴起,到国内类似网站的成长,社会化媒体,已经深深
计算机视觉的目标在于使得计算机可以像人类一样具有感知与处理外界视觉信息的能力。摄像机作为计算机视觉获取外界视觉信息的基本、甚至可以说唯一手段,在计算机视觉研究中
随着Internet的发展和普及,搜索引擎已经发展的比较成熟,利用搜索引擎在网络上搜索信息成为越来越多用户的选择。但是对于一般用户而言,面对着呈指数级增加的网络信息,想要快速、
虚拟植物研究是基于植物结构模拟技术和图像表达技术,以植物形态结构动态变化规律为研究重点,建立基于三维空间的植物形态模型,并以可视化的方式来表达植物形态结构的生长变化动
Lmaze系统是在P2P文件共享系统Maze基础上重新构造的系统,它的目标是为了解决Maze系统在持续开发过程中遇到的可扩展性问题。在Lmaze开发过程中形成了跨平台的Lunar库,它对网