【摘 要】
:
追捕逃跑问题是研究多智能体协调与合作的理想平台,在多机器人系统上实现追捕过程具有较大的挑战性,这项研究涉及到动态环境下的实时知识处理、无线通信、多机器人控制与协作
论文部分内容阅读
追捕逃跑问题是研究多智能体协调与合作的理想平台,在多机器人系统上实现追捕过程具有较大的挑战性,这项研究涉及到动态环境下的实时知识处理、无线通信、多机器人控制与协作,实时动态路径规划等多学科的知识。本文以多个追捕者追捕单个逃跑者问题为背景,研究四个追捕者之间通过学习进行合作与协调并将一个逃跑者抓获。强化学习的特点是无监督学习和在线学习,通过感知环境状态信息来学习动态系统的最优策略,通过试错法不断与环境交互来改善自己的行为,且不要求对环境有先验知识,是一种可以应用到实时环境中的在线学习方式,因此在智能控制领域得到了广泛而深入的研究。强化学习中较为经典的学习算法有Watkins提出的Q学习方法和Sutton提出的TD(时序差分)学习方法。随着机器人数目的增多,状态空间呈指数级增长,因此,强化学习的速度会明显下降。为了解决这种维数灾难问题,研究者引入了分层强化学习的概念并提出了一些有效的方法。比较典型的分层强化学习包括HAM、MAXQ和Option方法。Option方法以其灵活性和易于设计的特点受到研究者的青睐,因此本文将分层强化学习中的Option方法应用于多机器人围捕领域,取得了很好的效果。仿真实验表明,Option方法无论是从学习速度上还是围捕质量上都明显优于Q学习。
其他文献
电子邮件的兴起伴随着垃圾邮件的产生,随着互联网的普及和发展,电子邮件成为人们日常工作和生活中必不可少的交流方式,甚至已经成为文件和文档进行快速传输的主流载体。而垃
无线传感器网络(Wireless Sensor Network,WSN)是由具有传感功能和无线通信功能的设备自组成形成的无线网络系统,其用途就是通过广泛分布的传感器节点将采集到的数据发送给观
进入21世纪以后,计算机几乎涉及了所有领域。目前,我们人类期望能够使用计算机及相关设备对人的视觉进行一种模拟。同时由于近些年多媒体技术飞速发展,导致视频采集十分便利,
随着计算机图形学的发展,以实时图形渲染为基础的虚拟现实技术已经应用在越来越多的领域。在虚拟的场景中加入真实感的地形可以极大的提高系统的沉浸感,LOD是大规模地形渲染
随着三维激光扫描仪等三维数据获取技术的发展,三维模型建模技术己成为研究热点。基于点云和网格表示的三维模型广泛地应用于计算机辅助设计,虚拟现实,可视化等领域。三维模
机器学习、信号、图像处理、计算视觉中会出现高维数据,高维数据不仅增加算法的计算时间和内存需求,同时也因“维数灾难”降低算法的有效性,高维数据中常会潜藏着一个低维结
随着网络的飞速发展以及社交媒体的广泛应用,使得人与人之间的联系尤为密切。这种错综复杂的关系组成一个庞大的社交网络,因此吸引了众多学者致力于复杂网络的研究,从复杂网
本文针对纸质出版物版权认证和保护的需求,对半色调数字水印算法及其在实际应用过程中抵抗硬拷贝攻击的技术进行了研究,提出了行之有效的抵抗硬拷贝攻击的数字水印算法。本文
作为企事业单位政务工作中非常重要的一部分,公文处理耗时耗力,手工处理方式在时效性和正确性方面有着很大的弊端。信息化技术在公文处理方面的应用可以使其工作效率和结果准
由于来自于网络的信息具备信息量大、信息来源复杂等特点,人们在查找自己需要的信息时,已经习惯使用搜索引擎作为信息筛选的工具。传统的主要查询模式有目录查询、关键词查询