论文部分内容阅读
随着人工智能技术和计算机科学的发展与进步,分布式人工智能等技术应运而生,并在过去的20多年中获得快速发展。多智能体系统(MAS)是分布式人工智能的一个重要分支。MAS技术主要研究一组自治的智能体在分布式开放的动态环境下,通过交互、合作、竞争、协商等智能行为完成复杂的控制或任务求解。强化学习是解决智能体系统寻优问题的有效工具。强化学习中的Q学习算法是现在研究的最多也是应用最广泛的学习算法。本文对多智能体系统中的Q学习算法的学习效率、状态空间的复杂度以及对复杂环境的适应能力进行了研究,提出了一些改进的方法并以人工智能中经典的围捕问题作为仿真环境,具体的研究工作如下:首先,针对Q学习算法中存在重复学习且学习效率不高的现象,本文提出了在过程中共享经验的学习算法。Q学习是一种无监督的在线学习,对环境的先验知识不作要求。也正因如此智能体需要花一定的学习时间来了解这些先验知识。多智能体Q学习的一个特点是学习过程中的一切都是联合的,包括:联合动作、联合状态和联合奖惩。这些都会增加学习时的搜索量和计算量,并且增加状态空间的维数。针对这些问题本文提出了在过程中共享经验的Q学习算法。在该算法中智能体不再是基于联合动作、联合状态和联合奖惩,而是单独学习,阶段性地分享经验。该算法模拟人类的团队学习方法,既有共同的目标,又有自己要完成的任务,定时地互相分享经验。从仿真实验中可以看到较好的学习效果,学习效率明显优于标准Q学习算法。其次,针对复杂的学习环境本文提出了多奖惩标准的学习方法。现实应用中的环境远比理论的要复杂,多智能体Q学习算法必须能够适应这种复杂多变的学习环境。针对这一问题,本文采取的方法是将复杂的学习环境细分,每一个小的学习环境都有自己对应的奖惩标准和在这一小环境中要实现的目标。这样就可以针对这一环境的特点设计出适合这一环境的奖惩标准,高效地完成阶段目标。在仿真实验中,我们采用较复杂的三维围捕问题,提升了围捕的难度和环境的复杂度,实验表明,基于多奖惩标准的Q学习算法能够高效地完成学习任务,较好地适应复杂的环境。