多智能体系统中的Q学习算法研究

被引量 : 0次 | 上传用户:kikwolf
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着人工智能技术和计算机科学的发展与进步,分布式人工智能等技术应运而生,并在过去的20多年中获得快速发展。多智能体系统(MAS)是分布式人工智能的一个重要分支。MAS技术主要研究一组自治的智能体在分布式开放的动态环境下,通过交互、合作、竞争、协商等智能行为完成复杂的控制或任务求解。强化学习是解决智能体系统寻优问题的有效工具。强化学习中的Q学习算法是现在研究的最多也是应用最广泛的学习算法。本文对多智能体系统中的Q学习算法的学习效率、状态空间的复杂度以及对复杂环境的适应能力进行了研究,提出了一些改进的方法并以人工智能中经典的围捕问题作为仿真环境,具体的研究工作如下:首先,针对Q学习算法中存在重复学习且学习效率不高的现象,本文提出了在过程中共享经验的学习算法。Q学习是一种无监督的在线学习,对环境的先验知识不作要求。也正因如此智能体需要花一定的学习时间来了解这些先验知识。多智能体Q学习的一个特点是学习过程中的一切都是联合的,包括:联合动作、联合状态和联合奖惩。这些都会增加学习时的搜索量和计算量,并且增加状态空间的维数。针对这些问题本文提出了在过程中共享经验的Q学习算法。在该算法中智能体不再是基于联合动作、联合状态和联合奖惩,而是单独学习,阶段性地分享经验。该算法模拟人类的团队学习方法,既有共同的目标,又有自己要完成的任务,定时地互相分享经验。从仿真实验中可以看到较好的学习效果,学习效率明显优于标准Q学习算法。其次,针对复杂的学习环境本文提出了多奖惩标准的学习方法。现实应用中的环境远比理论的要复杂,多智能体Q学习算法必须能够适应这种复杂多变的学习环境。针对这一问题,本文采取的方法是将复杂的学习环境细分,每一个小的学习环境都有自己对应的奖惩标准和在这一小环境中要实现的目标。这样就可以针对这一环境的特点设计出适合这一环境的奖惩标准,高效地完成阶段目标。在仿真实验中,我们采用较复杂的三维围捕问题,提升了围捕的难度和环境的复杂度,实验表明,基于多奖惩标准的Q学习算法能够高效地完成学习任务,较好地适应复杂的环境。
其他文献
目的探讨老年高血压患者合并抑郁状态与血5-羟色胺(5-HT)和白介素-6(IL-6)水平及性别的相关性。方法老年高血压患者260例,男134例,女126例。患者通过汉密顿抑郁量表(HAMD)、
目的探讨胃管置入及护理干预在无创正压通气患者应用的临床效果。方法选择2011年1月至2013年12月在我科住院的Ⅱ型呼吸衰竭患者共计90例随机分成2组,每组45例,对照组用常规治
辽、金、元时期是汉语与阿尔泰语接触最为广泛的时期,汉语受阿尔泰语的影响是客观存在的,其中复数词尾"们"用于指示代词"这(的)/那(的)"之后、指物名词之后、与确定数目并用
17世纪英国诗人约翰·多恩和乔治·赫伯特的神学诗展现出不同的宗教体验,前者给人带来焦虑恐惧,后者充满温情仁爱。本文比较两位诗人笔下上帝的差异性,指出多恩的上帝是无声
目的:探讨腹部手术切口感染中应用湿性辅料换药的护理效果。方法:选择张弓镇中心卫生院自2012年10月至2013年10期间收治的腹部手术切口感染患者40例,将其平均分为观察组和对
西方女性主义译者通过增补、批注、劫持等"重写"方式,试图通过翻译提高妇女的社会地位,对翻译理论产生了深远的影响。女性主义翻译理论本身的局限性,决定了女性主义翻译理论
以《中国国际私法示范法》为中心 ,结合世界国际私法的发展趋势及我国国际私法的立法现状 ,面对中国加入WTO后的经济、法律环境 ,对《中国国际私法示范法》进行分析 ,并提出
为了明确语境对广告语篇的重要意义,避免因忽略语境因素而导致的误译,采用文献研究与例证分析相结合的方法,依据功能语言学理论,系统地剖析了影响广告语篇的语言语境、情景语
目的:观察2型糖尿病(T2DM)并发脑梗死患者血清缺血修饰白蛋白(IAM)、C反应蛋白(CRP)水平变化,探讨其与脑梗死灶体积的关系。方法:采用酶联免疫法(ELISA)和免疫比浊法分别检测