多agent协作团队的学习方法研究

被引量 : 0次 | 上传用户:wanghui1234567890
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
多agent技术作为一种分布式人工智能新技术已经迅速渗透到信息社会的各个环节中,多agent学习技术作为多agent技术与机器学习的交叉研究领域,是当前分布式人工智能研究中的一项颇受关注的前沿课题。 本论文以多agent协作团队为研究对象,对多agent协作求解过程进行了研究;利用强化学习的理论以及经验共享和马尔可夫博弈理论的思想,对多agent协同强化学习方法进行了研究:对改进团队协作性能的其他学习方法也进行了探索。 作者完成的主要工作和取得的创新性成果如下: 1.提出了一个适合于多agent协作团队的协作求解框架,并在此基础上实现了一个原型系统MBOS。在协作求解框架中,结合团队工作模型的理论和理性BDI模型的特点,给出了从发起组建团队到结果评价的整个协作求解的过程:在原型系统MBOS的工程实现中,提出了一个AGENTFRAME结构以及相应的多线程并发控制机制和会话管理方法。其中,多线程并发控制机制使得agent能够有效地完成决策和协作任务;会话管理方法包括制定协作协议、协商协议和招聘协议等三种交互协议,采用有限状态自动机细化状态转换过程,以及对于不同的状态转换过程制定相应的消息处理流程,该方法使得agent之间的会话过程能够得到有效的实现。MBOS已经通过了多项应用实例的测试和评估,结果表明AGENTFRAME结构是可行的,基于AGENTFRAME结构的agent能够持续自主地运行,并且能够有效地完成各种推理、协作等智能行为。 2.将强化学习方法引入多agent协作团队的学习过程,提出了一种共享经验元组的多agent协同强化学习方法SE-MACOL。其中,提出了一种基于偶图的多agent协作团队的角色分配算法,该算法通过应用实例验证是明显有效的;提出了一种<状态值,行为值>有序对的知识表示形式,其中的状态和行为是采用类似于欧氏距离的数值形式,采用该知识表示形式可以合并许多相似的状态和行为,从而使得状态行为空间得到了缩减:SE-MACOL算法依据子任务的同构性,采用相似性转换,使得每个agent的经验元组可以为其它agent所共享。作者通过一系列实验对该算法进行了验证,结果表明采用该学习算法之后,团队协作的效率得到了明显提高。 3.提出了一种基于团队马尔可夫博弈的多agent协同强化学习方法TMG-MACOL。其中,提出了一种基于长期得益矩阵的阶段博弈的评估方法,长期得益矩阵可以随着与环境的不断交互和获得环境给予的回报而逐渐收敛至稳定值;提出了一种基于虚拟行动过程的行为选择策略,它可以驱使agent采取最优的行为。作者对TMG-MACOL算法进行了一系列实验,其结果都是收敛的,表明该算法是有效的,实验还对影响稳定值大小和收敛速度的因素得出了有益的结论。 4.针对团队结构和团队运作过程的确定问题对其他学习方法进行了探索。其中,针对团队结构的确定问题,提出了一种适合于多agent协作的基于案例的学习方法,其中设计了由三元组表示的案例结构和案例的相似性计算方法,通过基于案例的学习可以提高团队形成的效率:针对团队运作过程的确定问题,提出了一种基于讨论区的共识学习方法,依国防科学技术大学研究生院学位论文照该算法可以计算得出每个讨论主题的各个信念的信任度并对之进行排序,从而使得信任度最高的信念被所有agent接受为共同信念,该方法有利于统一共同信念,增强团队运作过程的连贯性。 5.以边境空勤任务中的探测与干扰的对抗为军事应用背景,对这一实例应用了本文所提出的多agent协同强化学习方法,有效地解决了这一动态对抗中的协同作战问一题。该应用实例还可以推广到其他活动目标跟踪问题中,能够提高在动态环境中的协作问题求解效率。 本文的研究,深化了多agent协作团队中的关于协作学习的方法与应用的研究,对于提高多agent协作团队适应动态环境的能力,推动多agent学习技术的研究与发展,都具有一定的理论和实践意义。关键词:多agent系统多agent学习协作团队强化学习协作马尔可夫博弈第11页
其他文献
网络教育应用于基础教育是适应科学技术发展的必然趋势,网络教育在基础教育中的应用,有利于缓解我国当前基础教育中的许多矛盾,应用的条件已趋成熟。 本文从我国基础教育的现
搭接技术和线槽对线缆的电磁防护都是工程应用中常见的两种电磁兼容保护措施。电气设备和线缆经常受到环境中的电磁干扰,对电子设备进行射频隔离是一种减小电磁干扰的基本方
<正>在大学生就业领域里,政策引导和落地发挥着至关重要的作用。从2018年各项就业创业政策的出台来看,从中央到地方,各地政策不断深化,有效地助力高校毕业生实现更高质量和更
<正>最近有媒体报道,武汉以学区制改革作为推进全市义务教育优质均衡发展体制机制改革的突破口,将"弱校"与"强校"绑成一个学区,互派校长、教师跨校兼课,整体考核教学质量。党
期刊
朝核危机是当前国际关系与中国外交中的一个焦点问题。朝鲜是中国最重要的邻邦之一,作为一个崛起中的负责任大国,中国高度关注并积极介入朝核危机。朝核问题关涉到中国的大国外
随着我国航天、航空事业的进一步发展,固体润滑技术及轴承的应用迅速扩大。 由于宇宙空间环境非常特殊,轴承将受到高真空、高低温、辐射等诸多因素的影响,常规的油脂润滑已很
教师能否适应新课程改革并主动参与实施新课程是改革能否成功的关键。本论文通过问卷和访谈的方法对大连四区小学教师进行调查研究,目的在于了解已经参加新一轮课程改革的教
大批量定制生产是一种新兴的生产理念,由于产品设计阶段决定了70~80%的产品成本以及80%以上的产品特性,因此大批量定制设计在大批量定制生产中占有举足轻重的地位,各国学者对大批量
目前,国内绝大多数300MW以上大型火电机组都采用了DCS 集散控制系统,使电站自动化应用水平得到了提高,使许多新型高级控制算法的实现成为可能,这些算法在理论上已被证明优于
人类生活在一个现实的世界中,在这个世界中人类认识世界是从感觉器官获取感觉信息开始的。对于艺术创作和艺术设计也是如此。从多种感觉器官获得的多维化信息是生动的、具体