基于强化学习的多智能体协同机制研究

来源 :浙江工业大学 | 被引量 : 0次 | 上传用户:zhezhe_1207
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
多智能体系统由多个相互作用的自主智能体(Agent)形成的集合,其研究的核心问题是寻求建立一种有效的协同机制,使功能简单,相互独立的多个Agent通过协商、协调和协作完成复杂的目标任务或解决复杂的问题。强化学习通过与动态环境交互试错进行学习,是机器学习和人工智能领域的重要分支,它摒弃了考虑智能体的任务实现,转而通过奖惩来控制智能体的方式是一个飞跃。本文以强化学习算法为基础,针对大规模、实时、不确定性多智能体协作问题,研究多智能体协同算法框架和算法实现。完成的主要工作和成果如下:1、基于问题的马尔科夫特性,介绍了几种马尔科夫决策过程模型,并针对本文所研究多智能体问题的部分可观性,建立部分可观马尔科夫模型,并将其转换为符合MAXQ-Q求解算法的半马尔科夫模型。2、针对问题的大规模特性,引入MAXQ-Q分层强化学习算法进行问题层次分解,将状态-动作空间巨大、算法复杂度成指数级增长的多智能体问题进行分解,从而转换成递归求解线性小规模半马尔科夫决策问题。3、对于本文所采用的MAXQ强化学习算法中动作-状态搜索空间巨大的策略问题,通过与或图进行策略表示,同时,对于与或图中动作选取、状态转移等问题,结合状态抽象方法进行删减,以尽可能满足足球机器人等协同问题的实时性要求。4、基于上述工作,提出一种新的多智能体协同框架,并在具有大规模、实时、不确定性的Robocup2D足球机器人仿真比赛平台上进行算法实验,在满足实时性和稳定性的情况下,能获得更好的成绩。同时,将算法用于法国Aldebaran公司开发的NAO机器人的协作任务中,从实物实验上进一步验证了其可行性。
其他文献
电子分析天平是高精度质量计量仪器,广泛应用于国防、科研、贸易、化工、医药、电子、冶金等领域,具有称量准确度高、响应速度快、稳定性好、自动校准、操作方便等特点。本文设计的电子分析天平以低功耗单片机MSP430F449为信息处理核心,以24位高精度Δ-Σ型A/D转换器CS5532为信号采集单元,利用数据预处理、非线性校正、温漂自动补偿、智能零点跟踪等技术提高其工作的准确度和稳定性。首先,简单介绍电子分
人脸检测是指通过一定的检测顺序和检测算法搜索目标图像(或目标视频)中是否含有人脸特征,若含有人脸特征则返回人脸的位置信息和大小信息的过程。同时,人脸检测也是人脸识别
随着航空事业的发展,空中机器人以其体积小、成本低、多用途和可复用等特点而备受关注。其中飞行控制系统是空中机器人系统组成中的一部分,是实现其自主飞行的关键技术之一。
由于臭氧在杀菌消毒方面的广泛应用,使得臭氧发生器行业得到了巨大的发展,但单台的臭氧发生器的产量仍然很低,所以自来水厂、污水厂一般为多台同时使用,但是至今为止,还没有
倒立摆稳定控制是一个经典的控制问题。作为典型的快速、多变量、非线性、绝对不稳定系统,一直是控制理论与应用的热点问题,不但是验证现代控制理论方法的典型实验装置,而且其控
随着计算机软硬件技术的不断发展,人们对工业控制自动化的要求越来越高,现有的组态软件的配方在具体的工业应用中过于简单、应用领域过于单一,远远不能满足人们对软件自动化的要
随着经济建设的高速发展,现代化程度的日益提高,城市地下电力管线数目正在逐年增加,结构也越来越复杂。城市地下电力管线管理手段的落后不仅限制了城市电力管线的发展,也引发了诸多安全事故。如何加强城市地下电力管线管理,建立高效的信息化管理平台迫在眉睫。另外,配电网络线路规划包括了变电站的选址和定容、负荷预测及馈线规划等诸多方面,需要在变电站容量、馈线容量、电压降落、网络结构及可靠性等约束条件下,通过减少新
高频地波雷达具有探测距离远、实时性强以及可全天候持续工作等优点,在我国200海里专属经济区内的船只目标探测方面发挥着重要的作用。传统的高频地波雷达目标探测方法为先检
可移动机械臂系统是由可移动平台和固定在移动平台上的机械臂组成的。该系统具有可移动平台广阔的工作空间和机械臂灵活的操作性。针对该系统的研究已有很多进展,考虑到该系
蓄电池均衡充电系统不仅有助于提高蓄电池组工作的效率,增加仪器设备的使用时间,而且有助于提高电池组的安全性,并延长其使用寿命。其中蓄电池串联充的不一致性是迫切需要解决的问题。蓄电池在容量不同情况下进行充电,会出现个别电池因过度充电而出现早期失效的现象,进而导致蓄电池容量损失。电池组串联充电的不一致性还会使电池组中的某些电池提前损坏,寿命大大缩短,这些问题都增加了仪器设备的使用成本。本文介绍了铅酸蓄电