Distributed multi-agent temporal-difference learning with full neighbor information

来源 :控制理论与技术（英文版） | 被引量 : 0次 | 上传用户：hezefgj

【摘要】

：

This paper presents a novel distributed multi-agent temporal-difference learning framework for value function approximation,which allows agents using all the ne

【作者】

：

Zhinan Peng Jiangping Hu Rui Luo Bijoy K.Ghosh

【机构】

：

School of Automation Engineering, University of Electronic Science and Technology of China, Chengdu

【出处】

：

控制理论与技术（英文版）

【发表日期】

：

2020年4期

【关键词】

：

Distributed algorithm Reinforcement learning Temporal-difference learning Multi-

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

This paper presents a novel distributed multi-agent temporal-difference learning framework for value function approximation,which allows agents using all the neighbor information instead of the information from only one neighbor. With full neighbor information, the proposed framework (1) has a faster convergence rate, and (2) is more robust compared to the state-of-the-art approaches. Then we propose a distributed multi-agent discounted temporal difference algorithm and a distributed multi-agent average cost temporal difference learning algorithm based on the framework. Moreover, the two proposed algorithms'theoretical convergence proofs are provided. Numerical simulation results show that our proposed algorithms are superior to the gossip-based algorithm in convergence speed, robustness to noise and time-varying network topology.

其他文献

教学用塔机实训模式研究

针对塔司实操考训中存在的问题,分析总结了塔司培训现状,提出了行业需求与解决方案,通过对教学型塔机及新型培训模式的研究与应用,解决了塔机司机培训行业实操培训能耗高、成

期刊

塔式起重机教学型培训模式平臂式动臂式

我国产业结构创新及其政策评价与未来调整

　　产业结构创新，首先表现为产业结构高级化的转换和演进，即从以制造业为主导到以现代服务业为主导，从劳动密集型为主向知识密集型为主的演进；其次，产业结构创新还包括产业创新。

会议

产业结构结构创新政策评价现代服务业可持续发展战略知识密集型劳动密集型结构高级化

制度安排视角的资源产业政策设计

　　本文首先从产业经济理论的视角分析了制定资源产业政策的理论依据和实施资源产业政策的现实作用，然后从新制度经济学有关制度安排的角度阐述了资源产业政策体系的组成，重点

会议

产业政策资源开发制度安排管理体制经济发展战略

Finite-time consensus protocols for multi-dimensional multi-agent systems

A finite-time consensus protocol is proposed for multi-dimensional multi-agent systems, using direction-preserving signum controls. Filippov solutions and nonsm

期刊

Multi-agent systemsNetwork consensusFinite-time convergenceNonsmooth analysis

产业政策激励、产业剩余分配与产业政策效应

　　产业政策具有规模激励、边际激励和风险激励功能，政策激励过程是中央政府、地方政府和微观企业之间利益委托代理博弈与寻租过程，产生剩余分配效应、企业投资效应、政策传递

会议

产业政策政策激励剩余分配社会福利效应中央政府市场自由竞争激励激励因素

对武汉现代都市型水果产业发展的探讨

　　现代都市果业是将水果产业的功能与布局纳入现代城市发展的新型果业，其不仅是为现代城市供应鲜果，提高市郊从业者的收入，更重要的是还要为城市居民提供休闲度假的场所与空间

会议

武汉都市型水果产业现代都市现代城市果业城市生态环境功能与布局

产业政策的信息披露作用

　　本文将企业学习曲线扩展到一般性社会学习曲线，以此来建立产业政策的理论基础。笔者认为产业政策的目的在于推动经济在某一个行业快速形成学习曲线，形成成本竞争优势。因此

会议

产业政策信息披露政府干预企业资源

农业对生态的保护功能

　　农业具有多方面的功能，本文重点探讨了农业的生态保护方面的功能。认为农业可以提供农业景观，提高人们的生活质量；作为生态系统中物质循环的重要一环，维持自然生态平衡；提供动

会议

农业景观自然生态平衡生物多样性物质循环温室效应土壤固碳生态系统生态保护

沼气工程在都市农业中的应用

　　本文简单介绍了都市农业的内涵及其功能，并通过分析我国都市农业发展的现状和发展需求，着重阐述了都市农业发展中沼气工程的必要性和可能性，说明了沼气工程在都市农业可持续

会议

沼气工程都市农业发展农业可持续发展蟹岛度假村运营模式留民营村案例分析生态园

发展都市农业服务首都发展*--北京台湖第五生产队发展纪实

　　都市农业是一种与城市经济、文化、科学、技术密切相关的现代农业，是都市经济发展到较高水平时，农村与城市、农业与非农产业融合形成的一种新型农业.为服务首都发展，发展都

会议

现代都市农业服务首都北京地区生产队都市农业发展农业示范园新型农业

Distributed multi-agent temporal-difference learning with full neighbor information

其他学术论文