Distributed multi-agent temporal-difference learning with full neighbor information

来源 :控制理论与技术(英文版) | 被引量 : 0次 | 上传用户:hezefgj
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
This paper presents a novel distributed multi-agent temporal-difference learning framework for value function approximation,which allows agents using all the neighbor information instead of the information from only one neighbor. With full neighbor information, the proposed framework (1) has a faster convergence rate, and (2) is more robust compared to the state-of-the-art approaches. Then we propose a distributed multi-agent discounted temporal difference algorithm and a distributed multi-agent average cost temporal difference learning algorithm based on the framework. Moreover, the two proposed algorithms'theoretical convergence proofs are provided. Numerical simulation results show that our proposed algorithms are superior to the gossip-based algorithm in convergence speed, robustness to noise and time-varying network topology.
其他文献
针对塔司实操考训中存在的问题,分析总结了塔司培训现状,提出了行业需求与解决方案,通过对教学型塔机及新型培训模式的研究与应用,解决了塔机司机培训行业实操培训能耗高、成
  产业结构创新,首先表现为产业结构高级化的转换和演进,即从以制造业为主导到以现代服务业为主导,从劳动密集型为主向知识密集型为主的演进;其次,产业结构创新还包括产业创新。
  本文首先从产业经济理论的视角分析了制定资源产业政策的理论依据和实施资源产业政策的现实作用,然后从新制度经济学有关制度安排的角度阐述了资源产业政策体系的组成,重点
A finite-time consensus protocol is proposed for multi-dimensional multi-agent systems, using direction-preserving signum controls. Filippov solutions and nonsm
  产业政策具有规模激励、边际激励和风险激励功能,政策激励过程是中央政府、地方政府和微观企业之间利益委托代理博弈与寻租过程,产生剩余分配效应、企业投资效应、政策传递
  现代都市果业是将水果产业的功能与布局纳入现代城市发展的新型果业,其不仅是为现代城市供应鲜果,提高市郊从业者的收入,更重要的是还要为城市居民提供休闲度假的场所与空间
  本文将企业学习曲线扩展到一般性社会学习曲线,以此来建立产业政策的理论基础。笔者认为产业政策的目的在于推动经济在某一个行业快速形成学习曲线,形成成本竞争优势。因此
  农业具有多方面的功能,本文重点探讨了农业的生态保护方面的功能。认为农业可以提供农业景观,提高人们的生活质量;作为生态系统中物质循环的重要一环,维持自然生态平衡;提供动
  本文简单介绍了都市农业的内涵及其功能,并通过分析我国都市农业发展的现状和发展需求,着重阐述了都市农业发展中沼气工程的必要性和可能性,说明了沼气工程在都市农业可持续
  都市农业是一种与城市经济、文化、科学、技术密切相关的现代农业,是都市经济发展到较高水平时,农村与城市、农业与非农产业融合形成的一种新型农业.为服务首都发展,发展都