自适应动态规划及其在多智能体中的应用

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:cd21love
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着科技的发展,人们对控制系统的性能提出了越来越高的要求,这就要求控制科技工作者不仅仅要保证系统的稳定性,同时还要求其最优性,最优控制越来越受到研究学者的关注。实际工业中存在大量非线性系统,这些复杂系统难于建立机理模型。与此同时,随着传感、通信等信息技术的广泛应用,这些复杂系统每天都会产生和存储着大量的在线和离线数据。因而,如何通过基于数据的控制理论来解决复杂系统的建模、优化与控制,已经成为控制理论界研究的热点问题。自适应动态规划(adaptive dynamic programming,ADP)在现代控制理论和机器学习理论基础上,是一种具有自学习能力和优化能力的智能控制方法。本文主要研究基于数据的自适应动态规划理论及其在多智能体中的应用,研究问题包括如下几个方面:  1.本文研究了模型部分未知的确定性非线性系统的在线最优控制问题。传统的策略迭代和值迭代算法需要已知系统的模型,同时是一种离线的控制器设计方法,需要大量的计算,不适合实时控制系统。针对模型部分未知的确定性非线性系统,本文提出一种在线最优控制方法,通过辨识-评判-执行神经网络结构同时完成模型辨识,值函数近似以及策略提升。三个神经网络的权重是同步进行更新的,因此比传统的离线ADP收敛更快,最后利用Lyapunov方法证明闭环系统的状态以及各神经网络的权值误差最终一致有界。  2.本文研究了基于在线强化学习的随机系统自学习控制。本文采用无模型GP-SARSA算法,在有限步的“试错”过程中系统能迅速自我学习。算法利用高斯过程良好的泛化性兼具一定的概率意义,根据模型在线数据用高斯回归过程近似Q函数。考虑到Q函数的数值稳定,传统Q-学习常常发生震荡,本文采用DelayedQ函数算法,用双Q函数结构保证了值函数的稳定性。  3.本文研究了基于ADP的多智能体一致性问题。将传统线性多智能体一致性问题转化成最优控制问题,通过Riccati不等式设计反馈控制律,然而控制器中的参数和当前通信拓扑结构是相关的。但是实际应用中拓扑结构往往事先未知,尤其在切换拓扑的情况下。同时考虑到系统常常受到噪声的干扰,本文提出一种自适应的多智能体跟踪控制方法,控制参数可以根据当前智能体和邻居之间的状态误差自适应更新,并给出了算法的收敛性分析。同时将ADP扩展到多智能体中,对每个智能体分别定义性能指标函数,在合作博弈理论的框架下,采用广义策略迭代算法求解耦合HJ方程以获得纳什均衡解。算法采用执行-评判结构,每个智能体均采用神经网络近似其控制策略,并采用神经网络近似其对应的值函数。
其他文献
CCD(电荷耦合器件)广泛应用于光电探测领域。面阵式CCD相机成像技术涉及CCD芯片驱动、模拟与数字电路混合处理设计、视频合成技术、信号处理技术、微功耗电源管理等。其核心
随着商用一米以下分辨率的光学卫星图像的出现(Quickbird,Ikonos),大规模、经常性的地图更新和监测是可负担和实际可行的。在图像处理和计算机视觉领域,人们研究如何从遥感数据
随着以太网技术的迅猛发展,工业以太网在工业控制领域扮演着越来越重要的角色。工业以太网作为一种新兴的网络技术,已在工业系统的管理层和控制层得到广泛应用,并有向下延伸
近年来,随着人工智能的快速发展,越来越多的智能设备进入普通民众的视野,如谷歌的无人车等。这些设备之所以被称为智能设备,是因为它们拥有一套完备的感知、决策和学习未知环境的
光电稳定平台是一类运用在动态环境中的惯性稳定系统。随着工程应用对于空间和体积的限制日趋严格,光电稳定平台对执行机构的需求逐步从直驱式力矩电机向微型齿轮传动电机转
该文选择了最具有代表性的三种结构类型的风力发电机组,对它们的结构方式,运行特点进行对比分析;介绍了建立单机组风力机的一般方法并给出"恒速"型风力发电机组的建模示例;采
炼油工业是关乎我国经济的重要基础工业之一。为确保生产过程能够安全、稳定、持续、高效运行,利用智能在线专家系统对炼油厂进行生产的实时监测及事故预报,对实现安全生产,优化
经过长期的进化,鱼类逐渐演化出较强的适应性和游动能力,并可以完成一系列灵活和复杂的动作。这些特性逐渐吸引了越来越多的学者去研究鱼类的高游速和机动性等特征,并逐渐引入到
视觉是人类获取外部信息最主要的手段。初级视觉皮层对于视觉信息处理有着至关重要的作用。传统观点认为初级视觉皮层是一个结构和功能单一的结构,然而这个观点最近正在被许多
本文以北京市优秀人才培养专项基金、2004国家旅游局中国旅游目的地营销系统为科研任务,在分布式人工智能(DAI)和Agent技术的基础上,以国家旅游局金旅工程为应用对象,对大规模网