基于自适应动态规划的多智能体系统一致性方法

来源 :中国地质大学 | 被引量 : 1次 | 上传用户:sunna2005
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
多智能体系统一致性控制通过智能体间的交互使所有的智能体的状态或输出达到一致,是多智能体系统中最重要的问题之一。根据系统中领航者的数量,多智能体系统一致性控制可以分为无领航者的一致性控制、一个领航者的领导—跟随一致性控制以及多个领航者的包含控制。传统的一致性控制方法仅要求系统的稳定性,没有考虑系统的最优性,并且需要知道系统的模型信息。在实际环境中,系统的模型大多数是未知的或者难以建立精确的机理模型,限制了传统一致性控制方法的应用。自适应动态规划方法(Adaptive dynamic programming,ADP)是一种具有自学习能力和优化能力的智能控制方法,能够有效地解决系统模型未知情况下的优化控制问题,在求解模型无关的多智能体系统最优一致性控制问题中具有极大的潜力。本文结合ADP方法对模型未知情况下多智能体系统最优包含控制、领导—跟随最优一致性控制以及异构多智能体系统最优输出一致性控制展开研究。此外,还研究了影响ADP方法性能的关键因素—评价网络的设计方法,以促进ADP方法在模型未知情况下多智能体系统一致性控制中的应用。本文的主要研究工作和取得的成果如下:(1)模型无关线性多智能体系统最优包含控制方法传统的多智能体系统包含控制方法需要已知多智能体系统的模型信息,并且未考虑系统的最优性。本文提出一种基于执行依赖启发式动态规划的分布式自学习控制方法,以实现无模型的多智能体系统最优包含控制。通过设计局部邻域包含误差将包含控制问题转化为关于局部邻域包含误差的调节问题。针对该调节问题,定义了包括局部邻域包含误差、跟随者控制输入以及邻居跟随者控制输入的局部Q函数。提出了基于局部Q函数的值迭代方法以解决该调解问题,并对值迭代方法的收敛性进行了分析。采用基于多项式回归的评价—执行网络框架来逼近最优局部Q函数和最优控制策略,以便于该方法的实现。理论分析表明,逼近得到的最优控制策略实现了包含控制,并满足全局纳什均衡。相比于已有的包含控制方法,所提方法不仅能使系统保持稳定,还能保证系统的最优性。(2)非线性多智能体系统领导—跟随最优一致性控制方法一般地,非线性多智能体系统最优一致性控制方法依赖于求解非线性耦合的Hamilton-Jacobi-Bellman(HJB)方程。传统的采用ADP方法进行耦合HJB方程逼近求解时,需要系统的模型信息。针对这一问题,结合定义的局部Q函数,提出基于局部Q函数的策略迭代ADP方法逼近求解耦合HJB方程,实现模型未知离散时间非线性多智能体系统的最优一致控制。从理论上证明了策略迭代ADP方法的收敛性。同时,构建了用于实现最优一致性控制的基于神经网络的评价—执行网络框架以逼近最优局部Q函数和最优控制策略。所提方法不需要已知系统的模型信息,也不需要采用系统建模方法,提高了一致性控制方法的工程适用性。(3)部分可观环境下线性异构多智能体系统无模型最优输出一致性控制方法传统的输出一致性控制器的设计依赖于完全可观测的状态量和精确的系统模型。为克服这些问题,本文提出仅利用可测量的输入/输出数据的基于Q函数的ADP方法,该方法无需知道系统模型信息。首先,采用无模型的自适应分布式观测器,将最优输出一致性控制问题转换为分布式最优跟踪控制问题。为解决最优跟踪控制问题,构建了包含跟随者系统和领航者系统的增广系统。然后,针对系统内部状态不可观的问题,利用可观测的历史输入/输出数据构建状态表示向量对系统内部状态进行表示,并从理论上对所提的状态表示方法的合理性进行了证明。为实现模型未知情况下最优跟踪控制问题的求解,结合状态表示向量定义了Q函数,提出了基于Q函数的值迭代ADP算法以逼近最优跟踪控制策略和最优Q函数,同时对算法的收敛性进行了分析。所提方法仅使用可观测的历史输入/输出数据,实现了部分可观环境下模型未知线性异构多智能体系统最优输出一致性控制。(4)基于高斯过程回归的双阶段值迭代评价网络设计方法ADP是实现模型未知情况下最优控制的有效方法,其中评价网络设计在ADP方法中起着重要作用。由于高斯过程回归具有泛化能力强、易于配置等特点,在评价网络的构建中得到了广泛的应用。然而,高斯过程回归方法的超参数需要根据经验预先设计,可能误导基于高斯过程回归的方法从错误的超参数假设空间开始学习,进而影响值函数的逼近。针对这一问题,提出基于高斯过程回归的自适应评价网络设计算法,该算法从两个阶段,即值函数逼近和超参数优化,同时进行评价网络的更新。采用随机逼近理论对所提算法的收敛性进行了证明,并得到了保证学习过程收敛的充分条件,指出算法的收敛性主要取决于两阶段学习率的设计。最后通过仿真实验讨论了两阶段更新的必要性,验证了算法的可行性。同时,将所提算法应用于多智能体系统最优一致性控制中,验证了算法的有效性。所提方法消除了根据先验知识选择超参数对评价网络设计的影响,能使学习到的值函数更加准确,促进了ADP方法在模型未知情况中的应用。
其他文献
上海市耀龙路桥主桥为主跨152 m下承式钢箱提篮系杆拱桥。以该桥为背景,介绍了系杆拱桥先拱后梁法的施工过程以及施工控制方法,为类似工程提供参考。
利用现有的喷砂机并设计了专用喷枪嘴对毛细管内壁进行喷砂处理,从而解决了大型发电厂百万级铜排内壁的氧化问题.介绍了喷砂工艺及其相关的设备.
弗吉尼亚·伍尔夫是英国现代著名小说家、批评家和文学编辑。她终生致力于小说写作的形式与技巧的研究。在小说创作实践中追随英国最重要、最有影响的小说家詹姆斯·乔伊斯(JamesJoyce
有不少公众认为,日本是垃圾分类和循环利用的领先国家。其实这是一种错觉。事实上,日本大多数城市奉行的是“可燃垃圾”和“不可燃垃圾”的基本区分。2013年的统计数据显示,日本
报纸
地理国情监测除了要培养人才掌握遥感、测绘、地理信息相关知识之外,还需要面临新的任务需求,和遥感信息工程专业相比,还需要培养动态测绘的专业人才。本文从地理国情监测专
由于目前高校科技成果转化没有充分发挥市场对于科技成果、技术方向、技术路线等的导向作用,使得科技成果无法摆脱“魔川—死谷—达尔文海”噩梦,从技术到产品再到市场,每一步都
报纸
该音乐盒仅用三个元件组成,其线路简单易作,操作使用方便,只要一打开盒盖,它便发出美妙动听的音乐声,关上盒盖后其音乐声自动停止。 电路原理见附图所示。IC是一种音乐集成电
针对标签特有特征和标签相关性的有效利用,提出了一种新的多标签算法LSFLC,它可以有效地集成标签特有特征和标签相关性。首先,对于每个标签,通过重采样技术生成新的正类实例
静电纺丝是一种常见的连续生产纳米级纤维(直径在几微米到几纳米)的技术。它是将纳米纤维制成各种结构形式,如非织造织物膜、取向纤维束及三维结构支架的最常用方法。这些材
花色与色素苏焕然(哈尔滨师范大学生物系,150080)栾宏#(黑龙江富裕县教委)1色素的种类花色和色素的种类都非常多,科学家把各种色素分成类胡萝卜素,类黄酮和花青素三大类。类胡萝卜素是含有红