论文部分内容阅读
多智能体系统一致性控制通过智能体间的交互使所有的智能体的状态或输出达到一致,是多智能体系统中最重要的问题之一。根据系统中领航者的数量,多智能体系统一致性控制可以分为无领航者的一致性控制、一个领航者的领导—跟随一致性控制以及多个领航者的包含控制。传统的一致性控制方法仅要求系统的稳定性,没有考虑系统的最优性,并且需要知道系统的模型信息。在实际环境中,系统的模型大多数是未知的或者难以建立精确的机理模型,限制了传统一致性控制方法的应用。自适应动态规划方法(Adaptive dynamic programming,ADP)是一种具有自学习能力和优化能力的智能控制方法,能够有效地解决系统模型未知情况下的优化控制问题,在求解模型无关的多智能体系统最优一致性控制问题中具有极大的潜力。本文结合ADP方法对模型未知情况下多智能体系统最优包含控制、领导—跟随最优一致性控制以及异构多智能体系统最优输出一致性控制展开研究。此外,还研究了影响ADP方法性能的关键因素—评价网络的设计方法,以促进ADP方法在模型未知情况下多智能体系统一致性控制中的应用。本文的主要研究工作和取得的成果如下:(1)模型无关线性多智能体系统最优包含控制方法传统的多智能体系统包含控制方法需要已知多智能体系统的模型信息,并且未考虑系统的最优性。本文提出一种基于执行依赖启发式动态规划的分布式自学习控制方法,以实现无模型的多智能体系统最优包含控制。通过设计局部邻域包含误差将包含控制问题转化为关于局部邻域包含误差的调节问题。针对该调节问题,定义了包括局部邻域包含误差、跟随者控制输入以及邻居跟随者控制输入的局部Q函数。提出了基于局部Q函数的值迭代方法以解决该调解问题,并对值迭代方法的收敛性进行了分析。采用基于多项式回归的评价—执行网络框架来逼近最优局部Q函数和最优控制策略,以便于该方法的实现。理论分析表明,逼近得到的最优控制策略实现了包含控制,并满足全局纳什均衡。相比于已有的包含控制方法,所提方法不仅能使系统保持稳定,还能保证系统的最优性。(2)非线性多智能体系统领导—跟随最优一致性控制方法一般地,非线性多智能体系统最优一致性控制方法依赖于求解非线性耦合的Hamilton-Jacobi-Bellman(HJB)方程。传统的采用ADP方法进行耦合HJB方程逼近求解时,需要系统的模型信息。针对这一问题,结合定义的局部Q函数,提出基于局部Q函数的策略迭代ADP方法逼近求解耦合HJB方程,实现模型未知离散时间非线性多智能体系统的最优一致控制。从理论上证明了策略迭代ADP方法的收敛性。同时,构建了用于实现最优一致性控制的基于神经网络的评价—执行网络框架以逼近最优局部Q函数和最优控制策略。所提方法不需要已知系统的模型信息,也不需要采用系统建模方法,提高了一致性控制方法的工程适用性。(3)部分可观环境下线性异构多智能体系统无模型最优输出一致性控制方法传统的输出一致性控制器的设计依赖于完全可观测的状态量和精确的系统模型。为克服这些问题,本文提出仅利用可测量的输入/输出数据的基于Q函数的ADP方法,该方法无需知道系统模型信息。首先,采用无模型的自适应分布式观测器,将最优输出一致性控制问题转换为分布式最优跟踪控制问题。为解决最优跟踪控制问题,构建了包含跟随者系统和领航者系统的增广系统。然后,针对系统内部状态不可观的问题,利用可观测的历史输入/输出数据构建状态表示向量对系统内部状态进行表示,并从理论上对所提的状态表示方法的合理性进行了证明。为实现模型未知情况下最优跟踪控制问题的求解,结合状态表示向量定义了Q函数,提出了基于Q函数的值迭代ADP算法以逼近最优跟踪控制策略和最优Q函数,同时对算法的收敛性进行了分析。所提方法仅使用可观测的历史输入/输出数据,实现了部分可观环境下模型未知线性异构多智能体系统最优输出一致性控制。(4)基于高斯过程回归的双阶段值迭代评价网络设计方法ADP是实现模型未知情况下最优控制的有效方法,其中评价网络设计在ADP方法中起着重要作用。由于高斯过程回归具有泛化能力强、易于配置等特点,在评价网络的构建中得到了广泛的应用。然而,高斯过程回归方法的超参数需要根据经验预先设计,可能误导基于高斯过程回归的方法从错误的超参数假设空间开始学习,进而影响值函数的逼近。针对这一问题,提出基于高斯过程回归的自适应评价网络设计算法,该算法从两个阶段,即值函数逼近和超参数优化,同时进行评价网络的更新。采用随机逼近理论对所提算法的收敛性进行了证明,并得到了保证学习过程收敛的充分条件,指出算法的收敛性主要取决于两阶段学习率的设计。最后通过仿真实验讨论了两阶段更新的必要性,验证了算法的可行性。同时,将所提算法应用于多智能体系统最优一致性控制中,验证了算法的有效性。所提方法消除了根据先验知识选择超参数对评价网络设计的影响,能使学习到的值函数更加准确,促进了ADP方法在模型未知情况中的应用。