论文部分内容阅读
自适应动态规划(adaptive dynamic programming,ADP)可以解决传统动态规划中的“维数灾难”问题,已经成为智能控制与计算智能领域最新的研究热点.ADP是一种具有自学习和优化能力的智能控制方法,在求解复杂非线性系统的最优控制问题中具有极大的潜力.然而很多实际系统通常具有高度的非线性、未知的动态特性、模型的不确定性等,难以建立精确的数学模型.因此,研究基于数据的控制与优化方法在理论上和实践上都有重要价值.本文在综述当前研究现状的基础上,以现代控制理论、机器学习、博弈论等为主要工具,研究基于数据的ADP理论和方法,以解决模型未知的非线性系统最优控制与微分博弈(零和博弈与非零和博弈)问题.本文的主要贡献包括以下四个方面. 1.对于非线性离散时间系统最优控制问题,从理论上分析了当迭代过程中存在近似误差时ADP方法的收敛性,并分别建立了近似值迭代、近似策略迭代和近似乐观策略迭代三种ADP算法的误差边界.理论结果表明尽管每步迭代过程中存在近似误差,近似值函数仍可以收敛到最优值函数的有限邻域内.然后将该结果推广到了基于Q函数的ADP方法中,从而提出了基于数据的迭代ADP方法.最后给出了基于多层前馈神经网络的实现方法以及仿真验证. 2.针对状态连续、控制离散的模型未知系统最优控制问题,提出了基于流形正则化的无模型近似策略迭代方法.采用了无监督的流形正则化特征学习方法从离线数据中自动学习值函数近似结构的基函数,然后将学到的基函数用于L2正则化最小二乘策略迭代算法,并给出了算法性能分析.该方法能够学习状态空间的内在结构信息,避免了人工设计特征的问题,并能够给出直接的基函数扩展.最后在倒立摆平衡控制和能源存储优化问题中验证了所提方法的有效性. 3.研究了模型未知的连续时间系统零和微分博弈问题,提出了基于数据的无模型积分策略迭代ADP算法来在线学习纳什均衡解,给出了算法的收敛性分析,并给出了基于线性参数化结构的实现方法以及仿真验证.该方法不对未知系统进行辨识,仅仅利用在线测量数据,并且同时更新值函数、控制策略和干扰策略.最后将该结果推广到了非线性连续时间系统零和博弈问题. 4.研究了模型未知的连续时间系统多人非零和微分博弈问题,提出了基于策略迭代的在线同步近似优化学习方法.证明了求解非零和博弈的策略迭代与拟牛顿迭代是等价的.采用了模型神经网络在线辨识未知系统,并证明了神经网络权值的收敛性.对于每个参与者,采用了评判神经网络和执行神经网络分别近似其值函数和控制策略,但仅需要调整评判网络的权值,从而降低了学习过程中的计算复杂性,并采用Lyapunov方法证明了闭环系统的一致最终有界稳定性.