基于数据的自适应动态规划最优控制与微分博弈研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:ff303
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
自适应动态规划(adaptive dynamic programming,ADP)可以解决传统动态规划中的“维数灾难”问题,已经成为智能控制与计算智能领域最新的研究热点.ADP是一种具有自学习和优化能力的智能控制方法,在求解复杂非线性系统的最优控制问题中具有极大的潜力.然而很多实际系统通常具有高度的非线性、未知的动态特性、模型的不确定性等,难以建立精确的数学模型.因此,研究基于数据的控制与优化方法在理论上和实践上都有重要价值.本文在综述当前研究现状的基础上,以现代控制理论、机器学习、博弈论等为主要工具,研究基于数据的ADP理论和方法,以解决模型未知的非线性系统最优控制与微分博弈(零和博弈与非零和博弈)问题.本文的主要贡献包括以下四个方面.  1.对于非线性离散时间系统最优控制问题,从理论上分析了当迭代过程中存在近似误差时ADP方法的收敛性,并分别建立了近似值迭代、近似策略迭代和近似乐观策略迭代三种ADP算法的误差边界.理论结果表明尽管每步迭代过程中存在近似误差,近似值函数仍可以收敛到最优值函数的有限邻域内.然后将该结果推广到了基于Q函数的ADP方法中,从而提出了基于数据的迭代ADP方法.最后给出了基于多层前馈神经网络的实现方法以及仿真验证.  2.针对状态连续、控制离散的模型未知系统最优控制问题,提出了基于流形正则化的无模型近似策略迭代方法.采用了无监督的流形正则化特征学习方法从离线数据中自动学习值函数近似结构的基函数,然后将学到的基函数用于L2正则化最小二乘策略迭代算法,并给出了算法性能分析.该方法能够学习状态空间的内在结构信息,避免了人工设计特征的问题,并能够给出直接的基函数扩展.最后在倒立摆平衡控制和能源存储优化问题中验证了所提方法的有效性.  3.研究了模型未知的连续时间系统零和微分博弈问题,提出了基于数据的无模型积分策略迭代ADP算法来在线学习纳什均衡解,给出了算法的收敛性分析,并给出了基于线性参数化结构的实现方法以及仿真验证.该方法不对未知系统进行辨识,仅仅利用在线测量数据,并且同时更新值函数、控制策略和干扰策略.最后将该结果推广到了非线性连续时间系统零和博弈问题.  4.研究了模型未知的连续时间系统多人非零和微分博弈问题,提出了基于策略迭代的在线同步近似优化学习方法.证明了求解非零和博弈的策略迭代与拟牛顿迭代是等价的.采用了模型神经网络在线辨识未知系统,并证明了神经网络权值的收敛性.对于每个参与者,采用了评判神经网络和执行神经网络分别近似其值函数和控制策略,但仅需要调整评判网络的权值,从而降低了学习过程中的计算复杂性,并采用Lyapunov方法证明了闭环系统的一致最终有界稳定性.
其他文献
该文运用神经网络来解决火力发电生产过程的辨识问题,并在前人工作的基础上,深入研究了神经网络控制的若干问题.第一章概述了人工神经网络的原理和特点,以人工神经网络在辨识
本文从软件工程的角度上系统地讨论了东方汽轮机厂的分供方资信评价系统。从该系统在东方汽轮机厂的CIMS工程中的地位和重要性出发,详细讨论了该系统的需求分析、程序设计以及
该文首先介绍了交通控制信息系统的原理以及系统的发展、现状和趋势,并提出了一个网络化的交通控制信息系统的设计方案.在此基础上,重点阐述了在此系统中的两个关键技术的实
该文根据此类系统的行为可以在其工作点附近用低阶ARX模型近似的特点, 提出一种系统运行区域的模糊划分方法,利用这种方法,可以通过ARX模型的非线性组合达到对系统 非线性行
该文针对循环流化床锅炉的特性,应用模糊控制算法的特点,提出了一种新的模糊控制方法.该方法采用两级模糊控制系统,较低一级用于模糊控制,较高一级用于参数的整定及规则的自
该文针对显像管防爆带安装质量的自动测量问题,应用光学测距及图像识别原理,研制开发成功"Z点自动检测机",解决了彩虹显示器件股份有限公司74CM纯平彩管生产线防爆工序Z点参
地理信息系统(GIS)是一门新兴的边缘学科,它集计算机科学、地理学、测绘遥感学、环境科学、城市科学、空间科学、信息科学和管理科学为一体.该文进行了以下3个方面的研究工作
学位
随着可拍照移动智能终端的大范围推广使用和互联网的迅猛发展,人们能够接触到的图像和视频呈现出快速的增长。如果计算机可以自动地理解图像和视频包含的高层次语义信息,就可以
本论文旨在论述对供应链管理(SCM)技术及其决策支持系统(DSS)所进行的研究和设计开发工作。作者从信息技术集成与支持的角度,着重研究供应链管理决策支持系统的信息支持基础结
学位