一种用于LQR控制问题的强化学习方法

来源 :模式识别与人工智能 | 被引量 : 0次 | 上传用户:kelong18433
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
现有强化学习方法的收敛性分析大多针对离散状态问题,对于连续状态问题强化学习的收敛性分析仅局限于简单的 LQR 控制问题.本文对现有两种用于 LQR 问题收敛的强化学习方法进行分析,针对存在的问题,提出一种只需部分模型信息的强化学习方法.该方法使用递推最小二乘 TD(RLS-TD)方法估计值函数参数,递推最小二乘方法(RLS)估计贪心改进策略.并给出理想情况下此方法收敛的理论分析.仿真实验表明该方法收敛到最优控制策略. The convergence analysis of the existing reinforcement learning methods mostly focuses on discrete state problems, and the convergence analysis of reinforcement learning for continuous state problems is limited to a simple LQR control problem.In this paper, two existing reinforcement learning methods for LQR convergence To solve the existing problems, this paper proposes a reinforcement learning method which only needs some model information.This method uses the Recursive Least Squares TD (RLS-TD) method to estimate the value function parameters and recursive least square method (RLS) Greedy to improve the strategy.And the theoretic analysis of convergence under ideal conditions is given.The simulation results show that this method converges to the optimal control strategy.
其他文献
高校共青团组织是大学生思想引导的重要阵地,担负着让青年学生坚定共产主义理想信念,引导青年学生树立正确的世界观、人生观、价值观,帮助学生全面发展的重要任务.而学生生活
构成创意课程是学生学习设计的基础课程,也是学习设计的转折点。对创意课程提出教学改革措施,能够更好地引导学生学习和掌握这门课程,以适应当今设计领域的发展。 Constitut
在教学中,创设问题情境可以激发学生学习数学的积极性,激励学生进一步探究,是提高教学实效性的有效途径。阐述创设有效问题情境的几种方式,并对其中需要注意的问题进行了说明
一、化学教学活动与化学学习方式的关系化学教学活动是化学教师为了使学生顺利地进行化学学习活动、有效地完成化学学习任务、根据学生的特点和化学教学资源的实际而采取的一
期刊
本文通过对荣华二采区10
期刊
荣获“煤炭工业环境保护先进集体”、“山东省环境保护先进企业”的新汶矿业集团公司,近年环境保护工作又迈出新步伐。rn  为加强对环保工作的领导,公司成立了以总经理为主任
长期以来,关于教师如何当好英语教学中的引导者,从而引导学生轻松愉快地学好英语和如何对待学生英语学习中的错误,一直是英语教师不断探索的难题,下面笔者结合自己的思索探究
期刊
针对立卧转换单主轴铣床在加工过程中,支架受力变形会使刀具偏离理想的加工位置的问题.通过支架受力分析,利用力法原理、力法典型方程、变形体系虚功原理,建立刀具加工位置偏
新课程理念下探索学生学习困难的原因,寻求积极有效的教育对策,转变他们学习的态度,改进他们的学习方法,提高他们学习行为、习惯、方法、心理等方面的适应能力。积极引导学生
邸抄又称邸报,是目前学术界公认的我国最早的古代报纸,现存实物较多.北京图书馆出版社将国家图书馆所藏抄本邸抄影印出版,为学术界提供了珍贵的研究资料.本文通过梳理相关史