随机平稳策略下半Markov决策过程的仿真优化算法

来源 :控制理论与应用 | 被引量 : 0次 | 上传用户:hwren
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
基于性能势理论和等价Markov过程方法,研究了一类半Markov决策过程(SMDP)在参数化随机平稳策略下的仿真优化算法,并简要分析了算法的收敛性.通过SMDP的等价Markov过程,定义了一个一致化Markov链,然后根据该一致化Markov链的单个样本轨道来估计SMDP的平均代价性能指标关于策略参数的梯度,以寻找最优(或次优)策略.文中给出的算法是利用神经元网络来逼近参数化随机平稳策略,以节省计算机内存,避免了“维数灾”问题,适合于解决大状态空间系统的性能优化问题.最后给出了一个仿真实例来说明算法的
其他文献
由胡跃明教授撰写的《非线性控制系统理论与应用》一书自2002年由国防工业出版社出版以来,被多个大学院所作为非线性控制相关课程的研究生教材或参考书.在2004年被教育部学位管
一、问题的提出:长期以来学术界对语文课程的性质争论不休,六、七十年代我们过于强调语文的工具性,把语文课上成语文知识训练课。课堂上大量的时间是进行字、词、句、段、篇的单
基于已有的一种稳定广义预测控制(SGPC)结构,以参考信号为优化变量对目标函数进行寻优,求出了控制器的滚动最优控制律,该控制律可以无静差地跟踪常数设定值.文中给出并证明了SGPC闭
红外热成像测温是近年来一种新兴的测温技术,和传统的测温方式相比,其具有非接触、运行方便、响应速度快等特点,在军事和民用领域都已得到越来越广泛的应用。该文设计了一种
电力工业的市场化改革对最优潮流(optimal power flow,OPF)的计算精度和速度提出了更高的要求.本文针对OPF模型中存在大量的无功界约束的特性,把一般非线性不等式约束和界约束分开
介绍了国外提高过碳酸钠(PCS)稳定性的多种方法,对以洗衣粉为应用目的的采用包覆法提高过碳酸钠稳定性方法进行了较详细的论述.所用包覆材料有无机盐、有机酸盐、可水溶性高
以米糠油甲酯为原料,采用正交试验法,优化了酰胺化、酯化的工艺,筛选出自制酯化催化剂Ct1,制得了透明、浅褐色的米糠油酸单乙醇酰胺磺基琥珀酸单酯二钠盐(ROMS)溶液。其固体物的质
给出多包描述约束系统的鲁棒调节器的一种新方法.现有的离线方案离线构造一系列的状态反馈控制律,其中每一个控制律是通过将无穷时域的控制输入固定为唯一的状态反馈控制律而