随机平稳策略下半Markov决策过程的仿真优化算法

来源 :控制理论与应用 | 被引量 : 0次 | 上传用户：hwren

【摘要】

：

基于性能势理论和等价Markov过程方法，研究了一类半Markov决策过程（SMDP）在参数化随机平稳策略下的仿真优化算法，并简要分析了算法的收敛性．通过SMDP的等价Markov过程，定义了一个一

【作者】

：

代桂平唐昊奚宏生

【机构】

：

北京工业大学电子信息与控制学院,中国科学技术大学自动化系,合肥工业大学计算机系

【出处】

：

控制理论与应用

【发表日期】

：

2006年4期

【关键词】

：

随机平稳策略等价Markov过程一致化Markov链神经元动态规划仿真优化 randomized stationary polices equivale

【基金项目】

：

国家自然科学基金资助项目（60274012）,北京工业大学博士科研启动基金资助项目（00194）.

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

基于性能势理论和等价Markov过程方法，研究了一类半Markov决策过程（SMDP）在参数化随机平稳策略下的仿真优化算法，并简要分析了算法的收敛性．通过SMDP的等价Markov过程，定义了一个一致化Markov链，然后根据该一致化Markov链的单个样本轨道来估计SMDP的平均代价性能指标关于策略参数的梯度，以寻找最优（或次优）策略．文中给出的算法是利用神经元网络来逼近参数化随机平稳策略，以节省计算机内存，避免了“维数灾”问题，适合于解决大状态空间系统的性能优化问题．最后给出了一个仿真实例来说明算法的

其他文献

《非线性控制系统理论与应用》（第2版）书评

由胡跃明教授撰写的《非线性控制系统理论与应用》一书自2002年由国防工业出版社出版以来，被多个大学院所作为非线性控制相关课程的研究生教材或参考书．在2004年被教育部学位管

期刊

控制系统理论非线性第2版应用书评国防工业研究生教学研究生教育研究生教材出版社

浅谈语文课程工具性与人文性的统一

一、问题的提出：长期以来学术界对语文课程的性质争论不休，六、七十年代我们过于强调语文的工具性，把语文课上成语文知识训练课。课堂上大量的时间是进行字、词、句、段、篇的单

期刊

课程标准人文性工具性语文课程生命观文化观语文教学教学片断

稳定广义预测控制与性能分析

基于已有的一种稳定广义预测控制（SGPC）结构，以参考信号为优化变量对目标函数进行寻优，求出了控制器的滚动最优控制律，该控制律可以无静差地跟踪常数设定值．文中给出并证明了SGPC闭

期刊

稳定广义预测控制广义预测控制稳定性分析stable generalized predictive control generalized predicti

基于STM32的红外热成像测温系统的设计

红外热成像测温是近年来一种新兴的测温技术,和传统的测温方式相比,其具有非接触、运行方便、响应速度快等特点,在军事和民用领域都已得到越来越广泛的应用。该文设计了一种

期刊

红外测温STM32F103图像增强红外热像仪

求解最优潮流KKT系统的一类新模型及算法设计

电力工业的市场化改革对最优潮流（optimal power flow，OPF）的计算精度和速度提出了更高的要求．本文针对OPF模型中存在大量的无功界约束的特性，把一般非线性不等式约束和界约束分开

期刊

最优潮流KKT系统非线性互补函数投影Newton法optimal power flow KKT system nonlinear complementa

应用于洗涤剂工业的高稳定过碳酸钠研究进展

介绍了国外提高过碳酸钠(PCS)稳定性的多种方法,对以洗衣粉为应用目的的采用包覆法提高过碳酸钠稳定性方法进行了较详细的论述.所用包覆材料有无机盐、有机酸盐、可水溶性高

期刊

洗涤剂工业过碳酸钠研究进展洗涤剂助剂漂白剂洗衣粉包覆稳定性detergent auxiliarysodium percarbonatebleac

米糠油酸单乙醇酰胺磺基琥珀酸单酯盐的合成及性能

以米糠油甲酯为原料，采用正交试验法，优化了酰胺化、酯化的工艺，筛选出自制酯化催化剂Ct1，制得了透明、浅褐色的米糠油酸单乙醇酰胺磺基琥珀酸单酯二钠盐（ROMS）溶液。其固体物的质

期刊

米糠油酸单乙醇酰胺磺基琥珀酸单酯盐合成性能阴离子表面活性剂米糠油甲酯anionic surfactantdisodium oleamide monoe

时变不确定系统的变时域离线鲁棒预测控制

给出多包描述约束系统的鲁棒调节器的一种新方法.现有的离线方案离线构造一系列的状态反馈控制律,其中每一个控制律是通过将无穷时域的控制输入固定为唯一的状态反馈控制律而

期刊

鲁棒调节多包描述离线状态反馈律线性矩阵不等式

随机平稳策略下半Markov决策过程的仿真优化算法

其他学术论文