即时差分策略迭代算法

来源 :中国运筹学会第七届学术交流会 | 被引量 : 0次 | 上传用户：nyjnju

【摘要】

：

本文考虑平均准则模型马氏决策过程的一种改进的策略迭代算法:即时差分(TD:Temporal-Differences)策略迭代法.通过引入所谓即时差分的概念,将传统的策略迭代算法的策略赋值步

【作者】

：

胡光华殷英李世云

【机构】

：

云南大学数学系(云南昆明)文山师专(云南文山)

【出处】

：

中国运筹学会第七届学术交流会

【发表日期】

：

2004年10期

【关键词】

：

马氏决策过程平均准则即时差分迭代算法

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

本文考虑平均准则模型马氏决策过程的一种改进的策略迭代算法:即时差分(TD:Temporal-Differences)策略迭代法.通过引入所谓即时差分的概念,将传统的策略迭代算法的策略赋值步改进为近似策略赋值,相当于将值迭代算法与策略迭代算法进行了折中.最后对所给的TD策略迭代算法的收敛性进行了讨论.

其他文献

非凸非线性规划一个全局收敛的可行内点算法

利用ε-有效集策略,建立了一个处理非线性不等式约束优化问题的内点算法.该方法每次迭代通过求解两个线性方程组得到迭代方向,再沿该方向作一次线性搜索,而且每次迭代都在可

会议

不等式约束优化ε-有效集凸组合内点法全局收敛可行方向法

慈溪市中小学校食堂用盐及8～10岁儿童碘营养状况调查分析

目的了解慈溪市中小学校食堂用盐及8～10岁儿童碘营养状况,确保我市地方病防治专项三年攻坚行动计划的顺利完成.方法对慈溪市142所中小学校食堂用盐采样进行碘含量检测,学校

期刊

儿童碘营养学校食堂

杠杆融资企业的技术创新采用决策研究

假定未来随机出现的技术创新会造成现有新技术价值的下降,给出新技术价值估计和采用决策模型,进而分析杠杆融资是企业的创新投资决策.研究结果表明,财务危机和融资约束会延缓

会议

实物期权技术创新财务危机创新投资决策决策模型

改进的有限内存BFGS算法的二次终止性质

二次终止性质是一般拟牛顿法的一个重要性质,但为求解大规模优化问题而设计的有限内存拟牛顿法却不能都保持这样良好的性质.本文针对满足修正拟牛顿方程的有限内存BFGS方法加

会议

拟牛顿法二次终止性质有限内存大规模优化问题

碘与甲状腺疾病的关系

碘是人体中必须微量元素之一,作为合成甲状腺激素的主要原料,在人体的生命活动中发挥重要作用.人体内碘主要从饮水及食物中获取,碘的摄入量不仅对甲状腺激素的合成与分泌有至

期刊

碘甲状腺碘缺乏碘过量

大中型“无人值班”(少人值守)水电厂的设计

对大中型“无人值班”(少人值守)水电厂设计中应遵循的原则及应考虑的各类重要技术问题进行了综合阐述,并提出了相应的意见和建议,供同行们在设计中参考。 On the large and

期刊

无人值班水电厂厂房设计综合自动化设备安全计算机监控系统自动化元件监控级设计过程水电厂自动化综合系统

含有线性和非线性等式约束非线性规划问题的一种降维乘子算法

本文以线性等式约束二次规划的降维算法为基础,利用迭代方法求解含有线性和非线性等式约束的非线性规划问题.用Lagrange乘子法,将非线性约束部分和目标函数构成增广的Lagrang

会议

增广Lagrange函数降维方法二次规划线性等式约束非线性规划

限制性输血策略对膝关节置换术患者预后状况的影响研究

目的探讨限制性输血策略对膝关节置换术患者预后状况的影响.方法选择2017年1月至2018年1月期间本院骨科住院部收治的择期行膝关节置换术患者142例作为研究对象.根据不同的

期刊

限制性输血策略膝关节置换术预后状况

术前肺功能锻炼对难治性肺结核肺切除术预后影响分析

目的进一步探究分析术前肺功能锻炼对难治性肺结核肺切除术预后的影响.方法选择2016年9月至2019年3月在医院因难治性肺结核需肺切除的患者42例为研究对象,对其进行术前肺功

期刊

呼吸锻炼肺功能难治性肺结核肺切除术预后

基于支持向量机方法的同源寡聚蛋白质分类

本文用支持向量机方法从蛋白质一级结构出发区分同源二聚体、同源三聚体、同源四聚体和同源六聚体.蛋白质原始序列的子序列分布用作支持向量机的输入向量,从而充分考虑了蛋白

会议

支持向量机方法同源寡聚蛋白质一级结构子序列分布同源三聚体原始序列结构信息输入向量四聚体六聚体二聚体实验识别工具分类

即时差分策略迭代算法

其他学术论文