【摘 要】
:
本文对奇异摄动Markov决策过程的优化算法进行了研究。文章介绍了一类基于样本轨道的优化算法,而且该算法的最大的特点是针对于一类具有特殊结构的Markov决策过程.即,奇异摄动M
论文部分内容阅读
本文对奇异摄动Markov决策过程的优化算法进行了研究。文章介绍了一类基于样本轨道的优化算法,而且该算法的最大的特点是针对于一类具有特殊结构的Markov决策过程.即,奇异摄动Markov过程.该过程的状态空间可以分解成为若干个互不相交的子空间的并,这些子状态空间之间的相互转移的概率远远低于每个子空间内的元素之间的转移概率.奇异摄动Markov过程的特点在于它的层次性的结构,第一层次是子状态空间的状态转移,第二层次是子状态子空间之间的转移.Markov决策过程的优化算法中有一类基于仿真的梯度算法.在这一类算法中,首先通过己知的概率转移矩阵,生成一条样本轨道,这里,样本轨道也可以通过实际系统的在线运行得到;这条样本轨道可以看作是摄动过程的状态序列s0,s1,s2,…,sn,…,其中si为摄动Markov过程的状态之一;通过随着时间演化的状态,这一类算法可以得到一系列相对于报酬的梯度的逼近值,经过证明可以知道,这些不断更新的梯度估计值将收敛到理论值.通过最终得到的梯度值,可以用它对参数进行优化,即,通过梯度的方向对参数进行寻优.在这篇文章中,将给出一个基于摄动Markov过程生成的样本轨道的优化算法,在这个优化算法中,不同于以往的算法,并不是在每个状态或是设定的常返状态出进行梯度的更新,而是将每一个子状态空间占据的样本轨道的一段作为一个整体,在子空间转移的时候对梯度进行更新,并且根据更新后的梯度对于参数进行寻优.这样依赖于聚集后的状态空间,可以得到一个更加节省计算量的优化算法。
其他文献
针对传统方法监测城市地质沉陷时存在高程数据偏离较大的问题,提出基于无人机倾斜摄影测量的城市地质沉陷自动监测方法。以无人机倾斜摄影测量技术为基础,配合合理航摄方案采集倾斜摄影测量数据。对测量影像数据进行去躁、增强、纠正处理后,利用MAD匹配算法和区域平差法生成DSM,重叠对比两期DSM数据,提取地质沉陷量。实验结果表明,设计方法较传统方法偏离实际值的高程数据少42.5 mm,表明设计倾斜摄影的沉陷高
为解决电气工程设备自动化启动调试延时过长、调试效果不佳等问题,提出了基于PLC的电气工程设备自动化启动调试方法.通过设置设备启动调试协议,规范设备启动时期的初始数据,
传统电网故障诊断方法不能实现对电网各个节点工作状态的实时监控,导致电网故障诊断时间过长,准确率低.为了解决上述问题,提出基于相量测量单元数据的电网故障诊断方法.以相
传统的高层建筑密度测量方法存在测量精度低、测量时间长等缺点,为此提出基于遥感和GPS的高层建筑密度自动测量。通过GPS对高层建筑区域进行定位,通过脉冲信号获得遥感模拟图像,通过采样和量化实现遥感图像数字化,通过分割算法在遥感数字图像中提取建筑物信息,采用神经元算法将建筑物进行分类,通过程序设置自动计算高层建筑密度,至此完成基于遥感和GPS的高层建筑密度自动测量。从测量误差率和测量时间两方面,对提出
微波阻抗匹配是指微波信号传输过程中,在系统的终端或不同特性阻抗传输线的连接处不产生反射;它关系到系统的传输效率、功率容量与工作稳定性,关系到微波测量的系统误差和测
为了提高医院门诊转账结算风险控制能力,提出一种基于医疗信息化的医院门诊转账结算风险控制方法.提取医院门诊转账结算信息大数据流,采用关联规则挖掘方法进行医院门诊转账
针对变电站繁琐的远动数据对点校核工作,提出一种远动数据自动校核方案.在现有方案基础上设计完整校验闭环,以提升对点测试的完整性;将信号模拟环节由远动网关调整为智能保护
本文对自主移动机器人导航中的定位和避碰方法进行了系统的研究和分析,重点研究了机器人的定位方法。主要内容包括移动机器人的位姿跟踪方法、马尔可夫定位方法、蒙特卡洛定