论文部分内容阅读
本文对马尔可夫决策过程(Markov Decision Process,简记为:MDP)中概率准则的有关模型进行了综述.概率准则是实际问题中应用的比较广泛的一个重要准则.首先我们给出了MDP的一般构成.并介绍了一些经典的MDP模型,即以期望值为优化目标的期望模型,如有限阶段模型、折扣模型和平均模型等.其次我们介绍了MDP中关于概率准则模型的有关性质和有效算法.最后提出概率准则模型今后可能的研究方向.