论文部分内容阅读
强化学习是机器学习研究的重要方向之一,它可以通过和环境交互来学习马尔科夫决策过程(MDP)问题中的最优策略。部分感知马尔科夫决策过程(POMDP)模型引入了隐藏状态,是状态不确定情形下顺序任务的通用理论模型。本文介绍了以强化学习技术为基础解决POMDP的主要方法,包括基本原理、特点以及算法。此外,本文还实现了三种主要算法,并以迷宫问题为实验平台,比较了这些算法的性能。