论文部分内容阅读
强化学习是一种在交互过程中学习的计算性方法,是机器学习的重要分支,具有结构简单、泛化能力强等特点,在智能决策、自动驾驶和机器人控制等领域显现出巨大的发展潜力。分层强化学习通过引入options的概念,实现了在多个时间抽象层次上学习、规划和表征知识。分层强化学习方法中的层次结构可以由设计者根据经验来事先设定,也可以使用其他人工智能算法自动发现。如何自动地发现分层强化学习的层次结构以及采用何种策略来完成子任务是分层强化学习需要解决的两个问题。聚类是无监督学习的代表性方法,可以有效地发掘数据的内在结构,在模式识别、图像分割和计算机视觉等领域被广泛使用并取得巨大成功。同时,聚类经常作为其他机器学习任务的前驱过程,在数据处理方面发挥着重要的工具性作用。因此,将聚类用于强化学习框架中有着重要的研究价值。本文的主要研究工作如下:第一,针对任务分层问题,本文提出了一种基于状态聚类的子目标自动发现算法。该算法使用后继表示的方法来表示状态空间,在此基础上使用聚类的方法来发现空间内的关键状态,并将其定义为子目标,实现复杂任务的自动分层。相比于传统的状态聚类法,本文所提出的算法可以获得更加合理的子目标位置,在非对称环境内有更好的表现。此外,不同于传统的依赖状态图寻找“瓶颈状态”的方法,本文所提出的算法具有更强的灵活性。第二,针对子任务的策略生成问题,本文设计了一种新的奖励函数,通过潜在学习过程来获得options内部策略。对于每个不同的option,本文将其指向的子目标的后继表示向量作为一种额外奖励,来指导智能体学习生成option的内部策略。同时,本文还提出一种增量式的算法,交替地进行后继表示构建和options内部策略学习,从而获得更具鲁棒性的分层策略。第三,本文展示了如何将聚类法生成的options应用到强化学习内,并以表格型的算法为例,展示了分层策略对算法的加速效果。实验结果显示,使用本文算法所生成的options在空间中分布合理,可以很好的引导智能体在空间内探索,并大大提高强化学习的收敛速度。