一类多目标强化学习方法的研究

来源 :南京理工大学 | 被引量 : 0次 | 上传用户:ihwren
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
多目标学习控制方法具有很强的工程应用背景。近年来,基于多目标强化学习求解多目标学习控制问题已成为国际学术界关注的一个研究热点。本文研究了强化学习的共性技术、多目标强化学习的系统结构及算法,主要内容如下:  (1)提出了一种基于状态敏感度的自主分阶Q(λ)算法。建立了一种无环境模型和有环境模型学习相结合的强化学习系统结构,给出了一种从无模型学习到有模型学习的自主分阶学习机制,为每个阶段设计了相应的学习模式。基于信息熵的概念,提出了一种新的状态敏感度测度,该测度将状态与任务目标直接相关联,用于引导动作决策机制的设计以及状态空间的自主压缩,自适应地调整“探索未知区域”和“利用已学知识”之间的平衡关系,防止算法陷入局部最优,减少遍历状态空间的代价。仿真结果表明,所提方法能够有效提高学习效率,加快学习速度。  (2)提出了一种协同多目标强化学习算法。建立了一种协同多目标强化学习系统结构,使得算法的一次运行可以得到若干个非支配策略解。设计了子系统之间的协同关系,通过学习经验的共享、选择和分配,使策略解集不断更新和优化,最终逼近Pareto非支配策略解集。提出一种子系统数目可变的学习加速机制,设置子系统新增和灭绝条件,使子系统数目可以根据学习情况不断调整,以减少子系统与环境进行交互的时间成本。仿真结果表明,所提算法能够快速找到多目标问题的一组Pareto最优策略解。  (3)提出了一种基于策略解集多样性维护的协同多目标强化学习算法。给出策略解集的多样性测度定义,利用该测度控制外部存储器的使用,避免在经验积累时对其中精英策略解的过度依赖而使得算法出现早熟现象。分别给出精英策略解和学习片段经验的邻域密度定义,对精英策略解的保留数目加以限制,选择更广泛的优良学习经验,使更新后的策略解集具有更优的多样性。设计了一种Actor-Advice的组合学习机制,通过Q值函数的学习来辅助策略解的学习,以提高算法的学习效率。仿真结果表明,所提算法具有较好的收敛性能和分布特性。  (4)提出了一种基于偏序支配的协同多目标强化学习算法。构造了一种“偏序支配”关系,替代常规的“Pareto支配”关系判断动作或策略解的优劣,分析了两种关系之间的区别。给出了动作的“优势强度”定义,以评估在给定偏好下相对于集合中其它动作的优异程度。按照一种“从高原则”来确定对环境的探索力度,以适当加强对环境的探索,防止算法陷入局部最优。设计了一种基于“偏序支配”的动作决策机制,使得偏序非支配水平较高、优势强度较大的动作被选中的概率较大,引导算法快速找到期望区域的一组解。仿真结果表明,所提算法能够求得满足偏好的一组解,减轻了设计者的后续选择负担。
其他文献
学位
学位
在模式识别领域中,线性鉴别分析是一种最为常见和经典的监督分类方法。自从它的最原始版本早在1936年被Fisher第一次提出之后,迄今为止该领域的学者专家做了大量的改进工作。可
对地观测的大型挠性航天器需要长时间在轨运行,并连续摄像,其姿态控制的精度已成为决定其成像质量的关键因素之一。在轨运行时,为了进行立体成像或对特定目标成像,需要进行大角度
学位
学位
模式识别的目标就是将对象进行分类,大致可分为有监督识别与无监督识别(聚类)。有监督学习中经典方法之一便是鉴别分析方法,本文就有关鉴别分析理论和算法展开深入研究,结合经典的
学位
学位
学位