论文部分内容阅读
机器学习与数据挖掘是近年来国内外学者与业界人士研究的热点课题之一,其中强化学习作为三大类机器学习算法中的重要分支,逐渐受到了研究者们的青睐与工业界人员的重视。相比于监督学习算法在图像识别、自然语言处理等诸多领域大放异彩而言,强化学习算法作为一种应用于时间序列决策系统的通用框架,其优化潜力远未挖掘,理论研究远未完善,工程应用远未展开。这固然与强化学习相对监督学习理论更加复杂、适用场景特质更加迥异、实现方式更加多变等方面有关。但更重要的原因是决策系统设计者缺乏对各种强化学习算法的统一认识,也忽略了各种序列决策任务性质的不同,甚至将强化学习与其他类型算法孤立看待,放弃了提升强化学习性能的有效途径。这些因素共同导致了基于强化学习算法设计出的序列决策系统常常存在训练缓慢、目光短浅、行为反常等共性问题,致使系统难以达到设计者预期效果,更无法成功作用于工程应用。因此如何针对不同任务的特点,有效利用交互信息设计时间序列决策系统,具有重要的理论意义与广阔的工业应用价值。本文针对多种性质不同的时间序列决策任务,采用机理模型、数据驱动、模糊规则和特征提取等方法,分别研究了在已知智能体交互机理、已知智能体交互数据以及智能体交互模型不可知的多种情形下时间序列决策系统的设计和具体应用案例。通过分析决策任务中新增奖励信号序列的获取方式,按照由表达式生成、由历史数据推断以及无法获得奖励信号序列,分别采用基于模型方法、数据驱动方法和无模型方法,以最大化长期回报的期望值为设计目标,通过选取合适的强化学习算法与合理的奖励函数定义,给出相应的时间序列决策系统设计方法。这类设计方法包含以下几个特点:第一,决策系统可以对先验知识进行嵌入,减小了训练开销,提升了实际决策效果;第二,所设计的决策系统在训练结束后进入应用阶段,系统参数固定,只需要做单次前向计算,具有效果稳定、易于部署以及实时性好等特点;第三,针对三种不同情形的时间序列决策系统设计方法并不局限于各自所给出的应用案例,针对不同性质的决策任务,提出的设计方法具有通用性,可以应用于决策对象迥异而奖励信号获取方式相近的各种应用场景。本文的主要研究贡献包括:1.提出了一种强化学习的信息观点,将强化学习中不同类型的算法从相同的角度进行描述。在传统强化学习观点中,不完全强化学习方法、基于值函数强化学习方法、基于策略强化学习方法以及反向强化学习方法分别代表了不同的基本观点。而使用信息观点可以将多臂老虎机、蒙特卡罗方法、时间差分方法、自举方法、适迹法、Actor–Critic方法和反向强化学习方法等算法进行统一描述。这种统一观点有助于理解表面上大相径庭的各类算法的本质区别、找出不同算法的普遍共性,也能方便地比较算法对交互信息的依赖程度。2.针对智能体交互机理已知的时间序列决策任务,提出了一套通过目标分解和模糊推理的知识嵌入奖励函数的设计方法。该方法以非线性、连续状态空间为研究对象,以无人船自主避障和无人船逃逸追踪为应用实例。通过机理建模,建立起研究对象的动态过程,搭建基于机理模型的交互训练平台,从而产生充足的经验样本。根据任务实际需求,分别设计子目标势函数进行奖励塑形。综合子目标分解方法引入模糊推理手段,将人工知识嵌入进强化学习系统,有效提高智能体学习性能。此外知识库可以按需要进一步扩展,具有扩展性好、可解释性强、工程背景直观等优点。3.针对智能体交互机理未知,但交互信息容易获得的时间序列决策任务,提出了一套基于时间序列分析框架的深度强化学习决策系统设计方法。该方法以数据量庞大、机理分析复杂、安全考虑难以在线学习的非线性系统作为研究对象,以大型火电站锅炉机组燃烧优化任务为背景,通过分布式控制系统采集数据,构造系统动态模拟器。使用卷积神经网络将不同属性数据在空间上进行整合,结合使用循环神经网络对系统在时间序列上的变化规律进行学习,对动作向量进行编码,以离散型强化学习算法对决策器进行训练。所设计的决策系统适合于机理难以掌握,但经验样本数据易于获得的场景。为基于数据驱动的时间序列决策任务提供了易于工程实现的解决方案。4.针对智能体交互模型未知,且无法通过交互信息预测状态的时间序列决策任务,提出了一套基于无模型持续性时间序列决策系统的设计方法。该方法以环境模型未知、状态转移难以预测以及决策持续进行的应用场景为研究对象,以互联网广告的实时竞价任务为背景,通过概率分布视角,将片段性决策纳入持续性决策框架下;使用策略初始化方法实现知识嵌入,优化智能体探索范围,提升算法学习速度;使用辅助势函数缓解奖励信号的稀疏性;通过可微半梯度算法求解决策任务。所设计的决策系统不依赖于对环境模型的充分认识,不局限于决策序列的区间长度,能够从更长远角度进行优化,而不过分计较某一段时间内的得失,从而带来更持久的综合效益。