基于强化学习的时间序列决策系统设计与应用

来源 :上海交通大学 | 被引量 : 1次 | 上传用户:aeo55121890
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
机器学习与数据挖掘是近年来国内外学者与业界人士研究的热点课题之一,其中强化学习作为三大类机器学习算法中的重要分支,逐渐受到了研究者们的青睐与工业界人员的重视。相比于监督学习算法在图像识别、自然语言处理等诸多领域大放异彩而言,强化学习算法作为一种应用于时间序列决策系统的通用框架,其优化潜力远未挖掘,理论研究远未完善,工程应用远未展开。这固然与强化学习相对监督学习理论更加复杂、适用场景特质更加迥异、实现方式更加多变等方面有关。但更重要的原因是决策系统设计者缺乏对各种强化学习算法的统一认识,也忽略了各种序列决策任务性质的不同,甚至将强化学习与其他类型算法孤立看待,放弃了提升强化学习性能的有效途径。这些因素共同导致了基于强化学习算法设计出的序列决策系统常常存在训练缓慢、目光短浅、行为反常等共性问题,致使系统难以达到设计者预期效果,更无法成功作用于工程应用。因此如何针对不同任务的特点,有效利用交互信息设计时间序列决策系统,具有重要的理论意义与广阔的工业应用价值。本文针对多种性质不同的时间序列决策任务,采用机理模型、数据驱动、模糊规则和特征提取等方法,分别研究了在已知智能体交互机理、已知智能体交互数据以及智能体交互模型不可知的多种情形下时间序列决策系统的设计和具体应用案例。通过分析决策任务中新增奖励信号序列的获取方式,按照由表达式生成、由历史数据推断以及无法获得奖励信号序列,分别采用基于模型方法、数据驱动方法和无模型方法,以最大化长期回报的期望值为设计目标,通过选取合适的强化学习算法与合理的奖励函数定义,给出相应的时间序列决策系统设计方法。这类设计方法包含以下几个特点:第一,决策系统可以对先验知识进行嵌入,减小了训练开销,提升了实际决策效果;第二,所设计的决策系统在训练结束后进入应用阶段,系统参数固定,只需要做单次前向计算,具有效果稳定、易于部署以及实时性好等特点;第三,针对三种不同情形的时间序列决策系统设计方法并不局限于各自所给出的应用案例,针对不同性质的决策任务,提出的设计方法具有通用性,可以应用于决策对象迥异而奖励信号获取方式相近的各种应用场景。本文的主要研究贡献包括:1.提出了一种强化学习的信息观点,将强化学习中不同类型的算法从相同的角度进行描述。在传统强化学习观点中,不完全强化学习方法、基于值函数强化学习方法、基于策略强化学习方法以及反向强化学习方法分别代表了不同的基本观点。而使用信息观点可以将多臂老虎机、蒙特卡罗方法、时间差分方法、自举方法、适迹法、Actor–Critic方法和反向强化学习方法等算法进行统一描述。这种统一观点有助于理解表面上大相径庭的各类算法的本质区别、找出不同算法的普遍共性,也能方便地比较算法对交互信息的依赖程度。2.针对智能体交互机理已知的时间序列决策任务,提出了一套通过目标分解和模糊推理的知识嵌入奖励函数的设计方法。该方法以非线性、连续状态空间为研究对象,以无人船自主避障和无人船逃逸追踪为应用实例。通过机理建模,建立起研究对象的动态过程,搭建基于机理模型的交互训练平台,从而产生充足的经验样本。根据任务实际需求,分别设计子目标势函数进行奖励塑形。综合子目标分解方法引入模糊推理手段,将人工知识嵌入进强化学习系统,有效提高智能体学习性能。此外知识库可以按需要进一步扩展,具有扩展性好、可解释性强、工程背景直观等优点。3.针对智能体交互机理未知,但交互信息容易获得的时间序列决策任务,提出了一套基于时间序列分析框架的深度强化学习决策系统设计方法。该方法以数据量庞大、机理分析复杂、安全考虑难以在线学习的非线性系统作为研究对象,以大型火电站锅炉机组燃烧优化任务为背景,通过分布式控制系统采集数据,构造系统动态模拟器。使用卷积神经网络将不同属性数据在空间上进行整合,结合使用循环神经网络对系统在时间序列上的变化规律进行学习,对动作向量进行编码,以离散型强化学习算法对决策器进行训练。所设计的决策系统适合于机理难以掌握,但经验样本数据易于获得的场景。为基于数据驱动的时间序列决策任务提供了易于工程实现的解决方案。4.针对智能体交互模型未知,且无法通过交互信息预测状态的时间序列决策任务,提出了一套基于无模型持续性时间序列决策系统的设计方法。该方法以环境模型未知、状态转移难以预测以及决策持续进行的应用场景为研究对象,以互联网广告的实时竞价任务为背景,通过概率分布视角,将片段性决策纳入持续性决策框架下;使用策略初始化方法实现知识嵌入,优化智能体探索范围,提升算法学习速度;使用辅助势函数缓解奖励信号的稀疏性;通过可微半梯度算法求解决策任务。所设计的决策系统不依赖于对环境模型的充分认识,不局限于决策序列的区间长度,能够从更长远角度进行优化,而不过分计较某一段时间内的得失,从而带来更持久的综合效益。
其他文献
抗战时期,茅盾以一个文化战士的身份坚守在自己的文艺阵地上,以笔为枪,用文艺的形式与日本侵略者及妥协派、投降派展开斗争,在编辑领域取得了骄人的成绩。茅盾在抗战时期编辑
材料是人们一切生产和生活水平提高的物质基础,是人类进步的里程碑,因而对料基础性研究具有十分重要的意义。玻璃纤维\不饱和聚酯基复合材料具有较高的性价比,在我国越来越多
右位心或伴大血管转位是临床上罕见的一种先天性心血管疾病。多是由于妊娠早期母体受到各种理化因素、感染或遗传染色体异常的影响,胚胎时期心血管发育异常或发育障碍造成的先
自上世纪以来,多次核试验、核事故以及核工业生产活动等向环境释放了大量的放射性物质,对全球很多区域的生态环境和人类健康产生了严重的危害和长期的威胁。放射性铯(Radioac
"中国现代管理理论"是辛亥革命以来中国现代化建设中的具有中国特色、风格与精神的现代管理理论体系,是关于中国现代管理实践与理论的归纳、概括与总结,是推进我国经济社会可持
随着社会进入信息时代,新技术手段不断发展,由此以计算机科学为基础的定量方法在语体研究中盛行。相关研究层出不穷,但仍有不少方面值得进一步探究。首先,就研究对象而言,前
镁合金作为最轻的金属结构材料,受到电子、汽车、航空航天等领域的广泛青睐,被誉为“世纪的绿色工程材料”。由于其为密排六方晶体结构,室温下独立滑移少,且传统轧制或挤压镁
虽然以朱熹为代表的宋代理学家们将荀子排除道统之外,且对其“性恶”之说多有批驳,但理学所特有的二元人性论很难说与荀子没有任何关系。因此,从为学观切入,深入挖掘朱熹思想中的荀学,既有助于解除荀子缺席于宋代理学的迷思,也利于更深入全面理解荀子、朱熹的哲学体系。朱熹肯定圣人可学,主张圣人难为,强调通过学礼、积善成就内外兼修、知行相须、德性与事功并重的圣人。这种自外而内的修为方法与荀子相通,而与孟子、陆王强
2002年6月~2003年4月,以陕西省某鸵鸟养殖场商品鸵鸟开发为例进行了商品鸵鸟养殖经济效益统计分析.分析表明,目前陕西省以产肉为主的商品鸵鸟养殖业是有利可图的,其效益比例约
为了减少企业用能的不平衡、不充分,能源管理监控系统为企业的"输、配、用"等方面的监控提供了一个技术手段,帮助企业实现能源局域网的"节能减排降本增效"以及网报政府的目的