基于强化学习的应急任务动态规划研究

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:a9s5c112j6b
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
公共安全涉及到国家重大基础设施和社会安全等领域,是国家安全的基石。然而当前我国却因公共突发事件遭受了巨大损失,严重危害了国家的社会安定和经济发展。公共安全已经成为国家的需要重视的问题之一。应急管理中最重要的任务是面对突发事件时,能够迅速找到相应有效的应对方法。但是突发事件往往具有复杂性、动态性、不确定性和时效性等特点,使得应急管理中的决策过程十分复杂。应急救援过程也成为一个复杂的动态任务规划问题,如何有效地解决这个问题,成为当前研究的一个热点问题。本文针对突发事件的特点,构建了应急救援过程的多任务动态规划模型。本文充分考虑了应急救援过程中的资源约束和时间紧迫性问题,以及应急救援过程的不确定性,动态性和复杂性,以马尔科夫决策(MDP)为理论依据,构建了应急救援任务动态规划的MDP模型。而在对应急救援任务规划MDP模型求解方法上采用了基于Option的分层强化学习算法,该算法可以有效解决状态的不确定性以及状态空间的庞大问题。在Option的自动生成与执行的过程中,实现了应急救援多任务模型的动态规划。另外本文针对应急救援过程中的报警机制,设计了中断Option,大大提高了应急救援效果。为了证明模型和算法的有效性,本文以一个洪水救援案例为背景,分别采用基于Option的应急救援算法和基于传统Q-学习算法进行仿真,通过仿真实验验证了无论是在救援时间还是救援质量上面,基于Option的算法都明显优于基于Q-学习算法。
其他文献
转子回转精度是监测转子运行状态,评估转子工作性能的重要衡量指标,同时对于转子回转精度的定性分析与定量评定也为转子系统误差源的辨识提供了理论基础。转子空间回转误差主要
近年来,工程供应链逐渐成为了一个热门的话题。尤其是2009年来,国家颁布了四万亿的投资计划,其中大部分投入的工程建设的相关领域,从而进一步推动了工程供应链的研究。本文以工程
传统的喷涂机器人主要采用“示教-再现”的工作方式,这种方式存在诸多缺陷,例如喷涂效果依赖于示教人员的经验、需要长时间停产示教、有毒示教环境损害示教人员健康等等,严重制
无线传感器网络(Wireless Sensor Network:WSN)是由布置在监测区域内大量的传感器节点通过无线通信方式形成的一个多跳的自组织网络系统,其目的是协作地感知、采集和处理网络
选煤厂是煤矿生产企业的重要环节,其作用是把原煤通过筛分和破碎后,将其运送到所需的加工车间,进行后续处理。因此,保证选煤厂设备的良好运行是整个煤矿正常生产的前提。随着计算
本文叙述了基于ARM STM32的某车载动中通伺服控制系统的研究与开发过程,论述了伺服控制系统的总体设计方案,对系统中的关键技术进行了深入分析研究,并通过模拟实验测试了系统性
现代钢铁企业中,连铸在整个生产链中起到承上启下的作用。结晶器是连铸机的核心部件,一旦发生故障,将对连铸生产过程产生严重影响,造成巨大的经济损失。漏钢是连铸生产中的重大事
为满足便携式设备脱离PC的点对点USB互连的市场需求,USB标准协议的补充规范—USB OTG技术适时诞生。USB OTG技术只针对全速、高速和超高速的USB设备提出,该技术因其便捷性逐渐
当前,煤炭、石油和天然气等化石能源仍是能源消耗的主体,但是这些化石能源的储量逐渐减少,并且终将会被开采殆尽;同时化石能源的消耗带来的严重的环境污染问题也引起了人们的注意。风电作为绿色能源的一种,越来越受到人们的关注。风电技术,特别是风电并网逆变器技术已成为全世界研究的热点。在风力资源丰富而且有低压电网的地区,小风电并网系统的使用不仅可以提高风电利用率,还能为用户带来一定的经济效益。因此,小风电系统
乳化炸药是20世纪70年代出现的产品,因其密度高、爆破速度快、成本低、具有雷管敏感度等特点,使其成为我国民爆器材中的主要产品,被广泛的用于交通、电力、石油勘探、矿山开采、