基于强化学习的复杂环境自动驾驶运动规划

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:lh923
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
自动驾驶技术在保证出行安全和提高交通效率方面有着巨大的社会价值,能彻底改变人类社会交通运输形态,近年来吸引了国内外公众和研究者的广泛关注。运动规划系统作为决定车辆运动方式的模块,其性能决定了自动驾驶车辆的安全性、舒适性和高效性。然而,在城市道路等复杂环境中,自动驾驶车辆面临许多不确定性问题。许多研究者将其中的一些问题作为独立的问题进行了研究,但如何表达环境中的不确定性以及如何处理这些不确定性仍是运动规划研究中需要解决的问题。本文将自动驾驶面对的复杂环境定义为不确定性问题,并根据自动驾驶的层级框架,总结了运动规划模块面对的不确定性类别。通过构建一个基于部分可观测的马尔可夫决策过程的模型来表示不确定环境中的运动规划过程,并使用基于规则的运动规划方法控制周围交通参与者的行为。然后将深度强化学习引入运动规划系统中,提出了带有模型检测的运动规划方法,并通过在模拟环境中进行不同条件下的运动规划实验来分析不确定性对运动规划的影响以及验证运动规划方法的有效性。本文具体研究内容如下:分析复杂环境中运动规划面临的问题,将其总结为人类意图不确定性、周围交通参与者路径不确定性、高交通密度、遮挡四种不确定性问题。建立了不确定环境中运动规划系统的基本框架,并基于部分可观测的马尔可夫过程构建一个模型来表示具有不确定性的基础驾驶环境和运动规划过程。相比已有的自动驾驶模拟器,本文构建的环境能够表示多种环境不确定性。通过在不同条件下使用同一运动规划方法,分析了不确定环境对运动规划结果的影响。实验结果表明,遮挡和意图不确定会影响运动规划的安全性,路径不确定和高交通密度会影响通行效率。将深度强化学习引入运动规划系统,并结合基于规则的运动规划方法,将其作为模型检测来提高深度强化学习的学习效率和规划结果的安全性。实验结果表明,强化学习的方法能够减缓不确定性带来的影响,模型检测的方法能够提高不确定环境下运动规划的安全性和效率。
其他文献
随着社会经济的不断发展,英语在日常工作中的作用日益显现。高职教育的主要目的在于培养技术型人才,加上现代教育提倡以人为本,要求课堂教学尊重学生主体地位,所以对高职院校
摘要:本文对高校旅游管理专业应用型创新人才培养模式进行阐述与反思,提出提升旅游管理人才应用能力与创新能力的策略。  关键词:高校;旅游管理;应用型;创新人才;培养模式  一、概念阐述  1.旅游管理专业应用型创新人才。旅游管理专业应用型人才是指高校基于旅游市场人才需求,培养出能够将旅游知识应用于旅游管理实践的人才。实践应用、操作能力是应用型人才的核心能力。创新人才是指具有创新意识、创新精神与创新能
基于广义特征值的最接近支持向量机(Proximal Support VectorMachinevia Generalized Eigenvalues,GEPSVM)是一种新的具有与SVM性能相当的两分类方法,通过求解广义特征值来获得两
简述了圆锥滚子轴承的自身特点,分析了配对单列圆锥滚子轴承的常用布置结构,详述了不同布置配对单列圆锥滚子轴承游隙的控制与调整方法,总结了圆锥滚子轴承游隙的形成机理。