论文部分内容阅读
自动驾驶技术在保证出行安全和提高交通效率方面有着巨大的社会价值,能彻底改变人类社会交通运输形态,近年来吸引了国内外公众和研究者的广泛关注。运动规划系统作为决定车辆运动方式的模块,其性能决定了自动驾驶车辆的安全性、舒适性和高效性。然而,在城市道路等复杂环境中,自动驾驶车辆面临许多不确定性问题。许多研究者将其中的一些问题作为独立的问题进行了研究,但如何表达环境中的不确定性以及如何处理这些不确定性仍是运动规划研究中需要解决的问题。本文将自动驾驶面对的复杂环境定义为不确定性问题,并根据自动驾驶的层级框架,总结了运动规划模块面对的不确定性类别。通过构建一个基于部分可观测的马尔可夫决策过程的模型来表示不确定环境中的运动规划过程,并使用基于规则的运动规划方法控制周围交通参与者的行为。然后将深度强化学习引入运动规划系统中,提出了带有模型检测的运动规划方法,并通过在模拟环境中进行不同条件下的运动规划实验来分析不确定性对运动规划的影响以及验证运动规划方法的有效性。本文具体研究内容如下:分析复杂环境中运动规划面临的问题,将其总结为人类意图不确定性、周围交通参与者路径不确定性、高交通密度、遮挡四种不确定性问题。建立了不确定环境中运动规划系统的基本框架,并基于部分可观测的马尔可夫过程构建一个模型来表示具有不确定性的基础驾驶环境和运动规划过程。相比已有的自动驾驶模拟器,本文构建的环境能够表示多种环境不确定性。通过在不同条件下使用同一运动规划方法,分析了不确定环境对运动规划结果的影响。实验结果表明,遮挡和意图不确定会影响运动规划的安全性,路径不确定和高交通密度会影响通行效率。将深度强化学习引入运动规划系统,并结合基于规则的运动规划方法,将其作为模型检测来提高深度强化学习的学习效率和规划结果的安全性。实验结果表明,强化学习的方法能够减缓不确定性带来的影响,模型检测的方法能够提高不确定环境下运动规划的安全性和效率。