结合环境状态预测模型的无人驾驶决策研究

来源 :湖南大学 | 被引量 : 0次 | 上传用户:venly
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
无人驾驶是汽车行业未来的发展方向,而决策模块是限制其发展的重要环节。由于强化学习是通过智能体与环境交互产生控制命令,同时考虑长期回报,十分符合无人驾驶决策过程,所以本文用强化学习方法建立决策模型。强化学习分为无模型方法与基于模型方法。其中,无模型方法存在学习速度慢,样本利用率低的问题;基于模型的方法决策效果受环境状态预测模型影响较大,另外使用预测模型优化策略会造成控制延迟,难以满足决策实时性要求。针对以上问题,本文基于无模型的深度确定性策略梯度(Deep Deterministic Policy Gradient,DDPG)算法,设计了结合环境状态预测模型的深度确定性策略梯度(Deep Deterministic Policy Gradient with Environmental prediction,EP-DDPG)算法作为无人驾驶决策模型,核心改进是建立了环境状态预测模型,通过该模型优化策略模型和值函数模型的性能,在保证样本利用率和控制实时性的同时,模型也考虑未来环境变化,进而输出更准确的决策控制信号。首先,建立在处理序列信号具有优势的长短期记忆网络(Long Short-Term Memory,LSTM)作为环境状态预测模型,并使用多编码器结构,使得在编码阶段相同性质的特征具备强关联,不同性质的特征具备弱关联,解码器结合注意力机制,使得在每个预测时步,算法能够根据各个历史时步信息对当前预测时步的影响大小而为其分配不同的权重,提高预测的准确性。其次,在环境状态预测模型建立好后,使用结合CEM(Cross Entropy Method)重要性采样算法的模型预测控制框架与环境状态预测模型交互得到最优动作样本序列,用最优序列的第一个动作作为专家标签对Actor网络预训练,在加快训练速度的同时也能解决直接用模型预测控制算法进行决策的延时性;同时,使用环境状态预测模型输出的上一时刻环境状态的隐藏信息作为值函数模型的输入,使值函数的计算能考虑未来环境状态的变化。最后,本文通过TORCS(The Open Racing Car Simulator)仿真平台搭建车道环境进行试验,将本文的EP-DDPG算法和DDPG算法对比验证,相较于DDPG算法,EP-DDPG在策略学习速度、决策性能方面表现更好。该模型不仅解决了传统强化学习模型训练效率低、样本利用率低和控制延迟的问题,同时决策模型会考虑未来环境状态的变化,进而能输出更准确决策命令。最终验证了EP-DDPG作为无人驾驶决策模型的可行性和优越性。
其他文献
在量子信息系统中,量子纠缠已经成为量子信息领域的研究热点.随着科学技术与信息时代的快速发展,量子信息技术也成为有关国家信息安全方面的一项重要保障,而量子纠缠又是量子信息领域中的重要资源,因此判断以及度量量子纠缠是量子信息领域中的关键问题.与量子纠缠问题紧密相关的是复对称最佳秩一张量逼近问题,随着复张量U—特征值和复对称张量US—特征值概念的提出,复对称最佳秩一张量逼近问题等价于计算复对称张量的最大
“十四五”纲要指出国家文化大数据体系是打通文化生产和消费的关键。文化数据库作为该体系的“供给端”,可以为文化内容创作生产及相关创意设计提供数据支撑。本研究针对该目标,建设“中国风格经典文化元素与原型数据库”,通过数字化采集、梳理、提炼中国传统文化元素与原型,面向创意设计行业需求提供文化数据服务,支持“中国风格”的智能产品、文化内容设计。本文研究发现,当前文化数据在创意设计领域应用面临的首要问题是文
模板匹配算法是图像配准的一种方式。该算法根据给定的参考模板,在场景图像中寻找目标。在医学图像分析、遥感信息处理、工业制造等众多领域均有广泛的应用,已成为工业自动化发展中一项必不可少的技术。本文针对模板匹配算法进行研究,研究场景目标分别出现平移、旋转、尺度或以上三种情况叠加变化时的算法解决方案。本文首先分析了基于归一化积相关的有界偏相关的平移不变性模板匹配算法。通过实验验证了有界偏相关算法的初始化性
纤维金属层板结构(FMLS),因其优良的轻量化性能,而受到工程领域的青睐,具有广泛的应用空间。通过热成型技术对FMLS进行批量成型,成型效率高,经济性好,是进近些年FMLS领域重要的研究方向。但是FMLS结构复杂,热成型过程中材料选择,压边力,纤维角度等参数难以控制,容易产生褶皱、撕裂等缺陷,严重影响成型质量,成为FMLS热成型方法广泛应用的制约。传统拉深成形,其工艺和材料的研究,主要依赖于经验参
随着互联网技术的飞速发展,促进了工业化和信息化的深度融合,相关人员能够更加便捷地对工业控制系统进行管控与监控。但是,工业系统遭受网络攻击数量也在逐年增长。导致这一变化的外部原因是互联网的接入打破了工业网络的封闭性,内部原因是工业系统本身存在潜在威胁。异常检测是一种高效识别数据集中离群点的方法。目前,应用于传统信息网络的许多异常检测模型存在检测时间复杂度高和准确率低等问题,不适用于实时性需求高的工业
压力注浆锚杆由于承载力高、经济性好和施工简便等技术优点在施工现场受到了广泛的应用。注浆压力直接影响锚-土界面粘结强度,进而影响锚杆的承载性能。因此,研究清楚注浆压力对锚杆锚-土界面粘结特性的影响对压力注浆锚杆的设计与施工具有重要的理论和工程意义。为此,本文主要完成的工作以及获得的成果如下:(1)首先,针对湖南省衡阳市某边坡施工现场的红黏土开展了物理力学性质试验,获得了试验用土的物理力学性质指标。其
视频监控成为现代社会中维护治安以及案件侦查中不可或缺的一部分,其可以准确有效的记录某段时空下的音频、视频信息。通过对监控信息的分析以筛查,可以完成特定人员查找、路线追踪等。但是,使用传统方法或者人工方式需要消耗大量的人力和时间成本。自行人重识别(Person Re-identification,本文中的Person Re ID,Re ID特指行人重识别)提出以来,该问题得到了一定的缓解。但是行人重
随着我国金融市场的不断开放,金融产品不断推陈出新,金融产品的风险管理越来越受到重视。股指基金由于交易费用低、能够分散风险、轻松跟踪大盘的优势吸引了越来越多的资本投入,金融机构尤其是基金公司创立了许多股指基金投资组合,因此,对股指基金组合进行风险管理已越来越受金融机构重视。许多实证研究发现金融资产收益率分布具有尖峰厚尾特征,如果采用正态分布拟合收益率数据将低估金融资产的风险,因此,本文将运用极值理论
以碳化硅(silicon carbide,SiC)MOSFET为代表的第三代宽禁带半导体器件,已广泛应用于开关电源、电动汽车和智能电网等领域。由于SiC MOSFET的高速开关能力,低导通压降,耐高温等优势使其成为替代Si IGBT的重要器件。但是SiC MOSFET的高速开关和低阻尼特性导致的开关振铃严重影响了其高可靠应用。振铃可能造成器件误触发从而损坏器件本身,增加功率损耗,并引入大量的电磁干
二十一世纪以来,新能源汽车产业不断发展,其以绿色环保等特点成为当下世界各国汽车工业的发展潮流。纯电动客车作为当今城市公交系统的主要交通工具,市民对其乘坐舒适性的要求也有所提升。同时大型公交客车与其他客车不同,其空间更大,并且车身结构由骨架和蒙皮组成,所以对大型公交客车振动噪声控制的难度更大。本论文以某企业所研发的一款纯电动大型公交客车为研究对象,在实验中发现此车型的噪声值较大,并具有进一步提升其声