基于因素化表示的强化学习方法研究

来源 :长沙理工大学 | 被引量 : 1次 | 上传用户:oyfeng168
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
强化学习是随机环境中解决决策问题一种有效的方法。然而,在大状态空间,特别是在复杂随机状态下的应用领域,它仍然没有解决“维数灾难”的问题。目前,因素化强化学习作为强化学习在时间和空间上的扩展,已经被证明比强化学习更适合解决大状态随机控制问题,在机器人导航等方面有着广阔的应用前景。但是,目前的研究工作集中在学习前状态空间的前期处理,对学习过程缺乏深入研究。本文围绕强化学习前的状态空间的前期处理以及学习过程中值函数的值的存储和表示,对以下方面进行了研究和探讨:文章首先介绍了因素化学习的基本学习理论和研究进展,并对四种典型的强化学习算法作了分析比较,分析了它们的各自特点和适用情况,为后面的工作中算法的选择提供了基础。其次提出了改进的基于因素化表示的动态规划方法,针对动态规划方法中求解精确的Vπ值计算量复杂的问题,提出了改进的使用生成Vπ的线性近似值以获取算法的加速的方法;针对传统强化学习算法使用值函数Look-up表存储和表示值函数的值存在着的冗余度过高的问题,提出了决策树方法,并在后面的仿真实验中验证算法效果。最后提出了一种新的基于因素法方法的TD(λ)算法。其基本思想是状态因素化表示,通过动态贝叶斯网络(Dynamic Bayes Networks ,DBNs)表示Markov决策过程(Markov decision Process ,MDP)中的状态概率转移函数,结合决策树(decision tree)表示TD(λ)算法中的状态值函数的值,大大降低了状态空间的搜索与计算复杂度、以及数据的冗余度,因而适用于求解大状态空间的MDPs问题,对照实验证明了该表示方法是有效的。
其他文献
目前,对裂纹的检测,仍使用传统的人工检验方法。随着数字信号处理与神经网络技术的广泛应用和经济效益要求的逐步提高,需要有一种检测系统,正确有效地检测出钢球表面裂纹。小
普适计算致力于将计算融入人们的日常生活中,将由计算和通信节点及系统组成的计算空间与人们生活的物理空间无缝地集成为和谐的人机交互信息环境。上下文感知技术是普适计算中
随着计算机网络的迅猛发展,Internet边缘上汇集了成千上万的计算资源、数据资源。传统的基于Client/Server结构的资源共享方式已经不能满足人们的新需求。人们希望利用P2P网络
设施农业环境调控技术对获取优质优产农业产品具有重要作用,其中温室技术因其高产高质特点已成为设施农业发展的重要方向。如何制定合理的温室气温调控方案,是提高温室生产效
图像分割是图像分析的重点,在医学图像处理领域,断层扫描(CT)切片的肺组织分割是通过CT医学影像实现肺部疾病计算机辅助检查和诊断的首要技术步骤,对CT胸部影像的后续分析理解具
虚拟人足球是虚拟人技术和人工智能的集中体现,其本身既是一个典型的多智能体系统,同时又为它们的理论研究提供一个标准的评测平台。在动态的虚拟比赛环境中,虚拟球员通过发
无线通信领域新技术的迅速涌现,大大提高了无线通信系统的数据传输速率和通信的可靠性,扩展了系统功能以及扩大了应用领域和服务范围。然而,无线信道的不稳定特性不可避免地
本文的主要研究内容是机动车测速问题,其中主要涉及计算机视觉、信息采集、视频图像处理等方面的知识。本文针对机动车测速中的目标检测和目标跟踪问题展开如下研究:1,在运动目标检测方面,本文详细分析了基于混合高斯模型前景检测算法,对算法的缺点进行了分析。并在此基础上,结合本文的应用环境,从三个方面对基于混合高斯模型的检测方法进行改进:在预处理时对车道线进行检测,提取出行车区域,排除无效区域,减少算法建模的
近年来随着高等院校的快速发展,教学改革力度不断增强,规模不断扩大,对教学信息化管理提出了巨大的挑战。高校教材征订管理是高校信息化管理的一个重要组成部分。目前传统的高校
近些年来,随着现在计算机技术和互联网络的飞速发展,一方面,人们需要越来越多的信息、服务、计算、存储等网络资源来解决日益复杂的实际问题,而传统的C/S(客户/服务器)集中服