【摘 要】
:
强化学习和智能规划是当前人工智能领域的研究热点。生活中的众多顺序决策问题都可以用马尔科夫决策过程(MDP)进行描述,基于MDP的性能势理论为上述问题的求解优化提供了一种
论文部分内容阅读
强化学习和智能规划是当前人工智能领域的研究热点。生活中的众多顺序决策问题都可以用马尔科夫决策过程(MDP)进行描述,基于MDP的性能势理论为上述问题的求解优化提供了一种新的理论框架,它可以利用样本轨道的估算对参数未知的系统进行在线优化和求解。当系统状态转移矩阵、奖励函数等参数未知时,强化学习通常被用来对系统的最优策略进行学习,该特点使其能够很好地与性能势理论相结合,从而得出更有效率的在线优化算法。然而,近年来随着人工智能应用领域的扩展,求解具有不确定性的大规模规划问题成为了人工智能理论发展的难点之一。针对智能体决策问题研究中的“维数灾难”,本文提出了一种结合启发式搜索的学习方法,并通过RoboCup机器人足球2D仿真平台,分析该算法的模型及其有效性。本文主要的工作如下:●首先,对强化学习、性能势理论及启发式搜索方法进行了基本介绍,对它们的发展状况做了阐述,并分析在求解问题过程中各自的优势及缺点,同时说明了这些方法在机器人足球中的研究意义。●针对强化学习和性能势理论在求解大规模规划问题中求解过程不稳定和收敛速度过慢的缺点,本文提出了一个新的算法——基于性能势的A*平均强化学习算法。它结合性能势理论与启发式函数,根据启发式策略确定动作的选择,从而加快学习收敛速度。最后通过强化学习标准测试工具箱中的Grid-World实验场景对算法的有效性进行了测试和分析。●本文基于RoboCup机器人足球2D仿真平台中通过简化的机器人足球领域——keepaway,根据Option理论设计了智能体的动作生成器,结合GA*-learning算法并应用到智能体的决策过程中,使球员的个人技术得以提高。综上所述,本文根据强化学习与性能势相关理论,提出了基于性能势的A*平均强化学习算法,并通过一系列实验数据分析,验证了该算法的有效性。同时,我们把本文的研究成果应用到2D仿真队伍GDUT_TiJi的代码设计中,并参加了2013年的中国机器人大赛暨RoboCup公开赛和2013年RoboCup世界杯赛,分别获得了一等奖和第9名。
其他文献
机器视觉应用广泛,社会上许多行业都用到了机器视觉的技术,羽毛球生产线也逐渐使用机器视觉技术代替人工。一个羽毛球插有16根羽毛片,若在同一个羽毛球中所插羽毛片不标准或
目前我国铁路建设处于一个高速发展时期,然而铁路信息化水平却满足不了铁路全面提速的要求,尤其是在面对临时限速等问题上,由于路面信息和列车运行状况信息收集不实时,导致列
随着科技的进步和工业的发展,物体表面的立体测量在工业检测、机械制造以及逆向工程等领域得到越来越广泛的使用,如何在维持高精度测量的基础上提高测量的速度,是立体测量的关键
所谓电力电子技术,就是根据用电场合改变电能应用方式的电能优化技术,整流器作为各种电力电子设备与电网的接口,其发展方向是将变流技术,微电子技术和自动控制技术的结合,PWM整流技术是目前最优的整流策略之一,能实现整流电路的单位功率因数运行,交流侧正弦并且能量的双向流动。目前各个领域内大量使用的变流装置对电网供电质量构成了严重的影响。实验室针对此类情况,研究高性能的混合集成功率变流器,总结变流器产品的设
随着信息与科学技术的迅速发展,在各个工程技术领域(如军事、医学等)中出现了大量的数字图像(如造影图像、遥感图像等),如何从大量的图像信息中提取出有用信息成为了图像处理
人脸识别是模式识别领域的研究热点,具有重大的理论意义和广阔的发展前景。如何表征人脸,如何进行分类是人脸识别问题中的难点也是热点。有效的表征人脸是提高人脸识别技术性
随着电网技术的发展,输电线路的安全稳定运行越来越重要,基于直升机或无人机的线路巡检开始在全国范围推广施行。但是巡检图像的检测主要通过人工来完成,工作效率低,不适应现
无线Ad-Hoc网络是由无线节点或者终端组成,不需要使用固定的基础设施的自组织网络,它能够实现快速组网,在军事领域和民事领域都有重要的应用价值。与传统的计算机网络相比,无线Ad
工业4.0与中国制造2025为中国的生产带来了巨大的变革与挑战,在推进智能工厂改造的过程中,日益增长的网络化需求意味着更复杂的网络布线、更拥塞的信息传输和更高的成本。因
储能型并网光伏发电系统将输出电能并入电网,在此基础上配置储能环节,光伏电池、储能环节及电网三者协同工作能够实现能量的高效合理利用。但是受外界环境及负载变化影响,输出功率具有随机性,无法保证供电的稳定性及连续性,且如何提高光伏电池板转化效率、解决并网谐波污染问题也是实际应用中需要解决的问题。本文以储能型并网光伏发电系统为背景。研究了最大功率点跟踪技术,以提高光伏转换效率;设计了储能环节的容量配置方案