基于Metropolis准则的Q-学习算法研究

来源 :计算机研究与发展 | 被引量 : 0次 | 上传用户:flybear
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
探索与扩张是Q-学习算法中动作选取的关键问题,一味地扩张将使智能体很快地陷入局部最优,虽然探索可以跳出局部最优并加速学习,而过多的探索将影响算法的性能.通过把Q-学习中寻求最优策略表示为组合优化问题中最优解的搜索,将模拟退火算法的Metropolis准则用于Q-学习中探索和扩张之间的折衷处理,提出基于Metropolis准则的Q-学习算法SA-Q-learning.通过实验比较,它具有更快的收敛速度,而且避免了过多探索引起的算法性能下降. Exploring and expanding are the key problems in the selection of actions in Q-learning algorithm. Expanding blindly will cause the agent to quickly fall into the local optimum. Although exploration can jump out of local optimization and accelerate learning, too much exploration will affect the algorithm’s Performance.Based on the search of the optimal strategy in Q-learning as the optimal solution in the combinatorial optimization problem, the Metropolis criterion of simulated annealing algorithm is used for trade-off between exploration and expansion in Q-learning, and a Metropolis criterion Q-learning algorithm SA-Q-learning.Experimental comparison, it has faster convergence speed, but also avoids the performance degradation caused by too much exploration.
其他文献
新课程标准把德育教育放在非常突出的位置,因为德育教育不仅是整个教育教学的中心环节,而且还承担着新课程改革的重任,作为基础学科的初中数学当然也要明确德育教育的重要性。初
音乐是幼儿园教育不可缺少的内容,它可以陶冶人的性格和情感,音乐教育对幼儿来说又是非常重要的。因为幼儿是快乐的个体,天性喜欢快乐的事物。快乐的活动能够激发幼儿的兴趣和求
在小学低年级阶段,识字教学是语文教学的主要内容。识字是阅读和写作的基础,在识字教学中教师应根据小学生的心理规律,在教学中采用灵活多样的教学方法,激发学生的识字兴趣;并帮助
作业是教学的延续,是吸收和消化知识的重要方式,也是巩固所学知识、检查学习效果和了解学习状况的重要手段,还是培养学生思维能力和数学技能的重要途径。作业习惯对于每一个学生
教材是教师开展教学活动的主要载体,教师的教学内容主要取材于教材,教师的教学方法选择主要依据教材,而学生对于知识的学习也主要借助教材。在信息技术蓬勃发展的今天,各种各样教
作为学生引导者的班主任,需要及时了解自己学生的思想、动向。不仅要了解学生的兴趣爱好,还要掌握学生现阶段年龄的特点、性格以及家庭背景。根据不同的情况,开展各项学生工作。
研究目的:观察尿通卡克乃其片对淋证之下焦湿热证(下尿路感染)的治疗作用,评价其疗效及安全性。研究方法:将按标准入组的76例中医辩证属淋证-下焦湿热证的患者,按照双盲、双模
在当今“大数据”时代,信息资源的地位迅速崛起,掌握信息资源与信息技术、培养学生信息素养的重要性日益凸显。然而据相关调查显示,中国当下的高中信息技术教育过程中存在着很多
“以实验为基础”,是化学学科的基本特征。当今,化学实验仍然是化学学科发展的最现实、最生动、最有效的物质载体。从本质上看,这一过程与科学家进行的科学研究中的化学实验是一
古诗词教学是小学语文教学的重点和难点,也是培养学生古诗词兴趣的最好时期。但古诗词内容上和现实生活相隔甚远,语言也大相径庭,这些古诗要么描述祖国的大好河山,要么抒发诗人内