基于Metropolis准则的Q-学习算法研究

来源 :计算机研究与发展 | 被引量 : 0次 | 上传用户：flybear

【摘要】

：

探索与扩张是Q-学习算法中动作选取的关键问题,一味地扩张将使智能体很快地陷入局部最优,虽然探索可以跳出局部最优并加速学习,而过多的探索将影响算法的性能.通过把Q-学习中

【作者】

：

郭茂祖王亚东刘扬孙华梅

【机构】

：

哈尔滨工业大学计算机科学与技术学院,哈尔滨工业大学计算机科学与技术学院,哈尔滨工业大学计算机科学与技术学院,哈尔滨工业大学管理学院哈尔滨150001哈尔滨工业大学管理学院哈尔滨150001,哈尔滨1

【出处】

：

计算机研究与发展

【发表日期】

：

2002年06期

【关键词】

：

Metropolis 算法复杂性智能体学习过程模拟退火 Q-学习加强学习局部最优组合优化最优策略

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

探索与扩张是Q-学习算法中动作选取的关键问题,一味地扩张将使智能体很快地陷入局部最优,虽然探索可以跳出局部最优并加速学习,而过多的探索将影响算法的性能.通过把Q-学习中寻求最优策略表示为组合优化问题中最优解的搜索,将模拟退火算法的Metropolis准则用于Q-学习中探索和扩张之间的折衷处理,提出基于Metropolis准则的Q-学习算法SA-Q-learning.通过实验比较,它具有更快的收敛速度,而且避免了过多探索引起的算法性能下降. Exploring and expanding are the key problems in the selection of actions in Q-learning algorithm. Expanding blindly will cause the agent to quickly fall into the local optimum. Although exploration can jump out of local optimization and accelerate learning, too much exploration will affect the algorithm’s Performance.Based on the search of the optimal strategy in Q-learning as the optimal solution in the combinatorial optimization problem, the Metropolis criterion of simulated annealing algorithm is used for trade-off between exploration and expansion in Q-learning, and a Metropolis criterion Q-learning algorithm SA-Q-learning.Experimental comparison, it has faster convergence speed, but also avoids the performance degradation caused by too much exploration.

其他文献

探究初中数学课堂教学德育的渗透

新课程标准把德育教育放在非常突出的位置，因为德育教育不仅是整个教育教学的中心环节，而且还承担着新课程改革的重任，作为基础学科的初中数学当然也要明确德育教育的重要性。初

期刊

初中数学课堂教学德育渗透

让孩子们在音乐中体验快乐

音乐是幼儿园教育不可缺少的内容，它可以陶冶人的性格和情感，音乐教育对幼儿来说又是非常重要的。因为幼儿是快乐的个体，天性喜欢快乐的事物。快乐的活动能够激发幼儿的兴趣和求

浅谈如何培养学生自主识字的能力

在小学低年级阶段，识字教学是语文教学的主要内容。识字是阅读和写作的基础，在识字教学中教师应根据小学生的心理规律，在教学中采用灵活多样的教学方法，激发学生的识字兴趣；并帮助

期刊

培养学生自主识字能力

浅谈小学数学良好作业习惯的培养

作业是教学的延续，是吸收和消化知识的重要方式，也是巩固所学知识、检查学习效果和了解学习状况的重要手段，还是培养学生思维能力和数学技能的重要途径。作业习惯对于每一个学生

期刊

小学数学作业习惯培养学生学习状况知识内容学生思维能力成长和发展终生受益学习效率学习效果数学教师数学技能吸收教学检查

高中历史教材应用策略解读

教材是教师开展教学活动的主要载体，教师的教学内容主要取材于教材，教师的教学方法选择主要依据教材，而学生对于知识的学习也主要借助教材。在信息技术蓬勃发展的今天，各种各样教

期刊

高中历史教材应用策略

在新时期初中农村班主任与学生沟通途径探讨

作为学生引导者的班主任，需要及时了解自己学生的思想、动向。不仅要了解学生的兴趣爱好，还要掌握学生现阶段年龄的特点、性格以及家庭背景。根据不同的情况，开展各项学生工作。

期刊

初中生农村班主任学生工作教育问题作者需要自我意识兴趣爱好现代社会留守学生控制能力教育内容家庭背景沟通途径城市成长阶段不良信息引

尿通卡克乃其片治疗下尿路感染的临床研究

研究目的：观察尿通卡克乃其片对淋证之下焦湿热证(下尿路感染)的治疗作用,评价其疗效及安全性。研究方法：将按标准入组的76例中医辩证属淋证-下焦湿热证的患者,按照双盲、双模

学位

尿通卡克乃其片下尿路感染下焦湿热证临床试验

高中信息技术教学与学生信息素养的培养

在当今“大数据”时代，信息资源的地位迅速崛起，掌握信息资源与信息技术、培养学生信息素养的重要性日益凸显。然而据相关调查显示，中国当下的高中信息技术教育过程中存在着很多

期刊

高中信息技术教学问题信息素养方案

初中化学实验教学之我见

“以实验为基础”，是化学学科的基本特征。当今，化学实验仍然是化学学科发展的最现实、最生动、最有效的物质载体。从本质上看，这一过程与科学家进行的科学研究中的化学实验是一

期刊

初中化学实验

小学语文古诗教学方法的几点体会略谈

古诗词教学是小学语文教学的重点和难点，也是培养学生古诗词兴趣的最好时期。但古诗词内容上和现实生活相隔甚远，语言也大相径庭，这些古诗要么描述祖国的大好河山，要么抒发诗人内

期刊

小学语文古诗词教学

基于Metropolis准则的Q-学习算法研究

其他学术论文