基于激励学习的中国象棋研究

来源 :长沙理工大学 | 被引量 : 9次 | 上传用户:luoqiuqiu80
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
人机博弈是人工智能领域中的一个重要主题,激励学习是一种智能体通过不断地试错,从环境反馈中得到延迟奖惩信息,积累经验,最终学习到最优策略的机器学习方法。本文研究如何用激励学习方法开发和设计具有自学习能力的中国象棋程序RL-CHESS。主要工作如下:首先,介绍了人机博弈和学习算法的发展动态,讨论了学习算法应用于中国象棋博弈程序的现状,存在的不足和发展方向。分析了中国象棋的特点,讨论了适用的学习算法的基本特征,选定了学习算法的范围。然后,阐述了人机博弈程序的主要框架及实现的原理、方法。接着研究了如何把神经网络和激励学习算法结合开发自学习中国象棋的方法,并且研究了如何把激励学习与数据库结合开发自学习中国象棋的方法。最后,对以上两种学习方法的结果进行比较分析,并将RL-CHESS和当前具有学习功能的中国象棋程序做了对比,最后对实验结果和未来的工作做了小结。
其他文献
习近平廉政思想有一个发展的过程,主政地方时期的反腐倡廉思想和实践是重要阶段。历经萌芽、起步探索、发展提高三个阶段,研究习近平地方廉政建设思想具有重要的理论意义和实
物理是中职学校的公共基础课.是学生学好专业技能的必修课。但是大部分学生却对物理学习有惧怕心理。究其原因.很多学生都是因为在物理学习中对物理概念理解不清、张冠李戴,久而
本文笔者针对建筑电气工程中的供配电系统的基本概念、存在问题以及改进措施等方面进行详细地阐述,希望能够为我国电气工程中供配电系统的优化和发展有所裨益。