论文部分内容阅读
人机博弈是人工智能领域中的一个重要主题,激励学习是一种智能体通过不断地试错,从环境反馈中得到延迟奖惩信息,积累经验,最终学习到最优策略的机器学习方法。本文研究如何用激励学习方法开发和设计具有自学习能力的中国象棋程序RL-CHESS。主要工作如下:首先,介绍了人机博弈和学习算法的发展动态,讨论了学习算法应用于中国象棋博弈程序的现状,存在的不足和发展方向。分析了中国象棋的特点,讨论了适用的学习算法的基本特征,选定了学习算法的范围。然后,阐述了人机博弈程序的主要框架及实现的原理、方法。接着研究了如何把神经网络和激励学习算法结合开发自学习中国象棋的方法,并且研究了如何把激励学习与数据库结合开发自学习中国象棋的方法。最后,对以上两种学习方法的结果进行比较分析,并将RL-CHESS和当前具有学习功能的中国象棋程序做了对比,最后对实验结果和未来的工作做了小结。