基于蒙特卡洛树搜索的德州扑克AI算法改进方法研究

来源 :东南大学 | 被引量 : 0次 | 上传用户:natelie_hu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
蒙特卡洛树搜索算法(MCTS)在完全信息博弈领域内的诸多成功展示了其非凡的探索和学习能力,也证明了有选择性的搜索和规划在复杂环境中的必要性。虽然这些成功的案例中的一部分已经被扩展到非完全信息博弈的领域中,但目前它们还不能达到和那些优秀的博弈论算法相同水准的实际表现或理论收敛保证。在德州扑克这样的规模较大的环境中,MCTS算法的改良受到更大的挑战,成功的应用寥寥无几。一方面,局部搜索的MCTS算法无法收敛到纳什均衡,而另一方面,全局搜索的MCTS算法则严重依赖于抽象技术的运用,并且需要消耗大量的内存资源。针对局部搜索的MCTS算法偏离纳什均衡的问题,本文分析了偏差产生的原因,并提出了改进的PV-MCTS算法。通过在子游戏中加入根状态的可到达概率,引入全局信息来修正策略的偏差。在此基础上,本文进一步引入了虚拟博弈的思想,提出了基于策略价值网络的蒙特卡洛虚拟博弈算法(PV-MCFP),通过让智能体对其他智能体的平均策略进行近似最优响应,让算法拥有更好的理论收敛保证和实际表现。相较于局部搜索和在线规划,全局性搜索的训练速度更快,但同时它占据更多的内存,同时需要使用结合人类知识的抽象技术。本文提出了结合价值网络的自博弈UCT算法(VN-SPUCT),训练深度价值网络来为UCT提供价值估计,以消除抽象技术对状态价值的更新的影响。同时,价值网络具有一定的泛化能力,避免了算法在相似状态上的模拟时间的浪费,提高算法的学习效率。最后本文在几种不同规模的扑克游戏环境中对PV-MCFP算法和VN-SPUCT算法的性能进行了测试。实验结果表明,PV-MCFP算法能够在不使用任何人类知识的前提下学习到近似纳什均衡策略,并且不需要占据大量内存资源。VN-SPUCT算法虽然应用了抽象技术,但在大规模的环境中对比其他算法有更好的表现,并且展示出更快的收敛速度。在2018年年度计算机扑克大赛(ACPC)的6人无限注德州扑克赛事中,VN-SPUCT算法取得了第5名的成绩。
其他文献
建筑业是我国国民经济的支柱产业,占据国家全年GDP的1/4。提高建筑建造质量是推动建筑业持续健康发展的重要举措。针对这一需求,我国近年来大力推动装配式建筑技术的应用。但对装配式建筑质量起到重要影响的建筑设计环节却因为缺乏对建筑建造过程的考虑而不能充分发挥其作用。工程记录作为工程质量管理体系中的重要工作,详实地记录了工程地建造情况。将其用于向建筑设计端反馈建造需求具有较强的应用潜力。因而本研究试图通
钢-混凝土组合结构因能发挥两种材料的优势而得到日益广泛的应用,超高性能混凝土(UHPC)作为一种具有超高强度、超高韧性和高耐久性的水泥基复合材料,在桥梁工程中的研究与应用备受重视。本文将UHPC与钢格栅组合,提出一种新型组合桥面板,并通过有限元数值模拟和理论分析的方法对其抗弯性能展开研究,主要工作和研究成果如下:(1)钢格栅-UHPC组合桥面板的设计构造研究提出了一种新型组合桥面板:钢格栅-UHP
目前我国大部分污水处理厂均执行一级A标准,但在部分水环境敏感或重点保护区域,污水排放标准较低是导致地表水体超负荷纳污和水环境质量恶化的重要因素,因此污水厂二级出水仍需要经过深度处理以进一步提高出水水质。本研究以南京市某污水厂二级出水作为研究对象,构建一套处理规模为20 m3/d的反硝化滤池-臭氧-曝气生物滤池深度处理工艺进行中试试验研究,优化各单元工艺参数,探究组合工艺对污染物的去除效果。主要研究
地震会对人类生产生活产生显著危害,传统的振动控制手段虽在工程领域发展相对成熟,但由于地震本身的随机性和复杂性,从而无法在各类地震作用下均为结构提供可靠的保障。特别是对复杂的多维地震,传统的控制手段已很难在水平和竖向均有效的发挥作用。因此,为提升建筑结构抵抗多方向地震的能力,本文提出一种由隔震支座和筒式阻尼器组成的新型多维隔减震装置,并将其应用至云南某小学的减震工程中。围绕所提多维隔减震装置,首先针
背景:抑郁症是一种精神障碍,临床特征为持续和普遍的悲伤、内疚和无用感。其复发率较高,一个抑郁症患者一生中会有5到9次发作。尽管抗抑郁药的发展取得了重大进展,但仍有三分之一的抑郁患者疗效较差。静息状态功能性磁共振成像在抑郁症研究中提供了有价值的结果,并有助于识别疗效相关的生物标志物。目的:本研究旨在通过静息状态功能磁共振成像,探讨首发与复发抑郁症对抗抑郁剂反应的差异及其脑功能机制。方法:纳入符合《精
有机氯化合物作为化学合成的中间体、农药和有机溶剂被大量合成和使用,它们通过泄漏和排放等多种途径进入环境,对生态环境和人类健康造成极大威胁。因此,有机氯化合物高效、环保的治理方法和修复技术成为当前研究的热点。纳米零价铁(n ZVI)作为一种还原剂可用于环境中有机氯污染物的脱氯降解,因其具有反应活性高、成本低、不产生二次污染等优点,受到广泛关注,但其表面易被氧化和在水中易团聚的缺点限制了该技术的应用。
覆盖问题是无线传感器网络(WSNs,Wireless Sensor Networks)的一个基本问题,它在很大程度上影响着网络所能提供的服务质量(Qo S,Quality of Service),因此覆盖优化控制一直受到国内外学者的广泛关注。传统的覆盖优化控制算法通常需要利用节点的精确位置信息或节点间的距离信息,但这些信息的获取成本较高。本学位论文针对节点位置和节点间距离信息未知的场景,利用节点间
随着无线通信技术的高速发展和数据流量的不断提升,对锁相环的性能提出了更高的要求,因此近年来诸如SSPLL、ADPLL、BBPLL、SPLL等新型的高性能锁相环成为了人们研究的热点,而将DTC应用于新型锁相环使得这些锁相环展现出更优的性能。本文将对基于DTC的小数型SSPLL的关键技术展开研究,重点开展DTC的研究与设计。论文的主要工作是设计一个应用于SSPLL的DTC电路结构。论文首先从锁相环出发
学位
学位