一种针对德州扑克AI的对手建模与策略集成框架期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

一种针对德州扑克AI的对手建模与策略集成框架

引用本文：	张蒙, 李凯, 吴哲, 臧一凡, 徐航, 兴军亮. 一种针对德州扑克AI的对手建模与策略集成框架. 自动化学报, 2022, 48(4): 1004−1017 doi: 10.16383/j.aas.c210127

作者姓名：	张蒙李凯吴哲臧一凡徐航兴军亮

作者单位：	1.中国科学院自动化研究所北京 100190;;2.中国科学院大学北京 100049

基金项目：	国家自然科学基金(62076238,61902402)；;国家重点研发计划(2020AAA0103401)；

摘要：	以德州扑克游戏为代表的大规模不完美信息博弈是现实世界中常见的一种博弈类型. 现有以求解纳什均衡策略为目标的主流德州扑克求解算法存在依赖博弈树模型、算力消耗大、策略过于保守等问题, 导致智能体在面对不同对手时无法最大化自身收益. 为解决上述问题, 提出一种轻量高效且能快速适应对手策略变化进而剥削对手的不完美信息博弈求解框架. 本框架分为智能体离线训练和在线博弈两个阶段. 第1阶段基于演化学习思想训练智能体, 得到能够剥削不同博弈风格对手的策略神经网络. 在第2博弈阶段中, 智能体在线建模并适应未知风格对手, 利用种群策略集成的方法最大化剥削对手. 在两人无限注德州扑克环境中的实验结果表明, 本框架在面对动态对手策略时, 相比已有方法能够大幅提升博弈性能.
关键词：	不完美信息博弈德州扑克演化学习在线对手建模种群策略集成
收稿时间：	2021-02-06

	点击此处可从《自动化学报》浏览原始摘要信息
	点击此处可从《自动化学报》下载全文

设为首页 | 免责声明 | 关于勤云 | 加入收藏