一种针对德州扑克AI的对手建模与策略集成框架 |
| |
引用本文: | 张蒙, 李凯, 吴哲, 臧一凡, 徐航, 兴军亮. 一种针对德州扑克AI的对手建模与策略集成框架. 自动化学报, 2022, 48(4): 1004−1017 doi: 10.16383/j.aas.c210127 |
| |
作者姓名: | 张蒙 李凯 吴哲 臧一凡 徐航 兴军亮 |
| |
作者单位: | 1.中国科学院自动化研究所 北京 100190;;2.中国科学院大学 北京 100049 |
| |
基金项目: | 国家自然科学基金(62076238,61902402);;国家重点研发计划(2020AAA0103401); |
| |
摘 要: | 以德州扑克游戏为代表的大规模不完美信息博弈是现实世界中常见的一种博弈类型. 现有以求解纳什均衡策略为目标的主流德州扑克求解算法存在依赖博弈树模型、算力消耗大、策略过于保守等问题, 导致智能体在面对不同对手时无法最大化自身收益. 为解决上述问题, 提出一种轻量高效且能快速适应对手策略变化进而剥削对手的不完美信息博弈求解框架. 本框架分为智能体离线训练和在线博弈两个阶段. 第1阶段基于演化学习思想训练智能体, 得到能够剥削不同博弈风格对手的策略神经网络. 在第2博弈阶段中, 智能体在线建模并适应未知风格对手, 利用种群策略集成的方法最大化剥削对手. 在两人无限注德州扑克环境中的实验结果表明, 本框架在面对动态对手策略时, 相比已有方法能够大幅提升博弈性能.
|
关 键 词: | 不完美信息博弈 德州扑克 演化学习 在线对手建模 种群策略集成 |
收稿时间: | 2021-02-06 |
|
| 点击此处可从《自动化学报》浏览原始摘要信息 |
|
点击此处可从《自动化学报》下载全文 |
|