期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

张蒙李凯吴哲臧一凡徐航兴军亮《自动化学报》2022,48(4):1004-1017

以德州扑克游戏为代表的大规模不完美信息博弈是现实世界中常见的一种博弈类型. 现有以求解纳什均衡策略为目标的主流德州扑克求解算法存在依赖博弈树模型、算力消耗大、策略过于保守等问题, 导致智能体在面对不同对手时无法最大化自身收益. 为解决上述问题, 提出一种轻量高效且能快速适应对手策略变化进而剥削对手的不完美信息博弈求解框架. 本框架分为智能体离线训练和在线博弈两个阶段. 第1阶段基于演化学习思想训练智能体, 得到能够剥削不同博弈风格对手的策略神经网络. 在第2博弈阶段中, 智能体在线建模并适应未知风格对手, 利用种群策略集成的方法最大化剥削对手. 在两人无限注德州扑克环境中的实验结果表明, 本框架在面对动态对手策略时, 相比已有方法能够大幅提升博弈性能. 相似文献

2.

一种德州扑克的牌力评估方法

王帅雷跃明《计算机工程与科学》2017,39(7):1352-1358

德州扑克是机器博弈领域中一种很好的研究对象,与国际象棋、西洋棋等不同,其涉及了诸如不完整信息抽象与处理、多智能体竞争、风险评估与管理、对手建模等多方面的问题研究。其中,不完备信息抽象与处理是其他问题研究的基础,抽象与处理信息就是要对当前牌局进行评估以供后续工作使用。针对牌局信息不完整的情况,讨论了一些评估牌力方法,分析了这些方法的利弊,并提出了一种新的牌力评估方法,以提升计算速度,减少资源占用。实验结果表明,新的方法摒弃了查找表,达到了节省空间的目的,同时也具备较快的计算速度。相似文献

3.

计算机博弈中序贯不完美信息博弈求解研究进展

罗俊仁张万鹏苏炯铭魏婷婷陈璟《控制与决策》2023,38(10):2721-2748

计算机博弈是人工智能的果蝇和通用测试基准.近年来,序贯不完美信息博弈求解一直是计算机博弈研究领域的前沿课题.围绕计算机博弈中不完美信息博弈求解问题展开综述分析.首先,梳理计算机博弈领域标志性突破的里程碑事件,简要介绍4类新评估基准,归纳3种研究范式,提出序贯不完美信息博弈求解研究框架;然后,着重对序贯不完美信息博弈的博弈模型和解概念进行调研,从博弈构建、子博弈和元博弈、解概念以及评估3方面进行简要介绍;接着,围绕离线策略求解,系统梳理算法博弈论、优化理论和博弈学习3大类方法,围绕在线策略求解,系统梳理对手近似式学习、对手判别式适变和对手生成式搜索3大类方法;最后,从环境、智能体(对手)和策略求解3个角度分析面临的挑战,从博弈动力学和策略空间理论、多模态对抗博弈和序贯建模、通用策略学习和离线预训练、对手建模(剥削)和反剥削、临机组队和零样本协调5方面展望未来研究前沿课题.对于当前不完美信息博弈求解问题进行全面概述,期望能够为人工智能和博弈论领域相关研究带来启发. 相似文献

4.

基于深度强化学习的掼蛋扑克博弈求解

葛振兴向帅田品卓高阳《计算机研究与发展》2024,(1):145-155

在不确定信息的复杂环境下进行决策是现实中人们经常面对的困难之一,因此具有能够进行良好决策的能力被视为人工智能的重要能力之一.而游戏类型的博弈作为对现实世界的一种高度抽象,具有良定义、易检验算法优劣等特点,成为研究的主流.其中以掼蛋为代表的扑克类博弈不仅具有他人手牌未知这样的难点,还由于可选出牌动作与他人手牌情况数量庞大等特点,难以进行高效求解.因此,提出了一种软深度蒙特卡洛（soft deep Monte Carlo,SDMC）求解方法.该方法能够更好地融合领域知识,加快策略学习速度,并采用软动作采样策略调整实时决策,提升策略胜率.所提出的SDMC方法训练出的策略模型参加第2届“中国人工智能博弈算法大赛”时获得冠军.与第1届比赛冠军策略和第2届其他策略模型的实验对比证明了该方法在解决掼蛋扑克博弈中的有效性. 相似文献

5.

CBB模式中基于动态博弈的智能协商

下载免费PDF全文

沈慧潘郁《计算机工程》2007,33(6):185-186

在属于电子商务领域的消费者购买行为(CBB)模式中,协商是一个重要阶段。该文应用经济学中的不完全信息动态博弈方法,辅以人工智能(AI)领域的Agent技术,解决了CBB模式中的智能协商问题,设计了相应的算法,并通过实验分析了该算法的可行性。相似文献

6.

博弈智能的研究与应用

郝建业邵坤李凯李栋毛航宇胡舒悦王震《中国科学:信息科学》2023,(10):1892-1923

博弈智能是一个涵盖博弈论、人工智能等方向的交叉领域,重点研究个体或组织间的交互作用,以及如何通过对博弈关系的定量建模进而实现最优策略的精确求解,最终形成智能化决策和决策知识库.近年来,随着行为数据的海量爆发和博弈形式的多样化,博弈智能吸引了越来越多学者的研究兴趣,并在现实生活中得到广泛应用.本文围绕博弈智能这一研究领域,分别从3个方面进行了系统的调研、分析和总结.首先,回顾了博弈智能的相关背景,涵盖了单智能体马尔可夫(Markov)决策过程,基于博弈论的多智能体建模技术,以及强化学习、博弈学习等多智能体求解方案.其次,依照智能体之间的博弈关系不同,将博弈分为合作博弈、对抗博弈以及混合博弈这三大类范式,并分别介绍了每种博弈智能范式下的主要研究问题、主流研究方法以及当前典型应用.最后,总结了博弈智能的研究现状,以及亟待解决的主要问题与研究挑战,并展望了学术界和工业界的未来应用前景,为相关研究人员提供参考,进一步推动国家人工智能发展战略. 相似文献

7.

大数据智能:从数据拟合最优解到博弈对抗均衡解

下载免费PDF全文

蒋胤傑况琨吴飞《智能系统学报》2020,15(1):175-182

数据驱动的机器学习（特别是深度学习）在自然语言处理、计算机视觉分析和语音识别等领域取得了巨大进展,是人工智能研究的热点。但是传统机器学习是通过各种优化算法拟合训练数据集上的最优模型,即在模型上的平均损失最小,而在现实生活的很多问题（如商业竞拍、资源分配等）中,人工智能算法学习的目标应该是是均衡解,即在动态情况下也有较好效果。这就需要将博弈的思想应用于大数据智能。通过蒙特卡洛树搜索和强化学习等方法,可以将博弈与人工智能相结合,寻求博弈对抗模型的均衡解。从数据拟合的最优解到博弈对抗的均衡解能让大数据智能有更广阔的应用空间。相似文献

8.

智能博弈对抗中的对手建模方法及其应用综述

下载免费PDF全文

魏婷婷袁唯淋罗俊仁张万鹏《计算机工程与应用》2022,58(9):19-29

智能博弈对抗一直是人工智能研究的热点。在博弈对抗环境中,通过对对手进行建模,可以推测敌对智能体动作、目标、策略等相关属性,为博弈策略制定提供关键信息。对手建模方法在竞技类游戏和作战仿真推演等领域的应用前景广阔,博弈策略的制定必须以博弈各方的行动策略为前提,因此建立一个准确的对手行为模型对于预测其意图尤其重要。从内涵、方法、应用三个方面,阐述了对手建模的必要性,对现有建模方式进行了分类;对基于强化学习的预测方法、基于心智理论的推理方法和基于贝叶斯的优化方法进行了梳理与总结;以序贯博弈（德州扑克）、即时策略博弈（星际争霸）和元博弈为典型应用场景,分析了智能博弈对抗过程中的对手建模的作用;从有限理性、策略欺骗性和可解释性三个方面进行了对手建模技术发展的展望。相似文献

9.

基于Agent的电子商务博弈协商过程的研究

沈慧潘郁《微计算机信息》2006,22(24):236-238

把人工智能的Agent技术和经济学的不完全信息动态博弈方法结合起来,在买方的立场上通过约束满足机制实现了自动协商的过程。该方法及自动协商过程可用于解决电子商务协商领域中的协商效率不高的问题。相似文献

10.

机器博弈中搜索算法的研究

廖景亮陈冬强《福建电脑》2012,28(10):57-60

机器博弈是人工智能领域中一个重要的组成部分,计算机智能和人类棋手之间展开了长达几十年的竞赛。本文首先简要介绍机器博弈的基本理论和机器博弈系统的一般构成,然后对几种经典的机器博弈搜索算法及其特点的进行了讨论说明。相似文献

11.

Evolving Nash-optimal poker strategies using evolutionary computation

Hanyang Quek Chunghoong Woo Kaychen Tan Arthur Tay 《Frontiers of Computer Science in China》2009,3(1):73-91

This paper focuses on the development of a competitive computer player for the one versus one Texas Hold’em poker using evolutionary algorithms (EA). A Texas Hold’em game engine is first constructed where an efficient odds calculator is programmed to allow for the abstraction of a player’s cards, which yield important but complex information. Effort is directed to realize an optimal player that will play close to the Nash equilibrium (NE) by proposing a new fitness criterion. Preliminary studies on a simplified version of poker highlighted the intransitivity nature of poker. The evolved player displays strategies that are logical but reveals insights that are hard to comprehend e.g., bluffing. The player is then benchmarked against Poki and PSOpti, which is the best heads-up Texas Hold’em artificial intelligence to date and plays closest to the optimal Nash equilibrium. Despite the much constrained chromosomal strategy representation, simulated results verified that evolutionary algorithms are effective in creating strategies that are comparable to Poki and PSOpti in the absence of expert knowledge. 相似文献

12.

一种恶意模型下安全的双方智力扑克协议

刘镇杨晓元严波涛《计算机应用》2009,29(7):1836-1838

安全多方计算是密码学中的一个重要研究领域,在保障信息安全中发挥着极其重要的作用。智力扑克游戏是指利用网络玩扑克牌,它可以视为一种特殊的安全多方计算。根据智力扑克游戏的有关要求,结合超椭圆曲线密码体制的优点,提出了一种恶意模型下安全的智力扑克协议,证明了协议的正确性,分析了在恶意模型下协议的安全性,给出了协议的计算复杂度和通信复杂度。相似文献

13.

Computer poker: A review

Jonathan Rubin Ian Watson 《Artificial Intelligence》2011,175(5-6):958-987

The game of poker has been identified as a beneficial domain for current AI research because of the properties it possesses such as the need to deal with hidden information and stochasticity. The identification of poker as a useful research domain has inevitably resulted in increased attention from academic researchers who have pursued many separate avenues of research in the area of computer poker. The poker domain has often featured in previous review papers that focus on games in general, however a comprehensive review paper with a specific focus on computer poker has so far been lacking in the literature. In this paper, we present a review of recent algorithms and approaches in the area of computer poker, along with a survey of the autonomous poker agents that have resulted from this research. We begin with the first serious attempts to create strong computerised poker players by constructing knowledge-based and simulation-based systems. This is followed by the use of computational game theory to construct robust poker agents and the advances that have been made in this area. Approaches to constructing exploitive agents are reviewed and the challenging problems of creating accurate and dynamic opponent models are addressed. Finally, we conclude with a selection of alternative approaches that have received attention in previously published material and the interesting problems that they pose. 相似文献

14.

基于Alpha-Beta搜索算法的中国象棋人机对战的设计与实现

陈业鹏《计算机光盘软件与应用》2012,(4):197-199

计算机博弈是人工智能研究的一个重要分支,人类在计算机博弈领域的研究取得了大量的研究成果,这些成果在人工智能领域产生了重要影响。中国象棋计算机博弈的研究起步晚于国际象棋,但国际象棋计算机博弈研究的成果为我们提供了很多的借鉴技术。近年来随着研究的不断深入,中国象棋计算机博弈越来越成为继国际象棋后计算机博弈研究的热点之一。相似文献

15.

多人联机扑克游戏架构及其实现

张元一《计算机与现代化》2006,(7):118-121

叙述了一种以面向对象技术为设计思想、采用VC＋＋6．0编程的网络联机扑克游戏的开发经验,并列举若干技术要点及其解决方法。相似文献

16.

中国象棋人机对弈的自学习方法研究

付强陈焕文《计算机技术与发展》2007,17(12):76-79

机器博弈被认为是人工智能领域最具挑战性的研究方向之一。中国象棋计算机博弈的难度绝不亚于国际象棋，但是涉足学者太少，具有自学习能力的就更少了。介绍了中国象棋人机对弈原理，给出了近年来几类典型的评估函数学习方法及其原理，通过比较得出了最适合中国象棋使用的学习方法。分析了这些方法尚存在的问题，并提出了未来研究方向。相似文献

17.

中国象棋人机对弈的自学习方法研究

付强陈焕文《微机发展》2007,17(12):76-79

机器博弈被认为是人工智能领域最具挑战性的研究方向之一。中国象棋计算机博弈的难度绝不亚于国际象棋,但是涉足学者太少,具有自学习能力的就更少了。介绍了中国象棋人机对弈原理,给出了近年来几类典型的评估函数自学习方法及其原理,通过比较得出了最适合中国象棋使用的学习方法。分析了这些方法尚存在的问题,并提出了未来的研究方向。相似文献

18.

一种无可信第三方的智力扑克协议

刘镇杨晓元严波涛肖海燕《计算机应用》2009,29(7)

智力扑克是一种特定场景的安全多方计算,近些年来,学术界对智力扑克协议的研究基本都是基于可信第三方的.利用语义安全的加密体制,结合同时生效签名算法,巧妙地设计了一种不安全信道下无可信第三方的智力扑克协议.该协议能很好地确保游戏双方的公平性、能有效抵抗重放攻击,同时还具有不可否认性、不可伪造性和游戏过程可追踪性等优点. 相似文献

19.

The challenge of poker

《Artificial Intelligence》2002,134(1-2):201-240

Poker is an interesting test-bed for artificial intelligence research. It is a game of imperfect information, where multiple competing agents must deal with probabilistic knowledge, risk assessment, and possible deception, not unlike decisions made in the real world. Opponent modeling is another difficult problem in decision-making applications, and it is essential to achieving high performance in poker.This paper describes the design considerations and architecture of the poker program Poki. In addition to methods for hand evaluation and betting strategy, Poki uses learning techniques to construct statistical models of each opponent, and dynamically adapts to exploit observed patterns and tendencies. The result is a program capable of playing reasonably strong poker, but there remains considerable research to be done to play at a world-class level. 相似文献