首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到15条相似文献,搜索用时 46 毫秒
1.
研究在不完美信息扩展式博弈中对次优对手弱点的利用.针对该领域中一种常用方法——对手建模方法——的不足,提出了从遗憾最小化的角度来利用次优对手弱点的思想,并基于一种离线的均衡计算方法——虚拟遗憾最小化方法——将其扩展到在线博弈的场景中,实现对次优对手弱点的利用.提出了从博弈结果中估计各个信息集的虚拟价值的方法,给出2种估计手段:静态估计法和动态估计法.静态估计法直接从博弈结果的分布中进行估计,并对每个结果给以相等的估计权重;而动态估计法则对新产生的博弈结果给以较高的估计权重,以便快速地适应对手的策略变化.基于2种估计方法,提出在线博弈中虚拟遗憾最小化的算法,并在基于单牌扑克的实验中,与4种在线学习算法(DBBR,MCCFR-os,Q-learning,Sarsa)进行了对比.实验结果显示所提出的算法不仅对较弱对手的利用效果最好,还能在与4种对比算法的比赛中取得最高的胜率.  相似文献   

2.
非完全信息下的人机对抗通常可以通过双人零和博弈模型加以描述,反事实后悔最小化(counterfactual regret minimization, CFR)是处理非完全信息双人零和博弈的一种流行算法.然而现有CFR及其变体算法在迭代过程中使用固定的后悔值计算和策略更新类型,在非完全信息扩展式博弈下表现各有优劣,泛化性能薄弱.针对这一问题,本文将强化学习近端策略优化(proximal policy optimization,PPO)算法与CFR算法相结合,提出一种PPO-CFR算法,通过训练出理性的智能体,从而实现CFR迭代过程后悔值计算和策略更新类型的自适应选择,以提高算法的泛化性能,并实现非完全信息扩展式博弈的策略优化.本文采用通用的扑克博弈实验验证所提算法,并制定逐步奖励函数训练智能体的动作策略,实验结果表明,与现有方法相比, PPO-CFR算法具有更好的泛化性能和更低的可利用度,迭代策略更为逼近纳什均衡策略.  相似文献   

3.
基于不完美信息博弈的网上购物信任问题分析   总被引:2,自引:0,他引:2  
随着网上购物在中国的快速发展,越来越多的网上欺诈和交易纠纷也不断发生.结合完全但不完美信息动态博弈和重复博弈的思想,通过博弈模型对网上欺诈产生的原因、条件、制约因素以及治理的途径作一些解释和探讨,并对我国健全网上信用机制提出一些建议.  相似文献   

4.
计算机博弈是人工智能领域的“果蝇”,备受人工智能领域研究者的关注,已然成为研究认知智能的有利平台。扑克类博弈对抗问题可建模成边界确定、规则固定的不完美信息动态博弈,计算机扑克 AI 需要具备不完全信息动态决策、对手误导欺诈行为识别以及多回合筹码和风险管理等能力。首先梳理了以德州扑克为代表的计算机扑克智能博弈的发展历程,其次针对计算机扑克智能博弈典型模型算法、关键技术以及存在的主要问题进行了综述分析,最后探讨了计算机扑克智能博弈的未来发展趋势和应用前景。  相似文献   

5.
智能博弈对抗是人工智能认知决策领域亟待解决的前沿热点问题。以反事实后悔最小化算法为代表的博弈论方法和以虚拟自博弈算法为代表的强化学习方法,依托大规模算力支撑,在求解智能博弈策略中脱颖而出,但对两种范式之间的关联缺乏深入发掘。文中针对智能博弈对抗问题,定义智能博弈对抗的内涵与外延,梳理智能博弈对抗的发展历程,总结其中的关键挑战。从博弈论和强化学习两种视角出发,介绍智能博弈对抗模型、算法。多角度对比分析博弈理论和强化学习的优势与局限,归纳总结博弈理论与强化学习统一视角下的智能博弈对抗方法和策略求解框架,旨在为两种范式的结合提供方向,推动智能博弈技术前向发展,为迈向通用人工智能蓄力。  相似文献   

6.
张蒙  李凯  吴哲  臧一凡  徐航  兴军亮 《自动化学报》2022,48(4):1004-1017
以德州扑克游戏为代表的大规模不完美信息博弈是现实世界中常见的一种博弈类型. 现有以求解纳什均衡策略为目标的主流德州扑克求解算法存在依赖博弈树模型、算力消耗大、策略过于保守等问题, 导致智能体在面对不同对手时无法最大化自身收益. 为解决上述问题, 提出一种轻量高效且能快速适应对手策略变化进而剥削对手的不完美信息博弈求解框架. 本框架分为智能体离线训练和在线博弈两个阶段. 第1阶段基于演化学习思想训练智能体, 得到能够剥削不同博弈风格对手的策略神经网络. 在第2博弈阶段中, 智能体在线建模并适应未知风格对手, 利用种群策略集成的方法最大化剥削对手. 在两人无限注德州扑克环境中的实验结果表明, 本框架在面对动态对手策略时, 相比已有方法能够大幅提升博弈性能.  相似文献   

7.
智能博弈对抗一直是人工智能研究的热点。在博弈对抗环境中,通过对对手进行建模,可以推测敌对智能体动作、目标、策略等相关属性,为博弈策略制定提供关键信息。对手建模方法在竞技类游戏和作战仿真推演等领域的应用前景广阔,博弈策略的制定必须以博弈各方的行动策略为前提,因此建立一个准确的对手行为模型对于预测其意图尤其重要。从内涵、方法、应用三个方面,阐述了对手建模的必要性,对现有建模方式进行了分类;对基于强化学习的预测方法、基于心智理论的推理方法和基于贝叶斯的优化方法进行了梳理与总结;以序贯博弈(德州扑克)、即时策略博弈(星际争霸)和元博弈为典型应用场景,分析了智能博弈对抗过程中的对手建模的作用;从有限理性、策略欺骗性和可解释性三个方面进行了对手建模技术发展的展望。  相似文献   

8.
众包(crowdsourcing)通常涉及到目标各不相同的多个参与者.设计有效的众包机制,使得各个参与者在竞争中实现共赢,是众包理论研究中的基本问题之一.当前,众包机制设计通常基于发包方-标注者直接进行交互的两方博弈模型.而现实应用中,发包方与标注者之间往往通过平台进行交互,从而构成三方博弈下的众包市场.其中的发包方-平台博弈机制设计是过往众包研究中未曾涉及的全新问题.将三方众包市场建模为不完全信息博弈,并证明该博弈问题的Nash均衡可通过在线学习来最小化发包方和平台的累计遗憾而达到.在单发包方情形下,证明经典的EXP3算法对于发包方的最优性,并基于反事实遗憾最小化技术为平台设计了有效策略.同时,将单发包方情形下发包方和平台策略拓展到多发包方情形下并给出理论分析.合成及真实数据集上的实验验证了该方法的有效性.  相似文献   

9.
对抗条件下的资源分配是大多数博弈决策问题的核心.从拟合最优解到博弈均衡解,基于博弈论的资源分配策略求解是认知决策领域的前沿课题.文中围绕对抗条件下资源分配的布洛托上校博弈模型和求解方法展开综述分析.首先,简要介绍了离线与在线策略学习的区别,策略博弈与相关解概念,在线优化与遗憾值;其次,梳理了 6类布洛托上校博弈典型模型(连续布洛托上校博弈、离散布洛托上校博弈、广义布洛托上校博弈、广义乐透布洛托博弈、广义规则布洛托上校博弈与在线离散布洛托上校博弈);然后,区分2个阶段(离线与在线)3类博弈场景(单次、重复、多阶段),分析了多类布洛托上校博弈求解方法;最后,从典型应用探索、广义博弈模型、博弈求解方法、未来研究展望共4方面进行了未来研究前沿分析及展望.通过对当前布洛托上校博弈进行概述,期望能为对抗条件下资源分配与博弈论相关领域的研究带来启发.  相似文献   

10.
文章从信息不对称的角度建立网络零售市场上买卖双方的博弈模型,并提出网络零售市场引入了惩罚机制和信誉评价机制等约束机制对于减少投机者由于信息优势进行道德风险和逆向选择的机会。最后通过淘宝网的实证分析认为一方面通过制度方式加大企业欺骗消费者的成本,另一方优质企业要通过一系列手段向消费者传递企业信号。  相似文献   

11.
Li X.  Wang Z.  Liu B.  Wu L. 《智能系统学报》2012,(收录汇总):1143-1155
Mahjong and its different variants have complex rules. Therefore, building a high-level Mahjong game artificial intelligence (AI) algorithm and its test environment is challenging. Through the analysis of relevant research literature on Mahjong game, this paper identified two types of Mahjong AI construction methods based on knowledge and data. Moreover, the advantages and disadvantages of each typical method are analyzed, emphasizing the construction method of Suphx. The problems and challenges encountered in constructing Mahjong AI are identified, suggesting the need to apply experience replay, hierarchical reinforcement learning, curiosity model, opponent model, metalearning, transfer learning, and curriculum learning to the AI algorithm optimization of Mahjong game and construct diversified Mahjong AI evaluation indicators, general confrontation platforms, and high-quality data sets. These problems are all promising research directions for the future. © 2023, Editorial Department of CAAI Transactions on Intelligent Systems. All rights reserved.  相似文献   

12.
张明悦  金芝  刘坤 《软件学报》2024,35(2):739-757
合作-竞争混合型多智能体系统由受控的目标智能体和不受控的外部智能体组成.目标智能体之间互相合作,同外部智能体展开竞争,应对环境和外部智能体的动态变化,最终完成指定的任务.针对如何训练目标智能体使他们获得完成任务的最优策略的问题,现有工作从两个方面展开:(1)仅关注目标智能体间的合作,将外部智能体视为环境的一部分,利用多智能体强化学习来训练目标智能体.这种方法难以应对外部智能体策略未知或者动态改变的情况;(2)仅关注目标智能体和外部智能体间的竞争,将竞争建模为双人博弈,采用自博弈的方法训练目标智能体.这种方法主要针对单个目标智能体和单个外部智能体的情况,难以扩展到由多个目标智能体和多个外部智能体组成的系统中.结合这两类研究,提出一种基于虚拟遗憾优势的自博弈方法.具体地,首先以虚拟遗憾最小化和虚拟多智能体策略梯度为基础,设计虚拟遗憾优势策略梯度方法,使目标智能体能更准确地更新策略;然后,引入模仿学习,以外部智能体的历史决策轨迹作为示教数据,模仿外部智能体的策略,显式地建模外部智能体的行为,来应对自博弈过程中外部智能体策略的动态变化;最后,以虚拟遗憾优势策略梯度和外部智能体行为建模为基础,设计一种自博弈训练方法,该方法能够在外部智能体策略未知或者动态变化的情况下,为多个目标智能体训练出最优的联合策略.以协同电磁对抗为研究案例,设计具有合作-竞争混合特征的 3 个典型任务.实验结果表明,同其他方法相比,所提方法在自博弈效果方面有至少78%的提升.  相似文献   

13.
    
Multi-agent systems can solve scientific issues related to complex systems that are difficult or impossible for a single agent to solve through mutual collaboration and cooperation optimization. In a multi-agent system, agents with a certain degree of autonomy generate complex interactions due to the correlation and coordination, which is manifested as cooperative/competitive behavior. This survey focuses on multi-agent cooperative optimization and cooperative/non-cooperative games. Starting from cooperative optimization, the studies on distributed optimization and federated optimization are summarized. The survey mainly focuses on distributed online optimization and its application in privacy protection, and overviews federated optimization from the perspective of privacy protection me- chanisms. Then, cooperative games and non-cooperative games are introduced to expand the cooperative optimization problems from two aspects of minimizing global costs and minimizing individual costs, respectively. Multi-agent cooperative and non-cooperative behaviors are modeled by games from both static and dynamic aspects, according to whether each player can make decisions based on the information of other players. Finally, future directions for cooperative optimization, cooperative/non-cooperative games, and their applications are discussed.   相似文献   

14.
研究分布式在线复合优化场景中的几种反馈延迟, 包括梯度反馈、单点Bandit反馈和两点Bandit反馈. 其中, 每个智能体的局部目标函数由一个强凸光滑函数与一个凸的非光滑正则项组成. 在分布式场景下, 研究每个智能体具有不同时变延迟的场景. 基于近端梯度下降算法, 分别设计这三种延迟反馈的分布式在线复合优化算法, 并且对动态遗憾上界进行分析. 分析结果表示, 延迟梯度反馈和延迟两点Bandit反馈的动态遗憾上界阶数在期望意义下相同, 而延迟单点Bandit反馈的动态遗憾上界稍差于前两者. 这表明, 存在延迟时, 两点Bandit反馈可以在期望意义下达到与梯度反馈相同阶数的动态遗憾上界, 且在步长选择合适的情况下, 三种反馈类型的平均延迟在动态遗憾上具有相同的阶数. 最后通过仿真实验验证了算法的性能和理论分析结果.  相似文献   

15.
    
Abstract   In recent years, digital games have assumed an important place in the lives of children and adolescents. Effective content design is crucial to the success of digital game-based learning. Therefore, the tool for assessing the effectiveness of game design is accordingly very important for parents and teachers, so that they may encourage or discourage students to play. The purpose of this study is to develop an assessment tool to examine the educational values of digital games. In the first phase of this research, the research team developed the indices for assessing the educational values of digital games. An expert panel consisting of game scholars and professional game designers was established to construct the indices for evaluating digital games in three focus group discussions. Seventy-four game evaluation indices were sorted into seven categories: mentality change, emotional fulfilment, knowledge enhancement, thinking skill development, interpersonal skill development, spatial ability development and bodily coordination. In the second phase of the research, the game designers were asked to assess certain games by using the 74 indices. Meanwhile, the game scholars were also asked to evaluate the same pool of games by the same indices. The assessments by both the scholars and designers were then compared and the similarities were found. This research provided a preliminary framework for future game designers, parents and teachers in assessing educational values of digital games.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号