期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

冯林李琛孙焘《计算机技术与发展》2008,18(1):59-62

Robocup仿真比赛是研究多Agent之间协作和对抗理论的优秀平台,提高Agent的防守能力是一个具有挑战性的问题.为制定合理的防守策略,将Robocup比赛中的一个子任务--半场防守任务分解为多个一对一防守任务,采用了基于Markov对策的强化学习方法解决这种零和交互问题,给出了具体的学习算法.将该算法应用到3D仿真球队--大连理工大学梦之翼(Fantasia)球队,在实际比赛过程中取得了良好效果.验证了采用Markov零和对策的强化学习算法在一对一防守中优于手工代码的结论. 相似文献

2.

基于后悔值的多Agent冲突博弈强化学习模型 总被引：1，自引：0，他引：1

肖正张世永《软件学报》2008,19(11):2957-2967

对于冲突博弈,研究了一种理性保守的行为选择方法,即最小化最坏情况下Agent的后悔值.在该方法下,Agent当前的行为策略在未来可能造成的损失最小,并且在没有任何其他Agent信息的条件下,能够得到Nash均衡混合策略.基于后悔值提出了多Agent复杂环境下冲突博弈的强化学习模型以及算法实现.该模型中通过引入交叉熵距离建立信念更新过程,进一步优化了冲突博弈时的行为选择策略.基于Markov重复博弈模型验证了算法的收敛性,分析了信念与最优策略的关系.此外,与MMDP(multi-agent markov decision process)下Q学习扩展算法相比,该算法在很大程度上减少了冲突发生的次数,增强了Agent行为的协调性,并且提高了系统的性能,有利于维持系统的稳定. 相似文献

3.

多代理最优响应Q学习及收敛性证明 总被引：1，自引：1，他引：0

张化祥黄上腾《计算机科学》2004,31(4):96-98

在分析了多代理强化学习的基础上,提出了一种基于对手策略假设的代理最优响应强化学习规则,并证明了当对手策略满足一定条件时,基于该学习规则的Q值收敛。实验结果与理论证明相一致。相似文献

4.

基于Markov对策的多智能体协调方法及其在Robot Soccer中的应用 总被引：3，自引：1，他引：2

范波潘泉张洪才《机器人》2005,27(1):46-51

提出了一种分层的基于Markov对策的多智能体协调方法,根据多智能体之间的竞争和合作的关系,高层采用零和Markov对策解决与对手之间的竞争,低层采用团队Markov对策完成与团队内部的合作．通过在Robot Soccer中的应用和实验,说明了基于Markov对策的多智能体协调方法优于传统的多智能体学习．相似文献

5.

基于强化学习与对策的多代理协同技术 总被引：2，自引：0，他引：2

张化祥黄上腾《计算机科学》2004,31(8):116-119

本文从强化学习与Markov对策相结合方面考察了多代理协同技术的发展,系统地分析了已有的研究成果,并指出基于强化学习与对策的多代理协同技术研究中存在的问题及未来研究方向。相似文献

6.

基于Markov对策的强化学习及其在RoboCup中的应用

李镇宇陈小平《计算机工程与应用》2005,41(27):202-204,214

论文研究了Markov对策模型作为学习框架的强化学习,提出了针对RoboCup仿真球队决策问题这一类复杂问题的学习模型和具体算法。在实验中,成功实现了守门员决策,并取得了良好的效果,证明了算法的可行性和有效性。相似文献

7.

强化学习中的混合探索方案

李春贵陈波《计算机工程与设计》2006,27(9):1595-1597

对强化学习中的探索方案进行了研究,描述了间接探索和直接探索两种方案各自的特点.综合它们的优点,提出了一种集直接探索和间接探索为一体的混合探索方案.该方案在学习的初始阶段,由于对环境的经验知识较少,侧重于直接探索;在获得比较多的经验后,侧重于间接探索,使得行动选择渐渐趋向于最优策略.实验表明该方案比纯粹的间接探索-greedy方案有更高的学习效率. 相似文献

8.

多步截断优先扫描强化学习算法

李春贵《计算机工程》2005,31(11):13-15

研究了优先扫描的强化学习方法,通过定义新的迹,把多步截断即时差分学习用于集成规划的优先扫描强化学习,用多步截断即时差分来定义扫描优先权,提出一种改进的优先扫描强化学习算法并进行仿真实验,实验结果表明,新算法的学习效率有明显的提高。相似文献

9.

内在激励强化学习及其在Robocup仿真中的应用 总被引：5，自引：0，他引：5

李楠刘国栋《计算机仿真》2006,23(4):160-162

针对以往的强化学习对单步动作学习的效率较低,从心理学角度引入内在激励的概念,并将其作为强化学习的激励信号,与外部激励信号一同作用于强化学习的整个过程。改变了传统意义上的强化学习的框架模式。在学习的过程中,不但要学习单步的动作值,同时还学连续动作的技巧值,通过构建各种“技巧”,来提高解决新问题的能力,使学习的效率得到很大的提高。最后将内在激励的强化学习运用于Robocup仿真组足球比赛当中。相似文献

10.

一种模糊强化学习算法及其在RoboCup中的应用 总被引：1，自引：0，他引：1

高建清王浩于磊方宝富《计算机工程与应用》2006,42(6):52-54

传统的强化学习算法只能解决离散状态空间和动作空间的学习问题。论文提出一种模糊强化学习算法,通过模糊推理系统将连续的状态空间映射到连续的动作空间,然后通过学习得到一个完整的规则库。这个规则库为Agent的行为选择提供了先验知识,通过这个规则库可以实现动态规划。作者在RoboCup环境中验证了这个算法,实现了踢球策略的优化。相似文献

11.

一种中型组机器人足球系统的任务分解方法

魏良杨宜民《广东电脑与电讯》2011,(3):41-43,46

针对Robocup中型组足球机器人比赛系统的环境高度动态变化、高度对抗性的特点,提出了一种新的基于对方机器人位置的足球机器人系统任务分解方法.改变了将机器人看做一个点的传统处理方式,引入球员辐射区以描述某一时刻机器人的活动范围及其倾向;根据对方在球场上位置分布及其稀疏程度动态实现球场动态分割,从而使任务分解具有灵活性、... 相似文献

12.

单agent强化学习与多agent强化学习比较研究

吴元斌《电脑与信息技术》2009,17(1):8-11

学习、交互及其结合是建立健壮、自治agent的关键必需能力。强化学习是agent学习的重要部分,agent强化学习包括单agent强化学习和多agent强化学习。文章对单agent强化学习与多agent强化学习进行了比较研究,从基本概念、环境框架、学习目标、学习算法等方面进行了对比分析,指出了它们的区别和联系,并讨论了它们所面临的一些开放性的问题。相似文献

13.

The Lagging Anchor Algorithm: Reinforcement Learning in Two-Player Zero-Sum Games with Imperfect Information

Dahl Fredrik A. 《Machine Learning》2002,49(1):5-37

The article describes a gradient search based reinforcement learning algorithm for two-player zero-sum games with imperfect information. Simple gradient search may result in oscillation around solution points, a problem similar to the Crawford puzzle. To dampen oscillations, the algorithm uses lagging anchors, drawing the strategy state of the players toward a weighted average of earlier strategy states. The algorithm is applicable to games represented in extensive form. We develop methods for sampling the parameter gradient of a player's performance against an opponent, using temporal-difference learning. The algorithm is used successfully for a simplified poker game with infinite sets of pure strategies, and for the air combat game Campaign, using neural nets. We prove exponential convergence of the algorithm for a subset of matrix games. 相似文献

14.

基于逆强化学习的示教学习方法综述

张凯峰俞扬《计算机研究与发展》2019,56(2):254-261

随着强化学习在自动机器人控制、复杂决策问题上的广泛应用,强化学习逐渐成为机器学习领域中的一大研究热点.传统强化学习算法是一种通过不断与所处环境进行自主交互并从中得到策略的学习方式.然而,大多数多步决策问题难以给出传统强化学习所需要的反馈信号.这逐渐成为强化学习在更多复杂问题中实现应用的瓶颈.逆强化学习是基于专家决策轨迹最优的假设,在马尔可夫决策过程中逆向求解反馈函数的一类算法.目前,通过将逆强化学习和传统正向强化学习相结合设计的一类示教学习算法已经在机器人控制等领域取得了一系列成果.对强化学习、逆强化学习以及示教学习方法做一定介绍,此外还介绍了逆强化学习在应用过程中所需要解决的问题以及基于逆强化学习的示教学习方法. 相似文献

15.

安全强化学习综述

王雪松王荣荣程玉虎《自动化学报》2023,49(9):1813-1835

强化学习(Reinforcement learning, RL)在围棋、视频游戏、导航、推荐系统等领域均取得了巨大成功. 然而, 许多强化学习算法仍然无法直接移植到真实物理环境中. 这是因为在模拟场景下智能体能以不断试错的方式与环境进行交互, 从而学习最优策略. 但考虑到安全因素, 很多现实世界的应用则要求限制智能体的随机探索行为. 因此, 安全问题成为强化学习从模拟到现实的一个重要挑战. 近年来, 许多研究致力于开发安全强化学习(Safe reinforcement learning, SRL)算法, 在确保系统性能的同时满足安全约束. 本文对现有的安全强化学习算法进行全面综述, 将其归为三类: 修改学习过程、修改学习目标、离线强化学习, 并介绍了5大基准测试平台: Safety Gym、safe-control-gym、SafeRL-Kit、D4RL、NeoRL. 最后总结了安全强化学习在自动驾驶、机器人控制、工业过程控制、电力系统优化和医疗健康领域中的应用, 并给出结论与展望. 相似文献

16.

强化学习研究综述

YU Jian-peng GUI Jian-ping 《数字社区&智能家居》2008,(15)

强化学习通过试错与环境交互获得策略的改进,其自学习和在线学习的特点使其成为机器学习研究的一个重要分支,该文首先介绍了强化学习的基本原理结构和各种算法;然后介绍了近年来强化学习的应用等热点问题。相似文献