期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

基于先验知识的改进强化学习及其在MAS中应用 总被引：1，自引：1，他引：1

毛俊杰刘国栋《计算机工程与应用》2008,44(24):156-158

针对传统的多Agent强化学习算法中,Agent学习效率低的问题,在传统强化学习算法中加入具有经验知识的函数;从心理学角度引入内部激励的概念,并将其作为强化学习的激励信号,与外部激励信号一同作用于强化学习的整个过程。最后将此算法运用到RoboCup仿真中,仿真结果表明该算法的学习效率和收敛速度明显优于传统的强化学习。相似文献

2.

一种基于Agent团队的强化学习模型与应用研究 总被引：22，自引：2，他引：20

蔡庆生张波《计算机研究与发展》2000,37(9):1087-1093

多Ａｇｅｎｔ学习是近年来受到较多关注的研究方向,以单Ａｇｅｎｔ强化Ｑ－ｌｅａｒｎｉｎｇ算法为基础,提出了一种基于Ａｇｅｎｔ团队的强化学习模,这个模型的最大特点是引入主导Ａｇｅｎｔ作为团队学习的主角,并通过主导Ａｇｅｎｔ的角色变换实现整个团队的学习。结合仿真机器人足球领域,设计了具体的应用模型,在几个方面对Ｑ－ｌｅａｒｎｉｎｇ进行扩充,并进行了实验,在仿真机器人足球领域的成功应用表明了这个模型的有效相似文献

3.

基于强化学习的多机器人协作 总被引：3，自引：0，他引：3

周浦城洪炳镕郭耸《计算机工程与应用》2005,41(28):10-12,90

提出了一种动态环境下多个机器人获取合作行为的强化学习方法,该方法采用基于瞬时奖励的Q-学习完成单个机器人的学习,并利用人工势场法的思想确定不同机器人的学习顺序,在此基础上采用交替学习来完成多机器人的学习过程。试验结果表明所提方法的可行性和有效性。相似文献

4.

基于神经网络的批强化学习在Robocup中的应用

李龙澍葛瑞峰王慧萍《计算机技术与发展》2009,19(7)

模拟机器人足球比赛(Robot World Cup,RoboCup)作为多智能体系统的一个通用的实验平台,通过它可以来检验各种理论、算法和框架等,已经成为人工智能的研究热点.针对在复杂条件下的使用传统Q学习方法所产生的收敛速度缓慢和泛化能力不强的问题,文中使用人工化能力,缩短了学习的时问.并最终将其运用到仿真组比赛的Keepaway模型中,以此验证了该方法的有效性. 相似文献

5.

仿真机器人足球中的强化学习

宋志伟陈小平《机器人》2003,25(Z1):761-766

本文总结当前仿真机器人足球中强化学习的研究进展,系统阐述在仿真机器人足球不同决策层次中使用强化学习的不同方法,针对仿真机器人足球的特点讨论当前使用的几种对环境状态空间进行泛化的方法,并展望今后强化学习在仿真机器人足球中的主要应用方向. 相似文献

6.

Q学习算法在RoboCup带球中的应用 总被引：1，自引：0，他引：1

张家旺韩光胜张伟《系统仿真技术》2005,1(2):84-87

机器人世界杯足球锦标赛(RoboCup)是全球影响力最大的机器人足球比赛之一,而仿真组比赛是其重要的组成部分。鉴于带球技术在仿真组比赛中的重要性,我们将Q学习算法应用于带球技术训练中,使智能体本身具有学习和适应能力,能够自己从环境中获取知识。本文描述了应用Q学习算法在特定场景中进行1vs.1带球技术训练的方法和实验过程,并将训练方法应用于实际球队的训练之中进行了验证。相似文献

7.

基于强化学习的RoboCup Keepaway高层抢球策略

《计算机应用与软件》2015,(10)

在Robo Cup Keepaway任务训练中,传统手工抢球策略的主观性强,对训练情形变化的适应性差,导致抢球球员任务完成时间长、抢断成功率低。针对这一问题,将强化学习应用于Keepaway中抢球球员的高层动作决策。通过对抢球任务特点的分析,合理设计了抢球球员强化学习模型的状态空间、动作空间及回报值,并给出了抢球球员的强化学习算法。实验结果表明经强化学习后,抢球球员能够根据比赛情形做出更客观的决策,决策效果显著优于手工策略。对于4v3和5v4规模的典型Keepaway任务,抢球球员采用学习后的策略决策时,抢球任务完成时间至少缩短了7.1%,抢断成功率至少提升了15.0%。相似文献

8.

多智能体强化学习及其在足球机器人角色分配中的应用 总被引：2，自引：0，他引：2

段勇崔宝侠徐心和《控制理论与应用》2009,26(4):371-376

足球机器人系统是一个典型的多智能体系统, 每个机器人球员选择动作不仅与自身的状态有关, 还要受到其他球员的影响, 因此通过强化学习来实现足球机器人决策策略需要采用组合状态和组合动作. 本文研究了基于智能体动作预测的多智能体强化学习算法, 使用朴素贝叶斯分类器来预测其他智能体的动作. 并引入策略共享机制来交换多智能体所学习的策略, 以提高多智能体强化学习的速度. 最后, 研究了所提出的方法在足球机器人动态角色分配中的应用, 实现了多机器人的分工和协作. 相似文献

9.

PMBC及其在Robocup中的应用

谢雅彭军吴敏《计算机仿真》2006,23(3):120-122,176

智能体间的协作能够提高多智能体系统的智能度。而规划作为一种重要的问题求解技术,能够有效地实现多智能体间的协作。该文介绍了一种基于协怍的规划模型及此模型的前提、动作和终止条件三要素,通过对特定状态和局部协作的提前规划,有效地实现了多智能体系统中智能体间的协作。通过把此规划模型运用到典型的多智能体系统一机器人足球比赛中,证明了在多智能体系统中应用此规划模型不仅能够提高单个智能体的反应速度,还可以提高整个系统的运行效率。相似文献

10.

强化学习在机器人足球比赛中的应用 总被引：8，自引：1，他引：8

孟伟洪炳熔韩学东《计算机应用研究》2002,19(6):79-81

机器人足球比赛是一个有趣并且复杂的新兴的人工智能研究领域 ,它是一个典型的多智能体系统。采用强化学习方法研究了机器人足球比赛中的足球机器人的动作选择问题 ,扩展了单个Agent的强化学习方法 ,提出了基于多Agents的强化学习方法 ,最后给出了实验结果。相似文献

11.

Robocup半场防守中的一种强化学习算法

冯林李琛孙焘《计算机技术与发展》2008,18(1):59-62

Robocup仿真比赛是研究多Agent之间协作和对抗理论的优秀平台,提高Agent的防守能力是一个具有挑战性的问题.为制定合理的防守策略,将Robocup比赛中的一个子任务--半场防守任务分解为多个一对一防守任务,采用了基于Markov对策的强化学习方法解决这种零和交互问题,给出了具体的学习算法.将该算法应用到3D仿真球队--大连理工大学梦之翼(Fantasia)球队,在实际比赛过程中取得了良好效果.验证了采用Markov零和对策的强化学习算法在一对一防守中优于手工代码的结论. 相似文献

12.

Robocup半场防守中的一种强化学习算法

冯林李琛孙焘《微机发展》2008,(1)

Robocup仿真比赛是研究多Agent之间协作和对抗理论的优秀平台,提高Agent的防守能力是一个具有挑战性的问题。为制定合理的防守策略,将Robocup比赛中的一个子任务——半场防守任务分解为多个一对一防守任务,采用了基于Markov对策的强化学习方法解决这种零和交互问题,给出了具体的学习算法。将该算法应用到3D仿真球队——大连理工大学梦之翼(Fantasia)球队,在实际比赛过程中取得了良好效果。验证了采用Markov零和对策的强化学习算法在一对一防守中优于手工代码的结论。相似文献

13.

强化学习及其在电脑围棋中的应用 总被引：3，自引：0，他引：3

陈兴国俞扬《自动化学报》2016,42(5):685-695

强化学习是一类特殊的机器学习, 通过与所在环境的自主交互来学习决策策略, 使得策略收到的长期累积奖赏最大. 最近, 在围棋和电子游戏等领域, 强化学习被成功用于取得人类水平的操作能力, 受到了广泛关注. 本文将对强化学习进行简要介绍, 重点介绍基于函数近似的强化学习方法, 以及在围棋等领域中的应用. 相似文献

14.

分层强化学习在足球机器人中的应用

邢宇明白振兴《微计算机信息》2008,24(32)

提出将MaxQ分层增强式学习应用于足球机器人进攻策略学习,提高了强化学习的性能.通过在Robocup中的应用和实验.得出基于MaxQ分层强化学习的效果要优于传统的强化学习方法. 相似文献

15.

多智能主体协作规划理论及其在RoboCup中的应用

杜陶钧黄鸿《计算机仿真》2004,21(7):125-128

机器人足球赛是近年人工智能迅速发展起来的一个重要的研究领域。基于此平台,研究了将规划、竞争、约束、协调纳入一个协作规划框架之中的多智能体协作规划理论,并将其分为5个阶段①产生协作目标;②协作规划;③寻求协作伙伴;④选择协作方案;⑤实现所确定的目标。最后探讨了应用到机器人足球赛的一些技术问题。在比赛中,决策速度也较好。相似文献

16.

分阶Dyna强化学习算法

赵昀陈庆伟胡维礼《计算机仿真》2009,26(7):154-158

针对现有Dyna强化学习体系结构下,"规划"和"学习"在计算资源分配上的不合理问题,提出了一种分阶Dyna体系结构,随着经验知识的不断积累,将学习过程划分为探索阶段、变比重学习阶段和优化阶段,分别进行"规划"和"学习"的协调控制,大大减少了计算资源的浪费.结合传统的Q-学习算法,设计了分阶Dyna-Q强化学习算法,以适应动态不确定环境下的任务.在一个标准强化学习问题中,验证了所设计的分阶Dyna强化学习算法比基本Dyna强化学习算法具有更好的学习性能. 相似文献

17.

再励学习在卫星姿态控制中的仿真研究

崔晓婷刘向东张宇河《计算机仿真》2006,23(10):19-22

为了满足卫星姿态控制系统对控制精度、抗干扰和鲁棒性要求的不断提高,将模糊神经网络结合再励学习算法应用到卫星姿态控制系统中,即可以在不需要被控卫星的精确数学模型的前提下解决网络参数在线调整的问题,又可以在无需训练样本的前提下实现控制器的在线学习。最后同传统PID控制相比的仿真结果表明,基于再励学习的三轴稳定卫星姿态控制系统不仅可以达到卫星姿态控制任务对控制精度的要求,还可以有效地克服干扰,从而达到了在线学习的目的。相似文献

18.

贝叶斯学习与强化学习结合技术的研究

陈飞王本年高阳陈兆乾陈世福《计算机科学》2006,33(2):173-177

强化学习的研究需要解决的重要难点之一是:探索未知的动作和采用已知的最优动作之间的平衡。贝叶斯学习是一种基于已知的概率分布和观察到的数据进行推理,做出最优决策的概率手段。因此,把强化学习和贝叶斯学习相结合,使 Agent 可以根据已有的经验和新学到的知识来选择采用何种策略:探索未知的动作还是采用已知的最优动作。本文分别介绍了单 Agent 贝叶斯强化学习方法和多 Agent 贝叶斯强化学习方法:单 Agent 贝叶斯强化学习包括贝叶斯 Q 学习、贝叶斯模型学习以及贝叶斯动态规划等;多 Agent 贝叶斯强化学习包括贝叶斯模仿模型、贝叶斯协同方法以及在不确定下联合形成的贝叶斯学习等。最后,提出了贝叶斯在强化学习中进一步需要解决的问题。相似文献