共查询到18条相似文献,搜索用时 62 毫秒
1.
针对传统的多Agent强化学习算法中,Agent学习效率低的问题,在传统强化学习算法中加入具有经验知识的函数;从心理学角度引入内部激励的概念,并将其作为强化学习的激励信号,与外部激励信号一同作用于强化学习的整个过程。最后将此算法运用到RoboCup仿真中,仿真结果表明该算法的学习效率和收敛速度明显优于传统的强化学习。 相似文献
2.
一种基于Agent团队的强化学习模型与应用研究 总被引:22,自引:2,他引:20
多Agent学习是近年来受到较多关注的研究方向,以单Agent强化Q-learning算法为基础,提出了一种基于Agent团队的强化学习模,这个模型的最大特点是引入主导Agent作为团队学习的主角,并通过主导Agent的角色变换实现整个团队的学习。结合仿真机器人足球领域,设计了具体的应用模型,在几个方面对Q-learning进行扩充,并进行了实验,在仿真机器人足球领域的成功应用表明了这个模型的有效 相似文献
3.
基于强化学习的多机器人协作 总被引:3,自引:0,他引:3
提出了一种动态环境下多个机器人获取合作行为的强化学习方法,该方法采用基于瞬时奖励的Q-学习完成单个机器人的学习,并利用人工势场法的思想确定不同机器人的学习顺序,在此基础上采用交替学习来完成多机器人的学习过程。试验结果表明所提方法的可行性和有效性。 相似文献
4.
模拟机器人足球比赛(Robot World Cup,RoboCup)作为多智能体系统的一个通用的实验平台,通过它可以来检验各种理论、算法和框架等,已经成为人工智能的研究热点.针对在复杂条件下的使用传统Q学习方法所产生的收敛速度缓慢和泛化能力不强的问题,文中使用人工化能力,缩短了学习的时问.并最终将其运用到仿真组比赛的Keepaway模型中,以此验证了该方法的有效性. 相似文献
5.
本文总结当前仿真机器人足球中强化学习的研究进展,系统阐述在仿真机器人足球不同决策层次中使用强化学习的不同方法,针对仿真机器人足球的特点讨论当前使用的几种对环境状态空间进行泛化的方法,并展望今后强化学习在仿真机器人足球中的主要应用方向. 相似文献
6.
7.
《计算机应用与软件》2015,(10)
在Robo Cup Keepaway任务训练中,传统手工抢球策略的主观性强,对训练情形变化的适应性差,导致抢球球员任务完成时间长、抢断成功率低。针对这一问题,将强化学习应用于Keepaway中抢球球员的高层动作决策。通过对抢球任务特点的分析,合理设计了抢球球员强化学习模型的状态空间、动作空间及回报值,并给出了抢球球员的强化学习算法。实验结果表明经强化学习后,抢球球员能够根据比赛情形做出更客观的决策,决策效果显著优于手工策略。对于4v3和5v4规模的典型Keepaway任务,抢球球员采用学习后的策略决策时,抢球任务完成时间至少缩短了7.1%,抢断成功率至少提升了15.0%。 相似文献
8.
多智能体强化学习及其在足球机器人角色分配中的应用 总被引:2,自引:0,他引:2
足球机器人系统是一个典型的多智能体系统, 每个机器人球员选择动作不仅与自身的状态有关, 还要受到其他球员的影响, 因此通过强化学习来实现足球机器人决策策略需要采用组合状态和组合动作. 本文研究了基于智能体动作预测的多智能体强化学习算法, 使用朴素贝叶斯分类器来预测其他智能体的动作. 并引入策略共享机制来交换多智能体所学习的策略, 以提高多智能体强化学习的速度. 最后, 研究了所提出的方法在足球机器人动态角色分配中的应用, 实现了多机器人的分工和协作. 相似文献
9.
10.
11.
Robocup仿真比赛是研究多Agent之间协作和对抗理论的优秀平台,提高Agent的防守能力是一个具有挑战性的问题.为制定合理的防守策略,将Robocup比赛中的一个子任务--半场防守任务分解为多个一对一防守任务,采用了基于Markov对策的强化学习方法解决这种零和交互问题,给出了具体的学习算法.将该算法应用到3D仿真球队--大连理工大学梦之翼(Fantasia)球队,在实际比赛过程中取得了良好效果.验证了采用Markov零和对策的强化学习算法在一对一防守中优于手工代码的结论. 相似文献
12.
13.
强化学习及其在电脑围棋中的应用 总被引:3,自引:0,他引:3
强化学习是一类特殊的机器学习, 通过与所在环境的自主交互来学习决策策略, 使得策略收到的长期累积奖赏最大. 最近, 在围棋和电子游戏等领域, 强化学习被成功用于取得人类水平的操作能力, 受到了广泛关注. 本文将对强化学习进行简要介绍, 重点介绍基于函数近似的强化学习方法, 以及在围棋等领域中的应用. 相似文献
14.
提出将MaxQ分层增强式学习应用于足球机器人进攻策略学习,提高了强化学习的性能.通过在Robocup中的应用和实验.得出基于MaxQ分层强化学习的效果要优于传统的强化学习方法. 相似文献
15.
机器人足球赛是近年人工智能迅速发展起来的一个重要的研究领域。基于此平台,研究了将规划、竞争、约束、协调纳入一个协作规划框架之中的多智能体协作规划理论,并将其分为5个阶段①产生协作目标;②协作规划;③寻求协作伙伴;④选择协作方案;⑤实现所确定的目标。最后探讨了应用到机器人足球赛的一些技术问题。在比赛中,决策速度也较好。 相似文献
16.
17.
18.
强化学习的研究需要解决的重要难点之一是:探索未知的动作和采用已知的最优动作之间的平衡。贝叶斯学习是一种基于已知的概率分布和观察到的数据进行推理,做出最优决策的概率手段。因此,把强化学习和贝叶斯学习相结合,使 Agent 可以根据已有的经验和新学到的知识来选择采用何种策略:探索未知的动作还是采用已知的最优动作。本文分别介绍了单 Agent 贝叶斯强化学习方法和多 Agent 贝叶斯强化学习方法:单 Agent 贝叶斯强化学习包括贝叶斯 Q 学习、贝叶斯模型学习以及贝叶斯动态规划等;多 Agent 贝叶斯强化学习包括贝叶斯模仿模型、贝叶斯协同方法以及在不确定下联合形成的贝叶斯学习等。最后,提出了贝叶斯在强化学习中进一步需要解决的问题。 相似文献