共查询到19条相似文献,搜索用时 125 毫秒
1.
多Agent协作追捕问题是多Agent协调与协作研究中的一个典型问题。针对具有学习能力的单逃跑者追捕问题,提出了一种基于博弈论及Q学习的多Agent协作追捕算法。首先,建立协作追捕团队,并构建协作追捕的博弈模型;其次,通过对逃跑者策略选择的学习,建立逃跑者有限的Step-T累积奖赏的运动轨迹,并把运动轨迹调整到追捕者的策略集中;最后,求解协作追捕博弈得到Nash均衡解,每个Agent执行均衡策略完成追捕任务。同时,针对在求解中可能存在多个均衡解的问题,加入了虚拟行动行为选择算法来选择最优的均衡策略。C#仿真实验表明,所提算法能够有效地解决障碍环境中单个具有学习能力的逃跑者的追捕问题,实验数据对比分析表明该算法在同等条件下的追捕效率要优于纯博弈或纯学习的追捕算法。 相似文献
2.
多Agent强化学习算法的研究一直以来大多都是针对于合作策略,而NashQ算法的提出对非合作策略的研究无疑是一个重要贡献。针对在多Agent系统中,Nash平衡无法确保求得的解是Paret。最优解及其计算复杂度较高的问题,提出了基于Mcta平衡的MctaQ算法。与NashQ算法不同,MctaQ算法通过对自身行为的预处理以及对其它Agent行为的预测来获取共同行为的最优策略。最后通过研究及气候合作策略游戏实验,证明了MctaQ算法在解决非合作策略的问题中有着很好的理论解释和实验性能。 相似文献
3.
基于强化学习的多Agent系统 总被引:4,自引:0,他引:4
1 引言强化学习允许自主Agent能够在没有关于任务和环境的先验知识的条件下通过不断地反射学习提高自己完成任务的能力,但是强化学习需要大量的计算,也就意味着大量的时间的消耗。对于许多实时系统的计算能力是一个大的挑战。进一步,如果是在多个Agent组成的Agent社会中,每个Agent的行动都有可能导致环境状态的改变,使得普通的相对单个 相似文献
4.
基于Markov对策的多Agent强化学习模型及算法研究 总被引:19,自引:0,他引:19
在MDP,单Agent可以通过强化学习来寻找问题的最优解。但在多Agent系统中,MDP模型不再适用。同样极小极大Q算法只能解决采用零和对策模型的MAS学习问题。文中采用非零和Markov对策作为多Agent系统学习框架,并提出元对策强化学习的学习模型和元对策Q算法。理论证明元对策Q算法收敛在非零和Markov对策的元对策最优解。 相似文献
5.
6.
7.
基于强化学习的多Agent协作研究 总被引:2,自引:0,他引:2
强化学习为多Agent之间的协作提供了鲁棒的学习方法.本文首先介绍了强化学习的原理和组成要素,其次描述了多Agent马尔可夫决策过程MMDP,并给出了Agent强化学习模型.在此基础上,对多Agent协作过程中存在的两种强化学习方式:IL(独立学习)和JAL(联合动作学习)进行了比较.最后分析了在有多个最优策略存在的情况下,协作多Agent系统常用的几种协调机制. 相似文献
8.
多Agent系统的技术研究 总被引:4,自引:2,他引:4
多Agent系统是由多个智能Agent组成的有机系统,这使得它具有比单个Agent更强大的处理能力.它表现出自组织性、鲁棒性、分布性以及很强的复杂行为.文中论述了Agent和多Agent系统的有关理论、方法和技术.主要包括智能Agent的特性、结构和推理;介绍多Agent系统的体系结构分类和常见的几种通信机制;以及面向Agent的程序设计的现状和发展. 相似文献
9.
针对Agent之间的协同合作,提出了一种Agent的操作模型,并以形式化的方法描述了其内部的工作机制.现有的Agent系统一般是将Agent的思想应用到某一个特定的区域内,因此其通用性较差.介绍了"市场"这种较为通用的多Agent协作模型,并将其应用到数据挖掘的系统之中,使系统的智能性得到了很大的提高. 相似文献
10.
多Agent系统便于建模和实现复杂、庞大的应用系统,是一种新的软件开发范型。本文简要介绍了一种基于计划的通用多Agent系统开发平台-MAS Builder,并对其体系结构、基于计划的多Agent合作和任务管理等问题进行了较为详细的阐述。 相似文献
11.
从研究分层强化学习入手,提出由MAS中任务结构分析产生的分层合作研究方法,通过区分子任务并以此建立更大粒度层面上的基于任务场景的状态空间,并结合以联合动作为基础的任务动作与势能场模型,从而解决强化学习中的状态空间的维数灾难。文中给出了基于机器人足球的子任务的算法应用,其效能得到实验的验证。 相似文献
12.
本文首先介绍了微网控制系统的多Agent结构以及各Agent的工作流程,然后提出了应用于微网控制系统的多Agent结构的协作学习算法,该算法在Q学习算法的基础上进行了改进,使之适用于混合环境中。最后将IEEE9节点系统作为微网模拟系统并在其中进行了仿真,结果显示该算法可以在微网功率发生波动时快速地使功率恢复到稳定状态。 相似文献
13.
为了在连续和动态的环境中处理智能体不断变化的需求,我们通过利用强化学习来研究多机器人推箱子问题,得到了一种智能体可以不需要其它智能体任何信息的情况下完成协作任务的方法。强化学习可以应用于合作和非合作场合,对于存在噪声干扰和通讯困难的情况,强化学习具有其它人工智能方法不可比拟的优越性。 相似文献
14.
强化学习在多Agent系统中面对的最大问题就是随着Agent数量的增加而导致的状态和动作空间的指数增长以及随之而来的缓慢的学习效率。采用了一种局部合作的Q-学习方法,只有在Agent之间有明确协作时才考察联合动作,否则,就只进行简单的个体Agent的Q-学习,从而使的学习时所要考察的状态动作对值大大减少。最后算法在捕食者-猎物的追逐问题和机器人足球仿真2D上的实验结果,与常用的多Agent强化学习技术相比有更好的效能。 相似文献
15.
基于增强学习的多agent自动协商研究 总被引:2,自引:1,他引:2
该文通过对协商协议的引入,对提议形式、协商流程的分析,结合多属性效用理论和连续决策过程,提出了一个开放的、动态的、支持学习机制的形式化多问题自动协商模型。并在模型的基础上分别对评估提议、更新信念、生成提议等协商过程作了详细描述;对传统Q学习进行了扩充,设计了基于agent的当前信念和最近探索盈余的动态Q学习算法。 相似文献
16.
未解决当前的远程教育系统存在形式单一和被动教学等问题,该文提出了一个基于学习者个性因素的多Agent学习系统模型。该模型结合智能代理技术,通过分析学习者个性因素,给出了个体Agent能力描述语言,提出了新的个性化分组策略和学习任务分配策略,采用补偿机制鼓励agent合作,结合状态空间搜索理论使M AS系统具有更强的解题能力,并可满足学习者主动学习的要求,还能在一定程度上节约系统的通讯。 相似文献
17.
AGV(automated guided vehicle)路径规划问题已成为货物运输、快递分拣等领域中一项关键技术问题。由于在此类场景中需要较多的AGV合作完成,传统的规划模型难以协调多AGV之间的相互作用,采用分而治之的思想或许能获得系统的最优性能。基于此,该文提出一种最大回报频率的多智能体独立强化学习MRF(maximum reward frequency)Q-learning算法,对任务调度和路径规划同时进行优化。在学习阶段AGV不需要知道其他AGV的动作,减轻了联合动作引起的维数灾问题。采用Boltzmann与ε-greedy结合策略,避免收敛到较差路径,另外算法提出采用获得全局最大累积回报的频率作用于Q值更新公式,最大化多AGV的全局累积回报。仿真实验表明,该算法能够收敛到最优解,以最短的时间步长完成路径规划任务。 相似文献
18.