期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

郑延斌樊文鑫韩梦云陶雪丽《计算机应用》2020,40(6):1613-1620

多Agent协作追捕问题是多Agent协调与协作研究中的一个典型问题。针对具有学习能力的单逃跑者追捕问题，提出了一种基于博弈论及Q学习的多Agent协作追捕算法。首先,建立协作追捕团队，并构建协作追捕的博弈模型；其次,通过对逃跑者策略选择的学习，建立逃跑者有限的Step-T累积奖赏的运动轨迹，并把运动轨迹调整到追捕者的策略集中；最后,求解协作追捕博弈得到Nash均衡解，每个Agent执行均衡策略完成追捕任务。同时,针对在求解中可能存在多个均衡解的问题，加入了虚拟行动行为选择算法来选择最优的均衡策略。C#仿真实验表明，所提算法能够有效地解决障碍环境中单个具有学习能力的逃跑者的追捕问题，实验数据对比分析表明该算法在同等条件下的追捕效率要优于纯博弈或纯学习的追捕算法。相似文献

2.

基于Meta平衡的多Agent Q学习算法研究

王万良艘约庆赵燕伟《计算机科学》2012,39(105):261-264

多Agent强化学习算法的研究一直以来大多都是针对于合作策略,而NashQ算法的提出对非合作策略的研究无疑是一个重要贡献。针对在多Agent系统中,Nash平衡无法确保求得的解是Paret。最优解及其计算复杂度较高的问题,提出了基于Mcta平衡的MctaQ算法。与NashQ算法不同,MctaQ算法通过对自身行为的预处理以及对其它Agent行为的预测来获取共同行为的最优策略。最后通过研究及气候合作策略游戏实验,证明了MctaQ算法在解决非合作策略的问题中有着很好的理论解释和实验性能。相似文献

3.

基于强化学习的多Agent系统 总被引：4，自引：0，他引：4

唐文彬朱淼良《计算机科学》2003,30(4):16-18

1 引言强化学习允许自主Agent能够在没有关于任务和环境的先验知识的条件下通过不断地反射学习提高自己完成任务的能力,但是强化学习需要大量的计算,也就意味着大量的时间的消耗。对于许多实时系统的计算能力是一个大的挑战。进一步,如果是在多个Agent组成的Agent社会中,每个Agent的行动都有可能导致环境状态的改变,使得普通的相对单个相似文献

4.

一种基于多Agent的企业知识链管理系统模型

李君吴春旭彭诚《计算机系统应用》2007,(7):7-10,14

本文在C.W.Holsapple和M.Singh提出的知识链模型基础上,引入了分布式人工智能(DAI)中的多Agent技术,提出了一个基于多Agent的知识链管理系统模型--MAKCMS,讨论了该模型的体系结构和模型中各个Agent的功能,研究了模型内各Agent之间的通信与协作机制. 相似文献

5.

一种基于博弈论的多Agent交互模型 总被引：7，自引：0，他引：7

袁爱进曹立明王小平《计算机工程》2005,31(6):50-51,139

在开放的、动态的多Agent系统(MAS)中,交互是最基本的方面,具有各自利益的多个Agent必须对其目标、资源的使用进行协调.博弈论为协调和协作的研究奠定了坚实的数学基础,把博弈论与多Agent交互相结合是目前DAI研究的新发展方向.该文提出了一种基于博弈论的多Agent交互模型(GMAIM),应用于解决不完全信息的分布式环境下多人协商决策问题,实现了在会议调度系统(MSS)中的应用. 相似文献

6.

多Agent系统的技术研究 总被引：4，自引：2，他引：4

张林徐勇刘福成《计算机技术与发展》2008,18(8)

多Agent系统是由多个智能Agent组成的有机系统,这使得它具有比单个Agent更强大的处理能力.它表现出自组织性、鲁棒性、分布性以及很强的复杂行为.文中论述了Agent和多Agent系统的有关理论、方法和技术.主要包括智能Agent的特性、结构和推理;介绍多Agent系统的体系结构分类和常见的几种通信机制;以及面向Agent的程序设计的现状和发展. 相似文献

7.

基于强化学习的多Agent协作研究 总被引：2，自引：0，他引：2

郑淑丽韩江洪骆祥峰蒋建文《小型微型计算机系统》2003,24(11):1986-1988

强化学习为多Agent之间的协作提供了鲁棒的学习方法．本文首先介绍了强化学习的原理和组成要素，其次描述了多Agent马尔可夫决策过程MMDP，并给出了Agent强化学习模型．在此基础上，对多Agent协作过程中存在的两种强化学习方式：IL(独立学习)和JAL(联合动作学习)进行了比较．最后分析了在有多个最优策略存在的情况下，协作多Agent系统常用的几种协调机制．相似文献

8.

MAS Builder：一种基于计划的多Agent系统开发平台

颜跃进陈跃新李舟军刘凤歧《计算机工程与科学》2004,26(2):81-84

多Agent系统便于建模和实现复杂、庞大的应用系统，是一种新的软件开发范型。本文简要介绍了一种基于计划的通用多Agent系统开发平台-MAS Builder，并对其体系结构、基于计划的多Agent合作和任务管理等问题进行了较为详细的阐述。相似文献

9.

一种Agent的协作模型

孟凡星马垣《计算机应用与软件》2008,25(7)

针对Agent之间的协同合作,提出了一种Agent的操作模型,并以形式化的方法描述了其内部的工作机制.现有的Agent系统一般是将Agent的思想应用到某一个特定的区域内,因此其通用性较差.介绍了"市场"这种较为通用的多Agent协作模型,并将其应用到数据挖掘的系统之中,使系统的智能性得到了很大的提高. 相似文献

10.

一种基于黑板模型的多Agent系统通信方法 总被引：19，自引：2，他引：19

王斌张尧学陈松乔《小型微型计算机系统》2002,23(11):1355-1358

本文以人工智能领域中的黑板模型为基础 ,提出了在 Internet环境中多 Agent系统 (MAS)的通信方法 .该方法可用于异构的 MAS系统间的通信 .首先把 MAS系统的通信环境划分为不同的层次 ,然后用黑板模型对这些层次进行了描述 .基于这种描述给出了 MAS系统通信用协议和相关参数 .而且 ,还在这些参数中设置了有关服务质量的元素 . 相似文献

11.

基于场景任务划分的多智能体Q－学习研究

下载免费PDF全文

刘亮李龙澍《计算机工程与应用》2009,45(21):21-24

从研究分层强化学习入手,提出由MAS中任务结构分析产生的分层合作研究方法,通过区分子任务并以此建立更大粒度层面上的基于任务场景的状态空间,并结合以联合动作为基础的任务动作与势能场模型,从而解决强化学习中的状态空间的维数灾难。文中给出了基于机器人足球的子任务的算法应用,其效能得到实验的验证。相似文献

12.

基于强化学习的多智能体协作方法研究

童亮陆际联《计算机测量与控制》2005,13(2):174-176

为了在连续和动态的环境中处理智能体不断变化的需求,我们通过利用强化学习来研究多机器人推箱子问题,得到了一种智能体可以不需要其它智能体任何信息的情况下完成协作任务的方法。强化学习可以应用于合作和非合作场合,对于存在噪声干扰和通讯困难的情况,强化学习具有其它人工智能方法不可比拟的优越性。相似文献

13.

微网控制系统中多AgentQ学习算法的研究

鲁斌衣楠《软件》2013,(11):80-82

本文首先介绍了微网控制系统的多Agent结构以及各Agent的工作流程,然后提出了应用于微网控制系统的多Agent结构的协作学习算法,该算法在Q学习算法的基础上进行了改进,使之适用于混合环境中。最后将IEEE9节点系统作为微网模拟系统并在其中进行了仿真,结果显示该算法可以在微网功率发生波动时快速地使功率恢复到稳定状态。相似文献

14.

局部合作多智能体Q-学习研究

刘亮李龙澍《计算机工程与应用》2008,44(15):4-7

强化学习在多Agent系统中面对的最大问题就是随着Agent数量的增加而导致的状态和动作空间的指数增长以及随之而来的缓慢的学习效率。采用了一种局部合作的Q-学习方法,只有在Agent之间有明确协作时才考察联合动作,否则,就只进行简单的个体Agent的Q-学习,从而使的学习时所要考察的状态动作对值大大减少。最后算法在捕食者-猎物的追逐问题和机器人足球仿真2D上的实验结果,与常用的多Agent强化学习技术相比有更好的效能。相似文献

15.

基于增强学习的多agent自动协商研究 总被引：2，自引：1，他引：2

杨明嘉莉邱玉辉《计算机工程与应用》2004,40(33):98-100,117

该文通过对协商协议的引入,对提议形式、协商流程的分析,结合多属性效用理论和连续决策过程,提出了一个开放的、动态的、支持学习机制的形式化多问题自动协商模型。并在模型的基础上分别对评估提议、更新信念、生成提议等协商过程作了详细描述;对传统Q学习进行了扩充,设计了基于agent的当前信念和最近探索盈余的动态Q学习算法。相似文献

16.

基于学习者个性因素的多Agent协同学习系统

周留军王靖殷凡《计算机工程与应用》2005,41(30):225-228

未解决当前的远程教育系统存在形式单一和被动教学等问题,该文提出了一个基于学习者个性因素的多Agent学习系统模型。该模型结合智能代理技术,通过分析学习者个性因素,给出了个体Agent能力描述语言,提出了新的个性化分组策略和学习任务分配策略,采用补偿机制鼓励agent合作,结合状态空间搜索理论使M AS系统具有更强的解题能力,并可满足学习者主动学习的要求,还能在一定程度上节约系统的通讯。相似文献

17.

基于多智能体强化学习的多AGV路径规划方法

刘辉肖克王京擘《自动化与仪表》2020,(2):84-89

AGV(automated guided vehicle)路径规划问题已成为货物运输、快递分拣等领域中一项关键技术问题。由于在此类场景中需要较多的AGV合作完成,传统的规划模型难以协调多AGV之间的相互作用,采用分而治之的思想或许能获得系统的最优性能。基于此,该文提出一种最大回报频率的多智能体独立强化学习MRF(maximum reward frequency)Q-learning算法,对任务调度和路径规划同时进行优化。在学习阶段AGV不需要知道其他AGV的动作,减轻了联合动作引起的维数灾问题。采用Boltzmann与ε-greedy结合策略,避免收敛到较差路径,另外算法提出采用获得全局最大累积回报的频率作用于Q值更新公式,最大化多AGV的全局累积回报。仿真实验表明,该算法能够收敛到最优解,以最短的时间步长完成路径规划任务。相似文献

18.

一种多智能体系统任务竞争模型及算法研究

王国权徐竞青于海斌《信息与控制》2005,34(4):434-438

致力于解决多智能体系统中的任务分配问题，基于社会生活中的竞争现象提出了一种多智能体竞争模型，同时提出了解决多智能体任务分配的详细算法．文章引入博弈论来研究存在相互外部约束条件下的个体选择问题．为了克服求解纳什均衡点的复杂性，本文采用了一步纳什均衡的方法．仿真结果证明了本模型的合理性和算法的有效性．相似文献

19.

一种基于多Agent远程分布式故障诊断系统模型

李军虎《计算机与数字工程》2011,39(6):58-60,78

简要介绍了Agent与多Agent的相关知识,并以军用通信系统为例,分析了远程分布式故障诊断的系统结构,并提出了一种基于多Agent远程分布式故障诊断模型,对其系统工作流程进行了简要介绍。相似文献