期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

陈飞王本年高阳陈兆乾陈世福《计算机科学》2006,33(2):173-177

强化学习的研究需要解决的重要难点之一是:探索未知的动作和采用已知的最优动作之间的平衡。贝叶斯学习是一种基于已知的概率分布和观察到的数据进行推理,做出最优决策的概率手段。因此,把强化学习和贝叶斯学习相结合,使 Agent 可以根据已有的经验和新学到的知识来选择采用何种策略:探索未知的动作还是采用已知的最优动作。本文分别介绍了单 Agent 贝叶斯强化学习方法和多 Agent 贝叶斯强化学习方法:单 Agent 贝叶斯强化学习包括贝叶斯 Q 学习、贝叶斯模型学习以及贝叶斯动态规划等;多 Agent 贝叶斯强化学习包括贝叶斯模仿模型、贝叶斯协同方法以及在不确定下联合形成的贝叶斯学习等。最后,提出了贝叶斯在强化学习中进一步需要解决的问题。相似文献

2.

分层强化学习研究综述

《模式识别与人工智能》2005,18(5)

强化学习通过试错与环境交互获得策略的改进,其自学习和在线学习的特点使其成为机器学习研究的一个重要分支.但是,强化学习一直被"维数灾"问题所困扰.近年来,分层强化学习方法引入抽象(Abstraction)机制,在克服"维数灾"方面取得了显著进展.作为理论基础,本文首先介绍了强化学习的基本原理及基于半马氏过程的Q-学习算法.然后介绍了3种典型的单Agent分层强化学习方法(Option、HAM和MAXQ)的基本思想,Q-学习更新公式,概括了各方法的本质特征,并对这3种方法进行了对比分析评价.最后指出了将单Agent分层强化学习方法拓展到多Agent分层强化学习时需要解决的问题. 相似文献

3.

基于强化学习的多Agent路径规划方法研究

王毅然经小川田涛孙运乾从帅军《计算机应用与软件》2019,36(8)

以复杂任务下多个智能体路径规划问题为研究对象,提出一种基于强化学习的多Agent路径规划方法。该方法采用无模型的在线Q学习算法,多个Agent不断重复"探索-学习-利用"过程,积累历史经验评估动作策略并优化决策,完成未知环境下的多Agent的路径规划任务。仿真结果表明,与基于强化学习的单Agent路径规划方法相比,该方法在多Agent避免了相碰并成功躲避障碍物的前提下,减少了17.4%的总探索步数,形成了到达目标点的最短路径。相似文献

4.

竞争与合作视角下的多Agent强化学习研究进展

田小禾李伟许铮刘天星戚骁亚甘中学《计算机应用与软件》2024,(4):1-15

随着深度学习和强化学习研究取得长足的进展,多Agent强化学习已成为解决大规模复杂序贯决策问题的通用方法。为了推动该领域的发展,从竞争与合作的视角收集并总结近期相关的研究成果。该文介绍单Agent强化学习;分别介绍多Agent强化学习的基本理论框架——马尔可夫博弈以及扩展式博弈,并重点阐述了其在竞争、合作和混合三种场景下经典算法及其近期研究进展;讨论多Agent强化学习面临的核心挑战——环境的不稳定性,并通过一个例子对其解决思路进行总结与展望。相似文献

5.

基于强化学习的多移动Agent学习算法

刘菲曾广周《计算机工程与应用》2006,42(5):50-53

结合强化学习技术讨论了单移动Agent学习的过程,然后扩展到多移动Agent学习领域,提出一个多移动Agent学习算法MMAL(MultiMobileAgentLearning)。算法充分考虑了移动Agent学习的特点,使得移动Agent能够在不确定和有冲突目标的上下文中进行决策,解决在学习过程中Agent对移动时机的选择,并且能够大大降低计算代价。目的是使Agent能在随机动态的环境中进行自主、协作的学习。最后,通过仿真试验表明这种学习算法是一种高效、快速的学习方法。相似文献

6.

多Agent系统中强化学习的研究现状和发展趋势 总被引：6，自引：1，他引：6

赵志宏高阳骆斌陈世福《计算机科学》2004,31(3):23-27

本文对有关强化学习及其在多Agent系统中的应用等方面的研究现状、关键技术、问题和发展趋势进行了综述和讨论，试图给出强化学习目前研究的重点和发展方向。主要内容包括：(1)强化学习的框架结构；(2)几个有代表性的强化学习方法；(3)多Agent系统中强化学习的应用和问题。最后讨论了多Agent系统中应用强化学习所面临的挑战。相似文献

7.

基于Q—learning的一种多Agent系统结构模型

许培薛伟《计算机与数字工程》2011,39(8):8-11

多Agent系统是近年来比较热门的一个研究领域,而Q-learning算法是强化学习算法中比较著名的算法,也是应用最广泛的一种强化学习算法。以单Agent强化学习Qlearning算法为基础,提出了一种新的学习协作算法,并根据此算法提出了一种新的多Agent系统体系结构模型,该结构的最大特点是提出了知识共享机制、团队结构思想和引入了服务商概念,最后通过仿真实验说明了该结构体系的优越性。相似文献

8.

集体理性约束的Agent协作强化学习 总被引：1，自引：0，他引：1

下载免费PDF全文

吴士泓李德华潘莹《计算机工程与应用》2010,46(17):8-10

将多Agent协作学习过程看作是一个个的阶段博弈,针对博弈中存在多个均衡解的问题,提出一种集体理性约束下的多Agent协作强化学习算法。该算法使得系统中的每个Agent均按照集体利益最大化的集体理性原则进行行为选择,从而解决均衡解一致问题,同时使得集体长期回报值最大化,加快了学习速度。在集体理性的基础上通过评价各Agent对整体任务求解的贡献度,解决信度分配问题。追捕问题的仿真实验结果验证了算法的有效性。相似文献

9.

基于博弈论及Q学习的多Agent协作追捕算法

郑延斌樊文鑫韩梦云陶雪丽《计算机应用》2020,40(6):1613-1620

多Agent协作追捕问题是多Agent协调与协作研究中的一个典型问题。针对具有学习能力的单逃跑者追捕问题，提出了一种基于博弈论及Q学习的多Agent协作追捕算法。首先,建立协作追捕团队，并构建协作追捕的博弈模型；其次,通过对逃跑者策略选择的学习，建立逃跑者有限的Step-T累积奖赏的运动轨迹，并把运动轨迹调整到追捕者的策略集中；最后,求解协作追捕博弈得到Nash均衡解，每个Agent执行均衡策略完成追捕任务。同时,针对在求解中可能存在多个均衡解的问题，加入了虚拟行动行为选择算法来选择最优的均衡策略。C#仿真实验表明，所提算法能够有效地解决障碍环境中单个具有学习能力的逃跑者的追捕问题，实验数据对比分析表明该算法在同等条件下的追捕效率要优于纯博弈或纯学习的追捕算法。相似文献

10.

基于强化学习的多Agent协作研究 总被引：2，自引：0，他引：2

郑淑丽韩江洪骆祥峰蒋建文《小型微型计算机系统》2003,24(11):1986-1988

强化学习为多Agent之间的协作提供了鲁棒的学习方法．本文首先介绍了强化学习的原理和组成要素，其次描述了多Agent马尔可夫决策过程MMDP，并给出了Agent强化学习模型．在此基础上，对多Agent协作过程中存在的两种强化学习方式：IL(独立学习)和JAL(联合动作学习)进行了比较．最后分析了在有多个最优策略存在的情况下，协作多Agent系统常用的几种协调机制．相似文献

11.

局部合作多智能体Q-学习研究

下载免费PDF全文

刘亮李龙澍《计算机工程与应用》2008,44(15):4-7

强化学习在多Agent系统中面对的最大问题就是随着Agent数量的增加而导致的状态和动作空间的指数增长以及随之而来的缓慢的学习效率。采用了一种局部合作的Q-学习方法,只有在Agent之间有明确协作时才考察联合动作,否则,就只进行简单的个体Agent的Q-学习,从而使的学习时所要考察的状态动作对值大大减少。最后算法在捕食者-猎物的追逐问题和机器人足球仿真2D上的实验结果,与常用的多Agent强化学习技术相比有更好的效能。相似文献

12.

多Agent协作的强化学习模型和算法 总被引：2，自引：0，他引：2

刘菲曾广周宋言伟《计算机科学》2006,33(12):156-158

结合强化学习技术讨论了多Agent协作学习的过程，构造了一个新的多Agent协作学习模型。在这个模型的基础上，提出一个多Agent协作学习算法。算法充分考虑了多Agent共同学习的特点，使得Agent基于对动作长期利益的估计来预测其动作策略，并做出相应的决策，进而达成最优的联合动作策略。最后，通过对猎人。猎物追逐问题的仿真试验验证了该算法的收敛性，表明这种学习算法是一种高效、快速的学习方法。相似文献

13.

基于量子计算多Agent的人工神经网络训练方法

孟祥萍皮玉珍赵亮《计算机仿真》2011,28(11)

人工神经网络是可用于建模和求解各种复杂非线性现象的工具.针对传统神经网络训练时间长、节点数目受计算机能力限制等缺点,提出了一种新的多Agent系统理论(MAS)和量子算法的人工神经网络.在人工神经网络训练方法中,每个神经元或节点是一个量子Agent,通过强化学习算法后具有学习能力,然后用QCMAS强化学习算法作为新的神经网络的学习规则.这种新的人工神经网络法具有很好的并行工作能力而且训练时间比经典算法短,实验结果证明了方法的有效性. 相似文献

14.

强化学习在机器人足球比赛中的应用 总被引：8，自引：1，他引：8

孟伟洪炳熔韩学东《计算机应用研究》2002,19(6):79-81

机器人足球比赛是一个有趣并且复杂的新兴的人工智能研究领域 ,它是一个典型的多智能体系统。采用强化学习方法研究了机器人足球比赛中的足球机器人的动作选择问题 ,扩展了单个Agent的强化学习方法 ,提出了基于多Agents的强化学习方法 ,最后给出了实验结果。相似文献

15.

一种基于角色跟踪的群体Agent再励学习算法

张双民石纯一《计算机研究与发展》2005,42(2):203-209

在多Agent系统中,通过学习可以使Agent不断增加和强化已有的知识与能力,并选择合理的动作最大化自己的利益．但目前有关Agent学习大都限于单Agent模式,或仅考虑Agent个体之间的对抗,没有考虑Agent的群体对抗,没有考虑Agent在团队中的角色,完全依赖对效用的感知来判断对手的策略,导致算法的收敛速度不高．因此,将单Agent学习推广到在非通信群体对抗环境下的群体Agent学习．考虑不同学习问题的特殊性,在学习模型中加入了角色属性,提出一种基于角色跟踪的群体Agent再励学习算法,并进行了实验分析．在学习过程中动态跟踪对手角色,并根据对手角色与其行为的匹配度动态决定学习速率,利用minmax-Q算法修正每个状态的效用值,最终加快学习的收敛速度,从而改进了Bowling和Littman等人的工作．相似文献

16.

基于人工免疫理论的多Agent系统协同框架

赵翔黄厚宽董红斌《计算机研究与发展》2006,43(Z1)

多Agent系统因其自身的协同、协商、合作机制,对降低问题求解难度和求解复杂性具有十分重要意义.而人工免疫系统具有良好的多样性、分布式并行处理、自组织、自学习等特点.通过提出一种基于人工免疫系统的多Agent系统控制框架,将人工免疫理论中的免疫记忆、clone选择、亲和力计算、自学习等特点应用于多Agent系统中的协同工作中,更好地解决多Agent的协同优化问题. 相似文献

17.

多Agent诊断系统中合作任务调度算法的实现 总被引：1，自引：0，他引：1

张晓晨赵林度陈国华赵佳宝《计算机应用》2001,21(11):28-30

多Agent系统的核心问题是多Agent的合作和问题求解,在多Agent系统合作的调度算法中引入遗传算法,能更准确和更有效地进行问题求解。文中在介绍多Agent系统结构的基础上,分析了多Agent的合作问题以及基于遗传算法的调度算法,并在一个实用系统中实现了合作任务调度算法,达到了预期效果。相似文献

18.

一种基于多目标优化的Agent多议题协商模型

下载免费PDF全文

刘俞斌张伟童向荣董红斌《计算机工程与科学》2010,32(6):85-87

Agent多议题协商研究是多Agent合作求解的核心内容之一,一般基于对策论的方法实现Pareto最优的协商结果。由于很多学者将其转化为单目标约束满足问题,因而只能满足一方的效用最大化要求。Nash指出在理想情况下Agent应追求自身效用最大和对手效用最大的多目标优化,以达到快速达成一致并能最优化自身效用的目的。针对该问题,本文给出一种用指数型功效系数法求解的一揽子交易多议题协商模型NMMOP,该模型能够实现双方Agent的效用最优,提高协商双方的总效用。实验结果验证了该模型的优化效率优于Fatima和Faratin等人的工作。相似文献

19.

一种求解饲料配方问题的优化算法

孙立镌刘宪国《计算机工程与应用》2008,44(28):200-203

分析了饲料配方问题现有的求解策略,在Bruin提出的多Agent协商求解一种简化线性规划问题的理论模型的基础上,利用多Agent协商理论和线性规划理论,建立了Agent模型,提出了基于多Agent协商策略的饲料配方问题求解的优化算法,并证明了算法的正确性和可行性。实验结果表明,该算法具有更强的求解能力。相似文献

20.

一个多Agent学习模型 总被引：2，自引：0，他引：2

苏中滨董红斌《计算机应用与软件》2004,21(4):14-15,122

多Agent学习问题近年来引起人工智能领域的广泛注意，本文给出了一个基于遗传算法的多Agent学习模式，学习过程分为四个部分：任务的分解、子任务的分配、多个子任务并行求解和解答的集成。其中遗传算法主要应用在子任务的分配和多个子任务并行求解中。相似文献