期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

一种基于分布式强化学习的多智能体协调方法 总被引：2，自引：0，他引：2

范波潘泉张洪才《计算机仿真》2005,22(6):115-118

多智能体系统研究的重点在于使功能独立的智能体通过协商、协调和协作,完成复杂的控制任务或解决复杂的问题。通过对分布式强化学习算法的研究和分析,提出了一种多智能体协调方法,协调级将复杂的系统任务进行分解,协调智能体利用中央强化学习进行子任务的分配,行为级中的任务智能体接受各自的子任务,利用独立强化学习分别选择有效的行为,协作完成系统任务。通过在Robot Soccer仿真比赛中的应用和实验,说明了基于分布式强化学习的多智能体协调方法的效果优于传统的强化学习。相似文献

2.

基于边界样本协调的多智能体合作学习

韩伟《模式识别与人工智能》2008,21(1):111-115

针对Q学习状态空间非常大,导致收敛速度非常慢的问题,给出一种基于边界样本协调的多智能体在线合作学习方法,使得智能体在特定的子空间上进行特化并通过边界状态上的开关函数相互协调,从而能够较快地学习到局部最优.仿真实验表明该方法能够取得比全局学习更好的在线学习性能. 相似文献

3.

多智能体强化学习综述 总被引：1，自引：0，他引：1

杜威丁世飞《计算机科学》2019,46(8)

相似文献

4.

基于多智能体强化学习的博弈综述

下载免费PDF全文

李艺春刘泽娇洪艺天王继超王健瑞李毅唐漾《自动化学报》2025,51(3):540-558

多智能体强化学习(Multi-agent reinforcement learning, MARL)作为博弈论、控制论和多智能体学习的交叉研究领域,是多智能体系统(Multi-agent systems, MASs)研究中的前沿方向,赋予智能体在动态多维的复杂环境中通过交互和决策完成多样化任务的能力.多智能体强化学习正在向应用对象开放化、应用问题具身化、应用场景复杂化的方向发展,并逐渐成为解决现实世界中博弈决策问题的最有效工具.本文对基于多智能体强化学习的博弈进行系统性综述.首先,介绍多智能体强化学习的基本理论,梳理多智能体强化学习算法与基线测试环境的发展进程.其次,针对合作、对抗以及混合三种多智能体强化学习任务,从提高智能体合作效率、提升智能体对抗能力的维度来介绍多智能体强化学习的最新进展,并结合实际应用探讨混合博弈的前沿研究方向.最后,对多智能体强化学习的应用前景和发展趋势进行总结与展望. 相似文献

5.

多智能体深度强化学习研究综述 总被引：1，自引：0，他引：1

孙彧曹雷陈希亮徐志雄赖俊《计算机工程与应用》2020,56(5):13-24

多智能体深度强化学习是机器学习领域的一个新兴的研究热点和应用方向,涵盖众多算法、规则、框架,并广泛应用于自动驾驶、能源分配、编队控制、航迹规划、路由规划、社会难题等现实领域,具有极高的研究价值和意义.对多智能体深度强化学习的基本理论、发展历程进行简要的概念介绍;按照无关联型、通信规则型、互相合作型和建模学习型4种分类方... 相似文献

6.

基于两阶段意图共享的多智能体强化学习方法

《计算机学报》2023,46(9)

相似文献

7.

基于迭代学习的多智能体系统协同编队控制

《控制工程》2021,28(11):2178-2184

相似文献

8.

基于黑板模型的多智能体合作学习

韩伟韩忠愿《计算机工程》2007,33(22):42-44,4

Q学习算法要求智能体无限遍历每个状态-动作转换,因此在涉及状态-动作空间非常大的应用问题时,导致收敛速度非常慢。借助多智能体的合作学习,智能体之间基于黑板模型的方法通过开关函数相互协调合作,可以更快地定位那些有效的状态-动作转换,避免了无效的更新,从而以较小的学习代价加快了Q表的收敛速度。相似文献

9.

多智能体的增强学习及其在RoboCup中的应用

刘国栋杨宝庆《计算机工程与应用》2008,44(23):46-48

针对非确定马尔可夫环境下的多智能体系统,提出了多智能体Q学习模型和算法。算法中通过对联合动作的统计来学习其它智能体的行为策略,并利用智能体策略向量的全概率分布保证了对联合最优动作的选择。在实验中,成功实现了智能体的决策,提高了AFU队的整体的对抗能力,证明了算法的有效性和可行性。相似文献

10.

寻找多智能体系统一致性的迭代学习方法 总被引：2，自引：0，他引：2

下载免费PDF全文

李金沙李俊民《控制理论与应用》2012,29(8):1073-1077

本文利用迭代学习的方法研究了带头结点的多智能体系统的一致性问题.文中分别对单积分多智能体系统和一般的线性多智能体系统提出了迭代学习型的一致性算法.该算法对每一个从节点所设计的分布迭代学习序列可以保证从节点能完全跟随上头结点.假设头结点是全局可达的,对于有向拓扑连接图,给出了智能体达到完全一致的充分条件.最后,仿真实例说明了文中所给方法的有效性. 相似文献

11.

多智能体深度强化学习及可扩展性研究进展

刘延飞;李超;王忠;王杰铃《计算机工程与应用》2025,61(4):1-24

多智能体深度强化学习近年来在解决智能体协作、竞争和通信问题上展现出巨大潜力。然而伴随着其在更多领域的应用;可扩展性问题备受关注;是理论研究到大规模工程应用的重要问题。回顾了强化学习理论和深度强化学习的典型算法;介绍了多智能体深度强化学习三类学习范式及其代表算法;并简要整理出当前主流的开源实验平台。详细探讨了多智能体深度强化学习在数量和场景上的可扩展性研究进展;分析了各自面临的核心问题并给出了现有的解决思路。展望了多智能体深度强化学习的应用前景和发展趋势;为推动该领域的进一步研究提供参考和启示。相似文献

12.

基于奖励高速路网络的多智能体强化学习中的全局信用分配算法

姚兴虎谭晓阳《计算机应用》2021,41(1):1-7

针对多智能体系统中联合动作空间随智能体数量的增加而产生的指数爆炸的问题,采用\"中心训练-分散执行\"的框架来避免联合动作空间的维数灾难并降低算法的优化代价.针对在众多的多智能体强化学习场景下,环境仅给出所有智能体的联合行为所对应的全局奖励这一问题,提出一种新的全局信用分配机制——奖励高速路网络(RHWNet).通过在原有... 相似文献

13.

基于强化学习的多智能体协作方法研究

童亮陆际联《计算机测量与控制》2005,13(2):174-176

为了在连续和动态的环境中处理智能体不断变化的需求,我们通过利用强化学习来研究多机器人推箱子问题,得到了一种智能体可以不需要其它智能体任何信息的情况下完成协作任务的方法。强化学习可以应用于合作和非合作场合,对于存在噪声干扰和通讯困难的情况,强化学习具有其它人工智能方法不可比拟的优越性。相似文献

14.

多智能体系统中的分布式强化学习研究现状 总被引：4，自引：0，他引：4

下载免费PDF全文

仲宇顾国昌张汝波《控制理论与应用》2003,20(3):317-322

对目前世界上分布式强化学习方法的研究成果加以总结, 分析比较了独立强化学习、社会强化学习和群体强化学习三类分布式强化学习方法的特点、差别和适用范围, 并对分布式强化学习仍需解决的问题和未来的发展方向进行了探讨. 相似文献

15.

基于强化学习的自适应多Agent系统的构造

沈乐毛新军董孟高《计算机工程与科学》2011,33(12):72-77

自适应系统所处的环境往往是不确定的,其变化事先难以预测,如何支持这种环境下复杂自适应系统的开发已经成为软件工程领域面临的一项重要挑战.强化学习是机器学习领域中的一个重要分支,强化学习系统能够通过不断试错的方式,学习环境状态到可执行动作的最优对应策略.本文针对自适应系统环境不确定的问题,将Agent技术与强化学习技术相结... 相似文献

16.

在信息融合系统中引入多智能体技术 总被引：4，自引：0，他引：4

范波潘泉张洪才程咏梅《计算机工程与应用》2003,39(22):100-102

论文简要介绍了多智能体技术和信息融合系统,将多智能体技术运用到信息融合系统中,对信息融合系统中的模型和方法进行改进,提出了多智能体信息融合模型,并研究了信息融合中的分布式强化学习。通过借鉴多智能体技术的研究成果,开辟信息融合理论和应用发展的另一条途径。相似文献

17.

Fuzzy Policy Reinforcement Learning in Cooperative Multi-robot Systems

Dongbing Gu Erfu Yang 《Journal of Intelligent and Robotic Systems》2007,48(1):7-22

A multi-agent reinforcement learning algorithm with fuzzy policy is addressed in this paper. This algorithm is used to deal with some control problems in cooperative multi-robot systems. Specifically, a leader-follower robotic system and a flocking system are investigated. In the leader-follower robotic system, the leader robot tries to track a desired trajectory, while the follower robot tries to follow the reader to keep a formation. Two different fuzzy policies are developed for the leader and follower, respectively. In the flocking system, multiple robots adopt the same fuzzy policy to flock. Initial fuzzy policies are manually crafted for these cooperative behaviors. The proposed learning algorithm finely tunes the parameters of the fuzzy policies through the policy gradient approach to improve control performance. Our simulation results demonstrate that the control performance can be improved after the learning. 相似文献

18.

两类品种工件混流的多站点CSPS系统优化控制

唐昊李博川王彬谭琦《控制与决策》2017,32(9):1614-1620

研究一种两类品种工件混流的多站点传送带给料加工站系统的优化控制问题.系统中的站点如何协同工作完成工件加工任务,是提高系统生产率的重要课题.将前视距离作为各站点的决策变量,通过站点间的局部信息交互,提出一种品种均衡工作模式,并运用一种模型无关的串行反馈式多agent强化学习算法求解系统的最优策略.实验结果验证了该工作模式的合理性和算法的有效性,并分析了部分参数变化对系统性能的影响. 相似文献

19.

多智能体深度强化学习的若干关键科学问题 总被引：6，自引：0，他引：6

下载免费PDF全文

孙长银穆朝絮《自动化学报》2020,46(7):1301-1312

强化学习作为一种用于解决无模型序列决策问题的方法已经有数十年的历史,但强化学习方法在处理高维变量问题时常常会面临巨大挑战.近年来,深度学习迅猛发展,使得强化学习方法为复杂高维的多智能体系统提供优化的决策策略、在充满挑战的环境中高效执行目标任务成为可能.本文综述了强化学习和深度强化学习方法的原理,提出学习系统的闭环控制框... 相似文献