首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 265 毫秒
1.
针对多智能体深度确定性策略梯度算法(MADDPG)学习训练效率低、收敛速度慢的问题,研究MADDPG算法经验优先抽取机制,提出PES-MADDPG算法.首先,分析MADDPG算法的模型和训练方法;然后,改进多智能体经验缓存池,以策略评估函数误差和经验抽取训练频率为依据,设计优先级评估函数,以优先级作为抽取概率获取学习样本训练神经网络;最后,在合作导航和竞争对抗2类环境中进行6组对比实验,实验结果表明,经验优先抽取机制可提高MADDPG算法的训练速度,学习后的智能体具有更好的表现,同时对深度确定性策略梯度算法(DDPG)控制的多智能体训练具有一定的适用性.  相似文献   

2.
针对多智能体强化学习中因智能体之间的复杂关系所导致的学习效率低及收敛速度慢的问题, 提出基于两级注意力机制的方法MADDPG-Attention, 在MADDPG算法的Critic网络中增加了软硬两级注意力机制, 通过注意力机制学习智能体之间的可借鉴经验, 提升智能体之间的相互学习效率. 由于单层的软注意力机制会给完全不相关的智能体也赋予学习权重, 因此采用硬注意力判断两个智能体之间学习的必要性, 裁减无关信息的智能体, 再用软注意力判断两个智能体间学习的重要性, 按重要性分布来分配学习权重, 据此向有可用经验的智能体学习. 在多智能体粒子的合作导航环境上进行测试, 实验结果表明, MADDPG-Attention算法对复杂关系的理解更为清晰, 在3种环境的导航成功率都达到了90%以上, 有效提高了学习效率, 加快了收敛速度.  相似文献   

3.
为提升带式输送系统的智能化决策,提高生产效率,降低能耗,应用多智能体深度确定性策略梯度(MADDPG)算法,构建多输送机智能体协同控制系统。系统采用集中式结构控制多输送机,由输送机运行能耗模型,结合MADDPG算法结构,构建多智能体协同控制模型。通过训练模型,寻优输送机运行速度与煤流量最佳匹配关系,得出节能最优速度控制策略。与深度确定性策略梯度(DDPG)算法进行实验对比。结果表明,提出的多输送机智能体算法模型学习效率高,收敛速度快,具有较强的稳定性。  相似文献   

4.
为了解决多智能体协同训练过程中的团队奖励稀疏导致样本效率低下、无法进行有效探索以及对参数敏感的问题,本研究在MAPPO算法的基础上引入了分阶段的思想,提出了基于多阶段强化学习的多智能体协同算法MSMAC。该算法将训练划分为2个阶段:一是构建基于进化策略优化的单智能体策略网络,二是对多智能体策略网络进行协同训练。在多智能体粒子环境下的实验结果表明,基于多阶段的强化学习算法不仅提升了协作性能,而且提高了样本的训练效率和模型的收敛速度。  相似文献   

5.
基于经验知识的Q-学习算法   总被引:1,自引:0,他引:1  
为了提高智能体系统中的典型的强化学习Q-学习的学习速度和收敛速度,使学习过程充分利用环境信息,本文提出了一种基于经验知识的Q-学习算法.该算法利用具有经验知识信息的函数,使智能体在进行无模型学习的同时学习系统模型,避免对环境模型的重复学习,从而加速智能体的学习速度.仿真实验结果表明:该算法使学习过程建立在较好的学习基础上,从而更快地趋近于最优状态,其学习效率和收敛速度明显优于标准的Q-学习.  相似文献   

6.
针对多无人机博弈对抗过程中无人机数量动态衰减问题和传统深度强化学习算法中的稀疏奖励问题及无效经验抽取频率过高问题,本文以攻防能力及通信范围受限条件下的多无人机博弈对抗任务为研究背景,构建了红、蓝两方无人机群的博弈对抗模型,在多智能体深度确定性策略梯度(multi-agent deep deterministic policy gradient, MADDPG)算法的Actor-Critic框架下,根据博弈环境的特点对原始的MADDPG算法进行改进。为了进一步提升算法对有效经验的探索和利用,本文构建了规则耦合模块以在无人机的决策过程中对Actor网络进行辅助。仿真实验表明,本文设计的算法在收敛速度、学习效率和稳定性方面都取了一定的提升,异构子网络的引入使算法更适用于无人机数量动态衰减的博弈场景;奖励势函数和重要性权重耦合的优先经验回放方法提升了经验差异的细化程度及优势经验利用率;规则耦合模块的引入实现了无人机决策网络对先验知识的有效利用。  相似文献   

7.
地铁站空调系统能源消耗较大,传统控制方法无法兼顾舒适性和节能问题,控制效果不佳,且目前地铁站空调控制系统均是对风系统和水系统单独控制,无法保证整个系统的节能效果.鉴于此,提出基于强化学习的空调系统节能控制策略.首先,采用神经网络建立空调系统模型,作为离线训练智能体的模拟环境,以解决无模型强化学习方法在线训练收敛时间长的问题;然后,为了提升算法效率,同时针对地铁站空调系统多维连续动作空间的特点,提出基于多步预测的深度确定性策略梯度算法,设计智能体框架,将其用于与环境模型进行交互训练;此外,为了确定最佳的训练次数,设置了智能体训练终止条件,进一步提升了算法效率;最后,基于武汉某地铁站的实测运行数据进行仿真实验,结果表明,所提出控制策略具有较好的温度跟踪性能,能够保证站台舒适性,且与目前实际系统相比能源节省约17.908%.  相似文献   

8.
针对标准入侵杂草算法缺乏信息共享机制的缺陷,将多智能体系统融入标准入侵杂草算法,提出了一种新的多智能体入侵杂草算法.该算法通过多智能体系统中改进的邻域竞争合作算子实现个体间信息的交流,提高收敛速率;利用多智能体系统中的自学习算子增强算法求解精度.五个基准函数测试对比分析结果表明,多智能体入侵杂草算法的求解精度、收敛速度和稳定性优于标准入侵杂草算法、粒子群算法和差分进化算法.  相似文献   

9.
网络计划资源均衡属于组合优化问题,为了能快速有效地求解此类问题,提出了一种多智能体布谷鸟算法。针对标准布谷鸟算法缺乏信息共享的缺陷,将多智能体系统引入布谷鸟算法中。多智能体的邻域竞争合作算子实现智能体间信息的交流,加快算法收敛速度;变异算子扩大搜索范围增加种群多样性;自学习算子提高局部寻优的能力;布谷鸟算法的Levy飞行进化机制能有效地跳出局部最优实现全局收敛。实例仿真结果证实了,与其他算法相比多智能体布谷鸟算法能更有效地求解网络计划资源均衡优化问题。  相似文献   

10.
针对目前大多数多智能体强化学习算法在智能体数量增多以及环境动态不稳定的情况下导致的维度爆炸和奖励稀疏的问题,提出了一种基于加权值函数分解的多智能体分层强化学习技能发现算法。首先,该算法将集中训练分散执行的架构与分层强化学习相结合,在上层采用加权值函数分解的方法解决智能体在训练过程中容易忽略最优策略而选择次优策略的问题;其次,在下层采用独立Q学习算法使其能够在多智能体环境中分散式地处理高维复杂的任务;最后,在底层独立Q学习的基础上引入技能发现策略,使智能体之间相互学习互补的技能。分别在简易团队运动和星际争霸Ⅱ两个仿真实验平台上对该算法与多智能体强化学习算法和分层强化学习算法进行对比,实验表明,该算法在奖励回报以及双方对抗胜率等性能指标上都有所提高,提升了整个多智能体系统的决策能力和收敛速度,验证了算法的可行性。  相似文献   

11.
乔林  罗杰 《计算机科学》2012,39(5):213-216
主要以提高多智能体系统中Q学习算法的学习效率为研究目标,以追捕问题为研究平台,提出了一种基于共享经验的Q学习算法。该算法模拟人类的团队学习行为,各个智能体拥有共同的最终目标,即围捕猎物,同时每个智能体通过协商获得自己的阶段目标。在学习过程中把学习分为阶段性学习,每学习一个阶段,就进行一次阶段性总结,分享彼此好的学习经验,以便于下一阶段的学习。这样以学习快的、好的带动慢的、差的,进而提升总体的学习性能。仿真实验证明,在学习过程中共享经验的Q学习算法能够提高学习系统的性能,高效地收敛于最优策略。  相似文献   

12.
共享经验的多主体强化学习研究   总被引:1,自引:0,他引:1  
焦殿科  石川 《计算机工程》2008,34(11):219-221
合作多主体强化学习的关键问题在于如何提高强化学习的学习效率。在追捕问题的基础上,该文提出一种共享经验的多主体强化学习方法。通过建立合适的状态空间使猎人共享学习经验,根据追捕问题的对称性压缩状态空间。实验结果表明,共享状态空间能够加快多主体强化学习的过程,状态空间越小,Q学习算法收敛越快。  相似文献   

13.
在多Agent系统中,通过学习可以使Agent不断增加和强化已有的知识与能力,并选择合理的动作最大化自己的利益.但目前有关Agent学习大都限于单Agent模式,或仅考虑Agent个体之间的对抗,没有考虑Agent的群体对抗,没有考虑Agent在团队中的角色,完全依赖对效用的感知来判断对手的策略,导致算法的收敛速度不高.因此,将单Agent学习推广到在非通信群体对抗环境下的群体Agent学习.考虑不同学习问题的特殊性,在学习模型中加入了角色属性,提出一种基于角色跟踪的群体Agent再励学习算法,并进行了实验分析.在学习过程中动态跟踪对手角色,并根据对手角色与其行为的匹配度动态决定学习速率,利用minmax-Q算法修正每个状态的效用值,最终加快学习的收敛速度,从而改进了Bowling和Littman等人的工作.  相似文献   

14.
基于量子计算的多Agent协作学习算法   总被引:1,自引:0,他引:1       下载免费PDF全文
针对多Agent协作强化学习中存在的行为和状态维数灾问题,以及行为选择上存在多个均衡解,为了收敛到最佳均衡解需要搜索策略空间和协调策略选择问题,提出了一种新颖的基于量子理论的多Agent协作学习算法。新算法借签了量子计算理论,将多Agent的行为和状态空间通过量子叠加态表示,利用量子纠缠态来协调策略选择,利用概率振幅表示行为选择概率,并用量子搜索算法来加速多Agent的学习。相应的仿真实验结果显示新算法的有效性。  相似文献   

15.
一个基于博弈学习的多主体竞价模型   总被引:3,自引:0,他引:3  
根据多主体撮合交易模型,把整个撮合交易看成各交易主体的动态交互过程,设计了基于Multi-Agent的电子商务交易市场中交易主体动态竞价策略,提出了博弈学习的概念,并建立了基于博弈学习的动态竞价模型,根据撮合密度的定义,分析了所建立模型的性能和效率,试验表明,基于博弈学习的多主体动态竞价模型使多主体撮合交易系统具有一定的自均衡和自学习能力和良好的交易性能。  相似文献   

16.
为了研究由线性的一阶智能体、二阶智能体和非线性的EL (Euler-Lagrange)结构智能体组成的异质多智能体系统的群一致性,并实现同一个子群中智能体状态趋于期望的状态,针对无向的固定拓扑情况,提出了基于牵制控制的分布式控制协议。并通过代数图论、李雅普诺夫函数和拉塞尔不变集原理证明了控制协议的可行性。数值仿真结果表明:在所提控制协议作用下能够实现包含非线性EL结构的异质多智能体系统的群一致性,与未引入牵制控制的群一致性算法相比各个子群能够趋于期望的状态。  相似文献   

17.
This paper investigates the stationary average consensus problem for a class of heterogeneous-order multi-agent systems. The goal is to bring the positions of agents to the average of their initial positions while letting the other states converge to zero. To this end, three different consensus protocols are proposed. First, based on the auxiliary variables information among the agents under switching directed networks and state-feedback control, a protocol is proposed whereby all the agents achieve stationary average consensus. In the second and third protocols, by resorting to only measurements of relative positions of neighbouring agents under fixed balanced directed networks, two control frameworks are presented with two strategies based on state-feedback and output-feedback control. Finally, simulation results are given to illustrate the effectiveness of the proposed protocols.  相似文献   

18.
多智能体协作的两层强化学习实现方法   总被引:3,自引:0,他引:3  
提出了多智能体协作的两层强化学习方法。该方法主要通过在单个智能体中构筑两层强化学习单元来实现,将该方法应用于3个智能体协作抬起圆形物体的计算机模拟中,结果表明比采用传统强化学习方法的智能体协作得更好。  相似文献   

19.
学习、交互及其结合是建立健壮、自治agent的关键必需能力。强化学习是agent学习的重要部分,agent强化学习包括单agent强化学习和多agent强化学习。文章对单agent强化学习与多agent强化学习进行了比较研究,从基本概念、环境框架、学习目标、学习算法等方面进行了对比分析,指出了它们的区别和联系,并讨论了它们所面临的一些开放性的问题。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号