首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
针对多智能体深度确定性策略梯度算法(MADDPG)学习训练效率低、收敛速度慢的问题,研究MADDPG算法经验优先抽取机制,提出PES-MADDPG算法.首先,分析MADDPG算法的模型和训练方法;然后,改进多智能体经验缓存池,以策略评估函数误差和经验抽取训练频率为依据,设计优先级评估函数,以优先级作为抽取概率获取学习样本训练神经网络;最后,在合作导航和竞争对抗2类环境中进行6组对比实验,实验结果表明,经验优先抽取机制可提高MADDPG算法的训练速度,学习后的智能体具有更好的表现,同时对深度确定性策略梯度算法(DDPG)控制的多智能体训练具有一定的适用性.  相似文献   

2.
针对多无人机博弈对抗过程中无人机数量动态衰减问题和传统深度强化学习算法中的稀疏奖励问题及无效经验抽取频率过高问题,本文以攻防能力及通信范围受限条件下的多无人机博弈对抗任务为研究背景,构建了红、蓝两方无人机群的博弈对抗模型,在多智能体深度确定性策略梯度(multi-agent deep deterministic policy gradient, MADDPG)算法的Actor-Critic框架下,根据博弈环境的特点对原始的MADDPG算法进行改进。为了进一步提升算法对有效经验的探索和利用,本文构建了规则耦合模块以在无人机的决策过程中对Actor网络进行辅助。仿真实验表明,本文设计的算法在收敛速度、学习效率和稳定性方面都取了一定的提升,异构子网络的引入使算法更适用于无人机数量动态衰减的博弈场景;奖励势函数和重要性权重耦合的优先经验回放方法提升了经验差异的细化程度及优势经验利用率;规则耦合模块的引入实现了无人机决策网络对先验知识的有效利用。  相似文献   

3.
在强化学习中,当处于奖励分布稀疏的环境时,由于无法获得有效经验,智能体收敛速度和效率都会大幅下降.针对此类稀疏奖励,文中提出基于情感的异构多智能体强化学习方法.首先,建立基于个性的智能体情感模型,为异构多智能体提供激励机制,作为外部奖励的有效补充.然后,基于上述激励机制,融合深度确定性策略,提出稀疏奖励下基于内在情感激励机制的深度确定性策略梯度强化学习算法,加快智能体的收敛速度.最后,在多机器人追捕仿真实验平台上,构建不同难度等级的稀疏奖励情景,验证文中方法在追捕成功率和收敛速度上的有效性和优越性.  相似文献   

4.
近年来深度强化学习在一系列顺序决策问题中取得了巨大的成功,使其为复杂高维的多智能体系统提供有效优化的决策策略成为可能.然而在复杂的多智能体场景中,现有的多智能体深度强化学习算法不仅收敛速度慢,而且算法的稳定性无法保证.本文提出了基于值分布的多智能体分布式深度确定性策略梯度算法(multi-agent distribut...  相似文献   

5.
针对当前多智能体强化学习算法难以适应智能体规模动态变化的问题,文中提出序列多智能体强化学习算法(SMARL).将智能体的控制网络划分为动作网络和目标网络,以深度确定性策略梯度和序列到序列分别作为分割后的基础网络结构,分离算法结构与规模的相关性.同时,对算法输入输出进行特殊处理,分离算法策略与规模的相关性.SMARL中的智能体可较快适应新的环境,担任不同任务角色,实现快速学习.实验表明SMARL在适应性、性能和训练效率上均较优.  相似文献   

6.
针对居民建筑能耗逐渐增加、传统控制方法效率低下的问题,提出一种基于深度确定性策略梯度的建筑能耗控制方法。该方法利用深度强化学习模型,将建筑电力使用问题建模为强化学习的控制问题,解决负荷降低和成本最小化的问题。根据某开源数据库中居民的能耗使用数据,结合深度Q网络、确定性策略梯度和深度确定性策略梯度算法进行实验验证。实验结果表明,该方法能够有效降低负荷峰值与电力能源使用成本,实现建筑节能的目的。  相似文献   

7.
李悄然  丁进良 《控制与决策》2022,37(8):1989-1996
为了解决深度确定性策略梯度算法探索能力不足的问题,提出一种多动作并行异步深度确定性策略梯度(MPADDPG)算法,并用于选矿运行指标强化学习决策.该算法使用多个actor网络,进行不同的初始化和训练,不同程度地提升了探索能力,同时通过扩展具有确定性策略梯度结构的评论家体系,揭示了探索与利用之间的关系.该算法使用多个DDPG代替单一DDPG,可以减轻一个DDPG性能不佳的影响,提高学习稳定性;同时通过使用并行异步结构,提高数据利用效率,加快了网络收敛速度;最后, actor通过影响critic的更新而得到更好的策略梯度.通过选矿过程运行指标决策的实验结果验证了所提出算法的有效性.  相似文献   

8.
慕国行  贺卫华  周自强 《计算机仿真》2023,(12):133-138+149
传统微电网系统设备分时控制能力差,存在协同控制不足的问题。对此,提出采用思维进化算法优化多智能体控制系统。首先基于“源-网-荷-储”概念提出微电网多智能体模型,并优化目标环保成本与运维成本;然后在数据分析的基础上,通过历史光伏发电功率数据与当日气象数据,构建分布式“源”功率预测模型;最后采用思维进化算法对智能体种群调度策略的适应值进行趋同异化优化,迭代出最优种群调度策略。功率预测仿真结果表明,在类簇为3时,模型具有最高的预测精确性,较传统预测方法精度提升了5.6%;控制策略仿真结果表明,MEA算法的微电网协调控制决策优化后,提高多智能体协同控制能力,降低了环保成本与运维成本。  相似文献   

9.
运用多智能体系统的思想,提出了一种多智能体协作控制模型,通过对多智能体的规划提高了足球机器人系统决策系统的连贯性,系统利用改进的黑板结构有效地解决了角色分配及通信问题。通过实例分析了模型及其策略在系统协作控制方面的实用性。  相似文献   

10.
使用多智能体双延迟深度确定性策略梯度(Multi-agent Twin Delayed Deep Deterministic Policy Gradient,MATD3)算法研究了多无人机的避障和到达目标点问题,首先,利用MATD3算法的优越性提高训练效率。其次,基于人工势场法的思想设计了稠密碰撞奖励函数,使得智能体在没有找到最优解决方案时也能得到积极的反馈,加快学习速度。最后,在仿真实验阶段,通过设计的三组对比实验和泛化实验验证了算法的有效性。  相似文献   

11.
郭方洪  何通  吴祥  董辉  刘冰 《控制理论与应用》2022,39(10):1881-1889
随着海量新能源接入到微电网中, 微电网系统模型的参数空间成倍增长, 其能量优化调度的计算难度不断上升. 同时, 新能源电源出力的不确定性也给微电网的优化调度带来巨大挑战. 针对上述问题, 本文提出了一种基于分布式深度强化学习的微电网实时优化调度策略. 首先, 在分布式的架构下, 将主电网和每个分布式电源看作独立智能体. 其次, 各智能体拥有一个本地学习模型, 并根据本地数据分别建立状态和动作空间, 设计一个包含发电成本、交易电价、电源使用寿命等多目标优化的奖励函数及其约束条件. 最后, 各智能体通过与环境交互来寻求本地最优策略, 同时智能体之间相互学习价值网络参数, 优化本地动作选择, 最终实现最小化微电网系统运行成本的目标. 仿真结果表明, 与深度确定性策略梯度算法(Deep Deterministic Policy Gradient, DDPG)相比, 本方法在保证系统稳定以及求解精度的前提下, 训练速度提高了17.6%, 成本函数值降低了67%, 实现了微电网实时优化调度.  相似文献   

12.
地铁站空调系统能源消耗较大,传统控制方法无法兼顾舒适性和节能问题,控制效果不佳,且目前地铁站空调控制系统均是对风系统和水系统单独控制,无法保证整个系统的节能效果.鉴于此,提出基于强化学习的空调系统节能控制策略.首先,采用神经网络建立空调系统模型,作为离线训练智能体的模拟环境,以解决无模型强化学习方法在线训练收敛时间长的问题;然后,为了提升算法效率,同时针对地铁站空调系统多维连续动作空间的特点,提出基于多步预测的深度确定性策略梯度算法,设计智能体框架,将其用于与环境模型进行交互训练;此外,为了确定最佳的训练次数,设置了智能体训练终止条件,进一步提升了算法效率;最后,基于武汉某地铁站的实测运行数据进行仿真实验,结果表明,所提出控制策略具有较好的温度跟踪性能,能够保证站台舒适性,且与目前实际系统相比能源节省约17.908%.  相似文献   

13.
随着人工智能研究的进一步加深,以及在俄乌战场上相关技术的大放异彩,其在军事领域扮演的角色越来越重要。针对于日益复杂的战场环境,当前的导弹突防领域存在着信息维度高、指挥反应缓慢、突防机动战术不够灵活等问题。提出了一种基于多智能体深度确定性策略梯度(MADDPG)的训练方法,用以快速制定导弹攻击机动方案,协助军事指挥官进行战场决策。同时改进算法的经验回放策略,添加经验池筛选机制缩短训练的时长,达到现实场景中的快速反应需求。通过设置多目标快速拦截策略,仿真验证了所设计的方法能够突防的机动策略优势,通过协作智能地对目标进行突防打击,并通过比较,验证了本方法相较其他算法可以提升8%的收敛速度以及10%的成功率。  相似文献   

14.
针对车联网频谱资源稀缺问题,提出一种基于柔性致动-评价(SAC)强化学习算法的多智能体频谱资源动态分配方案。以最大化信道总容量与载荷成功交付率为目标,建立车辆-车辆(V2V)链路频谱资源分配模型。将每条V2V链路作为单个智能体,构建多智能体马尔科夫决策过程模型。利用SAC强化学习算法设计神经网络,通过最大化熵与累计奖励和以训练智能体,使得V2V链路经过不断学习优化频谱资源分配。仿真结果表明,与基于深度Q网络和深度确定性策略梯度的频谱资源分配方案相比,该方案可以更高效地完成车联网链路之间的频谱共享任务,且信道传输速率和载荷成功交付率更高。  相似文献   

15.
分布式任务决策是提高多智能体系统自主性的关键. 以异构多智能体协同执行复杂任务为背景, 首先建立 了一种考虑任务载荷资源约束、任务耦合关系约束及执行窗口约束等条件的异构多智能体分布式联盟任务分配模 型; 其次, 对一致性包算法(CBBA)进行了扩展, 提出了基于改进冲突消解原则的一致性联盟算法(CBCA), 以实现异 构多智能体协同无冲突任务分配, 并进一步证明了在一定条件下CBCA算法收敛于改进顺序贪婪算法(ISGA). 最后 通过数值仿真, 验证了CBCA算法求解复杂约束条件下异构多智能体联盟任务分配问题的可行性和快速性.  相似文献   

16.
郭文强  高晓光  侯勇严 《计算机应用》2010,30(11):2906-2909
为解决复杂、不确定系统的故障诊断实时推理问题,提出了基于图模型-多连片贝叶斯网络架构下多智能体协同推理的故障诊断方法。该方法将一个复杂贝叶斯网分割成若干有重叠的贝叶斯子网,使监控网络的单个智能体被抽象为一个拥有局部知识的贝叶斯网,利用成熟的贝叶斯网推理算法可完成智能体的自主推理。随后,通过重叠的子网接口进行多智能体间消息的传播,实现了多智能体协同故障诊断推理。实验结果表明了基于图模型多智能体的协同故障诊断方法的正确性和有效性。  相似文献   

17.
在现实世界的复杂多智能体环境中,任务的完成通常需要多个智能体之间的相互协作,这促使各种多智能体强化学习方法不断涌现.动作价值函数估计偏差是单智能体强化学习领域中备受关注的一个重要问题,而在多智能体环境中却鲜有研究.针对这一问题,分别从理论和实验上证明了多智能体深度确定性策略梯度方法存在价值函数被高估.提出基于双评论家的多智能体深度确定性策略梯度(multiagent deep deterministic policy gradient method based on double critics,MADDPG-DC)方法,通过在双评论家网络上的最小值操作来避免价值被高估,进一步促进智能体学得最优的策略.此外,延迟行动者网络更新,保证行动者网络策略更新的效率和稳定性,提高策略学习和更新的质量.在多智能体粒子环境和交通信号控制环境上的实验结果证明了所提方法的可行性和优越性.  相似文献   

18.
城市交通智能化和通信技术的进步会产生大量基于车辆的应用,但目前车辆有限的计算资源无法满足车辆应用的计算需求与延迟性约束。车辆云(VC)可以高效地调度资源,从而显著降低任务请求的延迟与传输成本。针对VC环境下任务卸载与计算资源分配问题,提出一个考虑异质车辆和异质任务的计计资源分配算法。对到达的任务构建M/M/1队列模型与计算模型,并定义一个效用函数以最大化系统整体效用。针对环境中车辆地理分布的高度动态系统变化,提出基于双时间尺度的二次资源分配机制(SRA),使用两个不同时间尺度的资源分配决策动作,对其分别构建部分可观测马尔可夫决策过程。两个决策动作通过执行各自的策略获得的奖励进行连接,将问题建模为两层计算资源分配问题。在此基础上提出基于二次资源分配机制的多智能体算法SRA-QMix求解最优策略。仿真结果表明,与深度确定性策略梯度算法对比,该算法的整体效用值和任务完成率分别提高了70%、6%,对于QMix和MADDPG算法分别应用SRA后的任务完成率分别提高了13%与15%,可适用于动态的计算资源分配环境。  相似文献   

19.
为了解决部分可观对抗环境中多智能体协同决策难题,受人大脑皮层通过记忆进行学习和推理功能启发,提出一种新的部分可观对抗环境下基于不完备信息预测的多智能体分布式协同决策框架。该框架可采用支持向量回归等多种预测方法通过历史记忆和当前观察信息对环境中不可见信息进行预测,并将预测信息和观察到的信息融合,作为协同决策的依据;再通过分布式多智能体强化学习进行协同策略学习得到团队中每个智能体的决策模型。使用该框架结合多种预测算法在典型的部分可观对抗环境中进行了多智能体协同决策的验证。结果表明,提出的框架对多种预测算法具有普适性,且在保证对不可见部分高预测精度时能将多智能体协同决策水平提升23.4%。  相似文献   

20.
采用鱼群模型驱动多智能体可以涌现出优良的运动特性,但是,由于机器人与真实鱼类相比具有较大的差异性,使得鱼群模型难以应用于真实机器人系统.为此,提出一种结合深度学习与强化学习的迁移控制方法,首先,使用鱼群运动数据训练深度网络(deep neural network, DNN)模型,以此作为机器人成对交互的基础;然后,连接强化学习的深度确定性策略梯度方法(deep deterministic policy gradient, DDPG)来修正DNN模型的输出,设计集群最大视觉尺寸方法挑选关键邻居,从而将DNN+DDPG模型拓展到多智能体的运动控制.集群机器人运动实验表明:所提出方法能使机器人仅利用单个邻居信息就能形成可靠、稳定的集群运动,与单纯DNN直接迁移控制相比,所提出DNN+DDPG控制框架既可以保存原有鱼群运动的灵活性,又能增强机器人系统的安全性与可控性,使得该方法在集群机器人运动控制领域具有较大的应用潜力.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号