首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 62 毫秒
1.
针对多智能体追逃问题,提出基于优先经验回放和解耦奖励函数的多智能体强化学习算法.将多智能体深度确定性策略梯度算法(MADDPG)和双延迟-确定策略梯度算法(TD3)相结合,提出多智能体双延迟-确定策略梯度算法(MATD3).针对多智能体追逃问题中奖励函数存在大量稀疏奖励的问题,提出利用优先经验回放方法确定经验优先度以及采样高价值经验.设计解耦奖励函数,将奖励函数分为个体奖励和联合奖励以最大化全局奖励和局部奖励,提出DEPER-MATD3算法.基于此算法设计仿真实验,并与其他算法对比,实验结果表明,该算法有效解决了过估计问题,且耗时相比MATD3算法有所减少.在解耦奖励函数环境下该算法训练的追击者的全局平均奖励升高,追击者有更大的概率追击到逃逸者.  相似文献   

2.
多智能体分布式故障诊断专家系统   总被引:3,自引:0,他引:3  
探讨了一种由若干完整诊断子系统联合组成的多智能体分布式故障诊断专家系统结构;各子系统间通过相互交互的方法解决新知识在各子系统中的传播以及(大)系统故障和边界故障的定位。针对多专家诊断结果的筛选决策,提出了一种综合绩效(经验、教训)、时效、域效(适用群)等多种参数的决策算法。  相似文献   

3.
为解决多无人机(unmanned aerial vehicle, UAV)在复杂环境下的路径规划问题,提出一个多智能体深度强化学习UAV路径规划框架.该框架首先将路径规划问题建模为部分可观测马尔可夫过程,采用近端策略优化算法将其扩展至多智能体,通过设计UAV的状态观测空间、动作空间及奖赏函数等实现多UAV无障碍路径规划;其次,为适应UAV搭载的有限计算资源条件,进一步提出基于网络剪枝的多智能体近端策略优化(network pruning-based multi-agent proximal policy optimization, NP-MAPPO)算法,提高了训练效率.仿真结果验证了提出的多UAV路径规划框架在各参数配置下的有效性及NP-MAPPO算法在训练时间上的优越性.  相似文献   

4.
为了解决传统的可变导向车道控制方法无法适应多路口场景下的复杂交通流的问题,提出基于多智能体强化学习的多路口可变导向车道协同控制方法来缓解多路口的交通拥堵状况. 该方法对多智能体强化学习 (QMIX)算法进行改进,针对可变导向车道场景下的全局奖励分配问题,将全局奖励分解为基本奖励与绩效奖励,提高了拥堵场景下对车道转向变化的决策准确性. 引入优先级经验回放算法,以提升经验回放池中转移序列的利用效率,加速算法收敛. 实验结果表明,本研究所提出的多路口可变导向车道协同控制方法在排队长度、延误时间和等待时间等指标上的表现优于其他控制方法,能够有效协调可变导向车道的策略切换,提高多路口下路网的通行能力.  相似文献   

5.
针对个体动态为一阶积分器的多智能体网络,研究时变领航情况下网络的一致性.当只有部分个体已知领航者状态时,基于智能体间的相对状态,提出分布式控制协议,应用图论、矩阵理论和稳定性理论给出有向固定拓扑网络实现一致的充要条件及算法.拓展算法至当智能体间具有固定相对状态偏差时,给出分布式控制协议和网络实现一致的充要条件及算法.仿真实验结果表明:基于文中算法的控制协议可以实现只有部分智能体已知时变领航情况下的一致性追踪,基于拓展算法的控制协议可使多车辆在一定时间保持理想编队.该研究结果对于多智能体协调控制问题具有参考意义,也为多车辆编队控制问题提出新的思路.  相似文献   

6.
强化学习的收敛速度随状态-动作空间的维数呈指数增长,因此在涉及大的状态空间时,强化学习算法的收敛速度非常慢以至不能满足应用需求。在许多应用环境中,若智能体之间存在合作关系,借助多个智能体进行分布式学习可以部分解决这一问题。利用进化算法,设计了智能体繁殖、消亡等操作,使得子代智能体能够继承父代智能体在状态空间的方向信息,从而更快地找到状态-动作空间的有效更新。仿真实验表明:算法比已有的强化学习方法具有更高的搜索效率和收敛速度。  相似文献   

7.
针对自动化集装箱码头严格装船模式下岸桥区域车辆拥堵问题,综合应用多智能体机制、消息通信机制和行动策略,建立基于 MAS(Multi-Agent System)的集装箱码头 ART(Artificial Intelligence Robot of Transportation)动态调速群智决策模型.针对ART分布式和智能...  相似文献   

8.
为研究受到虚假数据注入攻击的单输入单输出非线性多智能体系统的分布式无模型自适应控制问题,提出了一种新的分布式动态线性化方法, 以获得非线性多智能体的等效线性数据模型。与现有多智能体的分布式无模型自适应控制在控制器设计中有所不同, 本文设计的控制器不需要网络拓扑结构的信息, 仅使用系统的输入输出数据。仿真算例验证了所提出的分布式无模型自适应控制算法可以实现多智能体系统的均方有界趋同控制。算法保证了多智能体系统在受到网络攻击时可以实现趋同控制目标。  相似文献   

9.
传统的流量工程策略的研究大多集中在构建和求解数学模型方面,其计算复杂度过高,为此,提出了一种经验驱动的基于多智能体强化学习的流量分配算法.该算法无需求解复杂数学模型即可在预计算的路径上进行有效的流量分配,从而高效且充分地利用网络资源.算法在软件定义网络控制器上进行集中训练,且在训练完成后再接入交换机或者路由器上分布式执行,同时也避免和控制器的频繁交互.实验结果表明,相对于最短路径和等价多路径算法,新算法有效减少了网络的端到端时延,并且增大了网络吞吐量.  相似文献   

10.
基于多智能体的公路施工机群分层—分布式体系结构研究   总被引:1,自引:0,他引:1  
采用多智能体理论与技术,在实现工程机械单机智能化的前提下,建立了公路施工机群的多智能体模型.依据施工机群层次划分原理,建立了基于多智能体的公路施工机群分层-分布式体系结构.基于该结构开发的公路施工机群智能化协调作业系统在青林公路施工中进行了示范,运行效果良好,有效提高了施工效率.  相似文献   

11.
对有领导者的异构离散多智能体系统的最优一致性问题,提出了一种无模型的基于非策略强化学习的控制协议设计方法。由于异构多智能体系统的状态矩阵不同,其局部邻居误差的动态表达式比较复杂。与现有的多智能体系统分布式控制方案相比,所提算法减少了计算的复杂性。首先,建立由增广变量构造的多智能体系统全局邻居误差动态表达式。其次,通过二次型形式的值函数得到耦合贝尔曼方程和Hamilton?Jacobi?Bellman(HJB)方程。再次,求解耦合HJB方程的最优解,得到多智能体最优一致性的纳什均衡解,并给出纳什均衡证明。从次,基于无模型的非策略Q学习算法,求解多智能体最优一致性的纳什均衡解。最后,利用批判神经网络结构,结合梯度下降法实现了所提出的算法,并通过仿真实例验证了算法的有效性。  相似文献   

12.
针对多智能体系统优化问题,提出一种基于动态事件触发机制的分布式优化算法.基于李雅普诺夫函数方法设计一种新型的动态事件触发控制器,相较于传统静态事件触发控制方法,所提出算法可有效降低多智能体间通信负担以及控制器计算负担.此外,利用周期采样信息进行事件触发条件设计,可避免智能体连续检测事件触发条件,并可消除Zeno现象.通过数值仿真验证了算法的有效性.  相似文献   

13.
利用Push-Sum通信协议,结合分布式对偶平均方法,讨论了一类时滞多智能体网络中的分布式凸优化问题。提出了时滞的Push-Sum分布式对偶平均算法,并分析了算法的收敛性,得到算法的收敛率为O[(τ+1)~2/T~(1/2)]。这种算法可用于求解分布式优化问题,且不要求网络通讯矩阵是双随机的。  相似文献   

14.
为描述信息物理融合系统(cyber-physical system,CPS)中离散信息系统和连续物理系统交互融合的混成特性,基于混成自动机理论,结合多智能体系统(multi-agent system,MAS)和时空事件驱动方法,提出一种CPS体系架构.该架构用改进的混成自动机理论刻画了离散空间和连续状态混成的CPS体系架构的主体,同时定义了基于时空事件的CPS事件,设计了基于MAS的CPS端,并运用定义不同功能的CPS端和CPS事件驱动机制解析了CPS体系架构内部信息物理交互反馈过程.最后以车速调控系统为例,采用提出的CPS体系架构分析了协同驾驶过程中单一车辆内部速度调控的信息物理融合过程,并对其进行了形式化描述,实例的形式化过程表明提出的体系架构的有效性.构建的CPS体系架构为刻画CPS的本质特征提供了新的方法.  相似文献   

15.
免疫原理在多Agent入侵检测系统中的应用   总被引:2,自引:1,他引:1  
将免疫学原理应用于多Agcnt入侵检测系统,提出免疫智能体的概念.在设计建立免疫智能体的核心算法基础上,给出一种产生多样性、遗传性、健壮性的抗体解集的方案,并建立了基于免疫智能体的分布式入侵检测系统模型,该系统模型具有自适应性、健壮性、自治性等特点.  相似文献   

16.
研究了一类一般非线性无模型多智能体系统的分布式优化问题。每个智能体的动态模型是未知的,只能获得输入和输出数据的信息。首先,通过采用无模型自适应控制方法,将原来未知的非线性系统等效转化为动态线性化模型。然后,为保证所有智能体输出的一致性误差收敛,提出一种基于事件触发机制的一致性控制方案。其次,引入分布式梯度下降法,提出一种新的事件触发无模型自适应分布式优化算法。根据李亚普诺夫稳定性理论,给出闭环系统达到一致性和最优性的充分条件。最后,通过仿真实验验证算法设计方案的有效性。  相似文献   

17.
研究了离散时间非线性多智能体系统的一致性问题。针对递归非线性模型中的未知参数,利用泰勒展开式推导了投影算法辨识参数。基于把参数估计值作为参数真值的基本设计思想和自适应控制理论中的必然等价原则,利用智能体的邻居历史信息,提出了分布式自适应控制律,使得多智能体系统达到了一致性。最后用仿真验证了理论结果的有效性和可行性。  相似文献   

18.
本文建立了以失电负荷最少、电压偏移量最小、开关动作次数最少和网损最小为目标,建立了含分布式电源的配网多目标供电恢复的模型。采用多智能体遗传算法对含DG的多目标供电恢复模型进行求解。采用聊城城区电网为算例进行仿真分析结果证明了本文MAGA算法的正确性。  相似文献   

19.
针对半导体封装测试工厂生产制造过程中生产计划分配的交互性问题,运用分布式多Agent技术,对生产分配过程进行模块化封装。在传统合同网协议基础上进行改进,嵌入"产能注册矩阵"的模式构建了多Agent协商策略模型,提出了智能体间招标—投标—中标的交互机制。对投标过程的产能平衡问题,运用启发式算法进行了优化。通过S企业生产计划实例分析和传统MRPⅡ方法投标结果对比,验证了改进的合同网协商模型和启发式算法对生产任务分配和产能平衡具有相对优良的投标完成率和相关系数矩阵。  相似文献   

20.
针对多智能体系统中的分布式凸优化问题,本文提出一种基于自适应事件触发机制的零梯度和优化算法.基于虚拟时钟设计了一种自适应事件触发条件,当每个智能体的虚拟时钟满足该条件时才触发条件,有效地降低了控制器的更新次数和系统的通信负担.通过构造李雅普诺夫函数,证明了在该算法下所有智能体的状态能渐近收敛到全局最优解.此外,所设计的事件触发条件使得最小事件触发间隔时间可设计,有效地排除Zeno行为.最后,通过仿真验证了该算法的有效性.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号