期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

薛雅丽叶金泽李寒雁《浙江大学学报(工学版)》2023,(8):1479-1486+1515

针对多智能体追逃问题，提出基于优先经验回放和解耦奖励函数的多智能体强化学习算法.将多智能体深度确定性策略梯度算法（MADDPG）和双延迟-确定策略梯度算法（TD3）相结合，提出多智能体双延迟-确定策略梯度算法（MATD3）.针对多智能体追逃问题中奖励函数存在大量稀疏奖励的问题，提出利用优先经验回放方法确定经验优先度以及采样高价值经验.设计解耦奖励函数，将奖励函数分为个体奖励和联合奖励以最大化全局奖励和局部奖励，提出DEPER-MATD3算法.基于此算法设计仿真实验，并与其他算法对比，实验结果表明，该算法有效解决了过估计问题，且耗时相比MATD3算法有所减少.在解耦奖励函数环境下该算法训练的追击者的全局平均奖励升高，追击者有更大的概率追击到逃逸者. 相似文献

2.

多智能体分布式故障诊断专家系统 总被引：3，自引：0，他引：3

焦国华雷斌董斌《西安工业学院学报》2003,23(1):45-50

探讨了一种由若干完整诊断子系统联合组成的多智能体分布式故障诊断专家系统结构；各子系统间通过相互交互的方法解决新知识在各子系统中的传播以及（大）系统故障和边界故障的定位。针对多专家诊断结果的筛选决策，提出了一种综合绩效（经验、教训）、时效、域效（适用群）等多种参数的决策算法。相似文献

3.

基于多智能体深度强化学习的无人机路径规划

司鹏搏吴兵杨睿哲李萌孙艳华《北京工业大学学报》2023,(4):449-458

为解决多无人机(unmanned aerial vehicle, UAV)在复杂环境下的路径规划问题,提出一个多智能体深度强化学习UAV路径规划框架.该框架首先将路径规划问题建模为部分可观测马尔可夫过程,采用近端策略优化算法将其扩展至多智能体,通过设计UAV的状态观测空间、动作空间及奖赏函数等实现多UAV无障碍路径规划;其次,为适应UAV搭载的有限计算资源条件,进一步提出基于网络剪枝的多智能体近端策略优化(network pruning-based multi-agent proximal policy optimization, NP-MAPPO)算法,提高了训练效率.仿真结果验证了提出的多UAV路径规划框架在各参数配置下的有效性及NP-MAPPO算法在训练时间上的优越性. 相似文献

4.

基于强化学习的多路口可变车道协同控制方法

徐小高夏莹杰朱思雨邝砾《浙江大学学报(工学版)》2022,56(5):987

为了解决传统的可变导向车道控制方法无法适应多路口场景下的复杂交通流的问题,提出基于多智能体强化学习的多路口可变导向车道协同控制方法来缓解多路口的交通拥堵状况. 该方法对多智能体强化学习 (QMIX)算法进行改进,针对可变导向车道场景下的全局奖励分配问题,将全局奖励分解为基本奖励与绩效奖励,提高了拥堵场景下对车道转向变化的决策准确性. 引入优先级经验回放算法,以提升经验回放池中转移序列的利用效率,加速算法收敛. 实验结果表明,本研究所提出的多路口可变导向车道协同控制方法在排队长度、延误时间和等待时间等指标上的表现优于其他控制方法,能够有效协调可变导向车道的策略切换,提高多路口下路网的通行能力. 相似文献

5.

时变领航情况下多智能体网络一致性分析与应用

于镝李铖冷传英任伟建《大庆石油学院学报》2014,(2):109-113

针对个体动态为一阶积分器的多智能体网络,研究时变领航情况下网络的一致性.当只有部分个体已知领航者状态时,基于智能体间的相对状态,提出分布式控制协议,应用图论、矩阵理论和稳定性理论给出有向固定拓扑网络实现一致的充要条件及算法.拓展算法至当智能体间具有固定相对状态偏差时,给出分布式控制协议和网络实现一致的充要条件及算法.仿真实验结果表明:基于文中算法的控制协议可以实现只有部分智能体已知时变领航情况下的一致性追踪,基于拓展算法的控制协议可使多车辆在一定时间保持理想编队.该研究结果对于多智能体协调控制问题具有参考意义,也为多车辆编队控制问题提出新的思路. 相似文献

6.

基于进化算法的多智能体合作学习

王云王俊韩伟《山东大学学报(工学版)》2010,40(6):8-11

强化学习的收敛速度随状态-动作空间的维数呈指数增长,因此在涉及大的状态空间时,强化学习算法的收敛速度非常慢以至不能满足应用需求。在许多应用环境中,若智能体之间存在合作关系,借助多个智能体进行分布式学习可以部分解决这一问题。利用进化算法,设计了智能体繁殖、消亡等操作,使得子代智能体能够继承父代智能体在状态空间的方向信息,从而更快地找到状态-动作空间的有效更新。仿真实验表明:算法比已有的强化学习方法具有更高的搜索效率和收敛速度。相似文献

7.

自动化集装箱码头ART动态调速群智决策研究

杨彩云张煜徐亚军唐可心《武汉理工大学学报》2022,(1):28-35

针对自动化集装箱码头严格装船模式下岸桥区域车辆拥堵问题,综合应用多智能体机制、消息通信机制和行动策略,建立基于 MAS(Multi-Agent System)的集装箱码头 ART(Artificial Intelligence Robot of Transportation)动态调速群智决策模型.针对ART分布式和智能... 相似文献

8.

FDI攻击下非线性多智能体系统分布式无模型自适应控制

下载免费PDF全文

曲燊车伟伟《广东工业大学学报》2022,39(5):75-82

为研究受到虚假数据注入攻击的单输入单输出非线性多智能体系统的分布式无模型自适应控制问题,提出了一种新的分布式动态线性化方法, 以获得非线性多智能体的等效线性数据模型。与现有多智能体的分布式无模型自适应控制在控制器设计中有所不同, 本文设计的控制器不需要网络拓扑结构的信息, 仅使用系统的输入输出数据。仿真算例验证了所提出的分布式无模型自适应控制算法可以实现多智能体系统的均方有界趋同控制。算法保证了多智能体系统在受到网络攻击时可以实现趋同控制目标。相似文献

9.

一种基于多智能体强化学习的流量分配算法

程超滕俊杰赵艳领宋梅《北京邮电大学学报》2019,42(6):43-48,57

传统的流量工程策略的研究大多集中在构建和求解数学模型方面,其计算复杂度过高,为此,提出了一种经验驱动的基于多智能体强化学习的流量分配算法.该算法无需求解复杂数学模型即可在预计算的路径上进行有效的流量分配,从而高效且充分地利用网络资源.算法在软件定义网络控制器上进行集中训练,且在训练完成后再接入交换机或者路由器上分布式执行,同时也避免和控制器的频繁交互.实验结果表明,相对于最短路径和等价多路径算法,新算法有效减少了网络的端到端时延,并且增大了网络吞吐量. 相似文献

10.

基于多智能体的公路施工机群分层—分布式体系结构研究 总被引：1，自引：0，他引：1

管啸天张明路高春艳许波《河北工业大学学报》2008,37(3):11-15

采用多智能体理论与技术,在实现工程机械单机智能化的前提下,建立了公路施工机群的多智能体模型.依据施工机群层次划分原理,建立了基于多智能体的公路施工机群分层-分布式体系结构.基于该结构开发的公路施工机群智能化协调作业系统在青林公路施工中进行了示范,运行效果良好,有效提高了施工效率. 相似文献

11.

基于Q学习的异构多智能体系统最优一致性

程薇燃李金娜《辽宁石油化工大学学报》2022,42(4):59

对有领导者的异构离散多智能体系统的最优一致性问题,提出了一种无模型的基于非策略强化学习的控制协议设计方法。由于异构多智能体系统的状态矩阵不同,其局部邻居误差的动态表达式比较复杂。与现有的多智能体系统分布式控制方案相比,所提算法减少了计算的复杂性。首先,建立由增广变量构造的多智能体系统全局邻居误差动态表达式。其次,通过二次型形式的值函数得到耦合贝尔曼方程和Hamilton?Jacobi?Bellman（HJB）方程。再次,求解耦合HJB方程的最优解,得到多智能体最优一致性的纳什均衡解,并给出纳什均衡证明。从次,基于无模型的非策略Q学习算法,求解多智能体最优一致性的纳什均衡解。最后,利用批判神经网络结构,结合梯度下降法实现了所提出的算法,并通过仿真实例验证了算法的有效性。相似文献

12.

一种基于动态事件触发的分布式优化算法

邓志良梁旭《南京信息工程大学学报》2023,15(2):218-224

针对多智能体系统优化问题,提出一种基于动态事件触发机制的分布式优化算法.基于李雅普诺夫函数方法设计一种新型的动态事件触发控制器,相较于传统静态事件触发控制方法,所提出算法可有效降低多智能体间通信负担以及控制器计算负担.此外,利用周期采样信息进行事件触发条件设计,可避免智能体连续检测事件触发条件,并可消除Zeno现象.通过数值仿真验证了算法的有效性. 相似文献

13.

时滞多智能体网络中的Push-Sum分布式对偶平均算法研究

周小清《重庆科技学院学报(自然科学版)》2019,21(1)

利用Push-Sum通信协议,结合分布式对偶平均方法,讨论了一类时滞多智能体网络中的分布式凸优化问题。提出了时滞的Push-Sum分布式对偶平均算法,并分析了算法的收敛性,得到算法的收敛率为O[(τ+1)~2/T~(1/2)]。这种算法可用于求解分布式优化问题,且不要求网络通讯矩阵是双随机的。相似文献

14.

一种离散连续混成的时空事件驱动的CPS体系架构

赵红专孙棣华程森林赵敏《哈尔滨工业大学学报》2016,48(9):170-175

为描述信息物理融合系统(cyber-physical system,CPS)中离散信息系统和连续物理系统交互融合的混成特性,基于混成自动机理论,结合多智能体系统(multi-agent system,MAS)和时空事件驱动方法,提出一种CPS体系架构.该架构用改进的混成自动机理论刻画了离散空间和连续状态混成的CPS体系架构的主体,同时定义了基于时空事件的CPS事件,设计了基于MAS的CPS端,并运用定义不同功能的CPS端和CPS事件驱动机制解析了CPS体系架构内部信息物理交互反馈过程.最后以车速调控系统为例,采用提出的CPS体系架构分析了协同驾驶过程中单一车辆内部速度调控的信息物理融合过程,并对其进行了形式化描述,实例的形式化过程表明提出的体系架构的有效性.构建的CPS体系架构为刻画CPS的本质特征提供了新的方法. 相似文献

15.

免疫原理在多Agent入侵检测系统中的应用 总被引：2，自引：1，他引：1

吴知许家珆《电子科技大学学报(自然科学版)》2005,34(3):381-384

将免疫学原理应用于多Agcnt入侵检测系统,提出免疫智能体的概念.在设计建立免疫智能体的核心算法基础上,给出一种产生多样性、遗传性、健壮性的抗体解集的方案,并建立了基于免疫智能体的分布式入侵检测系统模型,该系统模型具有自适应性、健壮性、自治性等特点. 相似文献

16.

事件触发机制下无模型多智能体系统的分布式优化（英文）

郑姗姗刘帅王立成《信息与电子工程前沿(英文版)》2024,(2):214-225

研究了一类一般非线性无模型多智能体系统的分布式优化问题。每个智能体的动态模型是未知的,只能获得输入和输出数据的信息。首先,通过采用无模型自适应控制方法,将原来未知的非线性系统等效转化为动态线性化模型。然后,为保证所有智能体输出的一致性误差收敛,提出一种基于事件触发机制的一致性控制方案。其次,引入分布式梯度下降法,提出一种新的事件触发无模型自适应分布式优化算法。根据李亚普诺夫稳定性理论,给出闭环系统达到一致性和最优性的充分条件。最后,通过仿真实验验证算法设计方案的有效性。相似文献

17.

一类离散时间非线性多智能体系统的一致性

《河南机电高等专科学校学报》2020,(3):14-18

研究了离散时间非线性多智能体系统的一致性问题。针对递归非线性模型中的未知参数,利用泰勒展开式推导了投影算法辨识参数。基于把参数估计值作为参数真值的基本设计思想和自适应控制理论中的必然等价原则,利用智能体的邻居历史信息,提出了分布式自适应控制律,使得多智能体系统达到了一致性。最后用仿真验证了理论结果的有效性和可行性。相似文献

18.

配电网多目标供电恢复的算法研究

张磊《军民两用技术与产品》2014,(11)

本文建立了以失电负荷最少、电压偏移量最小、开关动作次数最少和网损最小为目标,建立了含分布式电源的配网多目标供电恢复的模型。采用多智能体遗传算法对含DG的多目标供电恢复模型进行求解。采用聊城城区电网为算例进行仿真分析结果证明了本文MAGA算法的正确性。相似文献

19.

基于改进合同网协议的半导体封装测试工厂启发式产能平衡优化

倪妍婷姚进徐文杰李敬敏《四川大学学报(工程科学版)》2012,44(4):226-230

针对半导体封装测试工厂生产制造过程中生产计划分配的交互性问题,运用分布式多Agent技术,对生产分配过程进行模块化封装。在传统合同网协议基础上进行改进,嵌入"产能注册矩阵"的模式构建了多Agent协商策略模型,提出了智能体间招标—投标—中标的交互机制。对投标过程的产能平衡问题,运用启发式算法进行了优化。通过S企业生产计划实例分析和传统MRPⅡ方法投标结果对比,验证了改进的合同网协商模型和启发式算法对生产任务分配和产能平衡具有相对优良的投标完成率和相关系数矩阵。相似文献

20.

最小事件间隔时间可设计的分布式事件触发优化算法

杨志强贾红云韦梦立季秋桐赵中原《南京信息工程大学学报》2024,16(2):179-185

针对多智能体系统中的分布式凸优化问题,本文提出一种基于自适应事件触发机制的零梯度和优化算法.基于虚拟时钟设计了一种自适应事件触发条件,当每个智能体的虚拟时钟满足该条件时才触发条件,有效地降低了控制器的更新次数和系统的通信负担.通过构造李雅普诺夫函数,证明了在该算法下所有智能体的状态能渐近收敛到全局最优解.此外,所设计的事件触发条件使得最小事件触发间隔时间可设计,有效地排除Zeno行为.最后,通过仿真验证了该算法的有效性. 相似文献