首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 78 毫秒
1.
多智能体系统在自动驾驶、智能物流、医疗协同等多个领域中广泛应用,然而由于技术进步和系统需求的增加,这些系统面临着规模庞大、复杂度高等挑战,常出现训练效率低和适应能力差等问题。为了解决这些问题,将基于梯度的元学习方法扩展到多智能体深度强化学习中,提出一种名为多智能体一阶元近端策略优化(MAMPPO)方法,用于学习多智能体系统的初始模型参数,从而为提高多智能体深度强化学习的性能提供新的视角。该方法充分利用多智能体强化学习过程中的经验数据,通过反复适应找到在梯度下降方向上最敏感的参数并学习初始参数,使模型训练从最佳起点开始,有效提高了联合策略的决策效率,显著加快了策略变化的速度,面对新情况的适应速度显著加快。在星际争霸II上的实验结果表明,MAMPPO方法显著提高了训练速度和适应能力,为后续提高多智能强化学习的训练效率和适应能力提供了一种新的解决方法。  相似文献   

2.
基于多智能体协同强化学习的多目标追踪方法   总被引:1,自引:0,他引:1  
  相似文献   

3.
合理有效地对移动海洋环境观测平台进行规划,有利于海洋环境观测网络的设计和海洋环境信息的采集.针对庞大的海洋环境,在有限的观测资源下,使用深度强化学习算法对海洋环境观测网络进行规划.针对强化学习算法求解路径规划问题中的离散和连续动作设计问题,分别使用DQN和DDPG两种算法对该问题进行单平台和多平台实验,实验结果表明,使...  相似文献   

4.
在现实世界的复杂多智能体环境中,任务的完成通常需要多个智能体之间的相互协作,这促使各种多智能体强化学习方法不断涌现.动作价值函数估计偏差是单智能体强化学习领域中备受关注的一个重要问题,而在多智能体环境中却鲜有研究.针对这一问题,分别从理论和实验上证明了多智能体深度确定性策略梯度方法存在价值函数被高估.提出基于双评论家的多智能体深度确定性策略梯度(multiagent deep deterministic policy gradient method based on double critics,MADDPG-DC)方法,通过在双评论家网络上的最小值操作来避免价值被高估,进一步促进智能体学得最优的策略.此外,延迟行动者网络更新,保证行动者网络策略更新的效率和稳定性,提高策略学习和更新的质量.在多智能体粒子环境和交通信号控制环境上的实验结果证明了所提方法的可行性和优越性.  相似文献   

5.
针对当前多智能体强化学习算法难以适应智能体规模动态变化的问题,文中提出序列多智能体强化学习算法(SMARL).将智能体的控制网络划分为动作网络和目标网络,以深度确定性策略梯度和序列到序列分别作为分割后的基础网络结构,分离算法结构与规模的相关性.同时,对算法输入输出进行特殊处理,分离算法策略与规模的相关性.SMARL中的...  相似文献   

6.
为了解决多智能体协同训练过程中的团队奖励稀疏导致样本效率低下、无法进行有效探索以及对参数敏感的问题,本研究在MAPPO算法的基础上引入了分阶段的思想,提出了基于多阶段强化学习的多智能体协同算法MSMAC。该算法将训练划分为2个阶段:一是构建基于进化策略优化的单智能体策略网络,二是对多智能体策略网络进行协同训练。在多智能体粒子环境下的实验结果表明,基于多阶段的强化学习算法不仅提升了协作性能,而且提高了样本的训练效率和模型的收敛速度。  相似文献   

7.
基于独立学习的多智能体协作决策   总被引:4,自引:1,他引:4       下载免费PDF全文
联合学习模式是实现多智能体协作决策的有效方法 ,但是当智能体信息不完备时 ,这一方法难以适用。为此 ,在智能体独立学习的基础上提出一种多智能体协作决策方法。以网格对策为例 ,仿真证明了这一方法的有效性  相似文献   

8.
针对多智能体系统(multi-agent systems,MAS)中环境具有不稳定性、智能体决策相互影响所导致的策略学习困难的问题,提出了一种名为观测空间关系提取(observation relation extraction,ORE)的方法,该方法使用一个完全图来建模MAS中智能体观测空间不同部分之间的关系,并使用注意力机制来计算智能体观测空间不同部分之间关系的重要程度。通过将该方法应用在基于值分解的多智能体强化学习算法上,提出了基于观测空间关系提取的多智能体强化学习算法。在星际争霸微观场景(StarCraft multi-agent challenge,SMAC)上的实验结果表明,与原始算法相比,带有ORE结构的值分解多智能体算法在收敛速度和最终性能方面都有更好的性能。  相似文献   

9.
为实现交通的畅通,将博弈论引入到交通控制系统中。由于当前路口交通状况只受到来自邻居路口的车辆的影响,提出了基于多智能体的分布式协同控制框架,路口智能体与邻居通过协同博弈选出最优策略进行交通控制。描述了基于博弈论的协同控制算法,并通过仿真验证了该算法能够有效的适应交通流,实现交通控制。  相似文献   

10.
针对多智能体系统中联合动作空间随智能体数量的增加而产生的指数爆炸的问题,采用"中心训练-分散执行"的框架来避免联合动作空间的维数灾难并降低算法的优化代价.针对在众多的多智能体强化学习场景下,环境仅给出所有智能体的联合行为所对应的全局奖励这一问题,提出一种新的全局信用分配机制——奖励高速路网络(RHWNet).通过在原有...  相似文献   

11.
《Artificial Intelligence》2006,170(4-5):337-384
Rarely planning domains are fully observable. For this reason, the ability to deal with partial observability is one of the most important challenges in planning. In this paper, we tackle the problem of strong planning under partial observability in nondeterministic domains: find a conditional plan that will result in a successful state, regardless of multiple initial states, nondeterministic action effects, and partial observability.We make the following contributions. First, we formally define the problem of strong planning within a general framework for modeling partially observable planning domains. Second, we propose an effective planning algorithm, based on and-or search in the space of beliefs. We prove that our algorithm always terminates, and is correct and complete. In order to achieve additional effectiveness, we leverage on a symbolic, bdd-based representation for the domain, and propose several search strategies. We provide a thorough experimental evaluation of our approach, based on a wide selection of benchmarks. We compare the performance of the proposed search strategies, and identify a uniform winner that combines heuristic distance measures with mechanisms that reduce runtime uncertainty. Then, we compare our planner mbp with other state-of-the art-systems. mbp is able to outperform its competitor systems, often by orders of magnitude.  相似文献   

12.
为解决虚拟企业创建过程中的伙伴企业选择的评价标准以及评价算法的应用问题,根据虚拟企业的构建过程中伙伴企业选择问题,以遗传算法为算法库模型算法,给出了一种基于可扩展算法库的多Agent社会体系结构,并举例简述了该体系结构的通信机制,最后给出了一种基于遗传算法的虚拟企业伙伴企业选择算法,该算法的作用是对伙伴选择进行优化.  相似文献   

13.
何明  许元云  刘锦涛  周波  丁晓晖 《控制与决策》2020,35(10):2556-2560
针对多智能体网络在牵制控制过程中存在的网络分裂现象,考虑到牵制节点选择对多智能体收敛速度的影响,提出一种基于k-shell分解的牵制控制算法.首先根据节点连通度划分子网;然后提出基于k-shell分解的牵制节点选择方法;最后完成多智能体的牵制控制.理论推导证明,采用该算法后整个智能体网络最终将形成一个子网.分析对比3种牵制控制算法,通过实验仿真结果验证所提出算法能够实现多智能体的一致性,有利于提高多智能体的收敛速度.  相似文献   

14.
Timeliness is usually an indispensable attribute of planning and problem solving for resource allocation in command, control and communication systems. The success of such a system is judged on its ability to respond to scheduled and unscheduled tasks within a permissible time period. The response is based on a plan that covers the following activities: resource allocation, plan execution and monitoring and dynamic plan mending, if necessary. Decision making for resource selection can become very time consuming when there are many resources and the number of constraints is large. In a changing environment of multiple agents, restrictive organizational structures and strict communication protocols may cause intolerable further delays.Traditional approaches to planning in deterministic environments require a predictable amount of time to produce and execute plans. However, given more time, such systems usually cannot improve on the plans. In this paper we describe a multi-agent resource scheduler which uses a prioritized rule base to model decision making under the constraints of time. We also discuss dynamic scoping as a negotiation technique for inter-agent cooperation and constrained lattice-like communications as an optimized message routing strategy. Finally, we present some empirical results from a sequence of experiments.  相似文献   

15.
针对多Agent系统任务分解问题,提出了基于与或依赖图的任务分解模型及算法.通过引入与或依赖图概念,以描述任务中各操作之间的依赖关系,然后给出了构造操作集的与或依赖图算法,最后在此基础上设计了任务的分解模型及其算法.算法优点是能区分出各操作之间是否具有并行性且能分解出所有可并行执行的操作集,而且由于按与或依赖图中的各层而不是按各操作进行循环,其循环的次数大大减少.实例应用表明,该算法具有较高的时间与空间效率,并支持任务的动态分解.  相似文献   

16.
When we analyses medicine image, many research objects (such as human brain and heart, et al) have no obvious brim, it is nature texture image and hasn't clear boundary between different organizations. An evolutional algorithm of medicine image segmentation based on multi-agent system is proposed in this paper. The agent is designed to be distributed calculation entities of the four entities of the calculation of the distribution in the algorithm, it presence at the two-dimensional grid in the medicine image, using the priori knowledge to guide its evolution. Through the human brain MR image segmentation experiment, compare to maximum likelihood segmentation and Conjugate Gradient Square segmentation, our method is more suitable for clinical.  相似文献   

17.
多Agent协作追捕问题是多Agent协调与协作研究中的一个典型问题。针对具有学习能力的单逃跑者追捕问题,提出了一种基于博弈论及Q学习的多Agent协作追捕算法。首先,建立协作追捕团队,并构建协作追捕的博弈模型;其次,通过对逃跑者策略选择的学习,建立逃跑者有限的Step-T累积奖赏的运动轨迹,并把运动轨迹调整到追捕者的策略集中;最后,求解协作追捕博弈得到Nash均衡解,每个Agent执行均衡策略完成追捕任务。同时,针对在求解中可能存在多个均衡解的问题,加入了虚拟行动行为选择算法来选择最优的均衡策略。C#仿真实验表明,所提算法能够有效地解决障碍环境中单个具有学习能力的逃跑者的追捕问题,实验数据对比分析表明该算法在同等条件下的追捕效率要优于纯博弈或纯学习的追捕算法。  相似文献   

18.
目的 基于视觉的前车防碰撞预警技术是汽车主动安全领域的一个重要研究方向,其中对前车进行快速准确检测并建立稳定可靠的安全距离模型是该技术亟待解决的两个难点。为此,本文提出车路视觉协同的高速公路防碰撞预警算法。方法 将通过图像处理技术检测出来的视频图像中的车道线和自车的行驶速度作为输入,运用安全区实时计算算法构建安全距离模型,在当前车辆前方形成一块预警安全区域。采用深度神经网络YOLOv3(you only look once v3)对前车进行实时检测,得到车辆的位置信息。根据图像中前车的位置和构建的安全距离模型,对可能发生的追尾碰撞事故进行预测。结果 实验结果表明,重新训练的YOLOv3算法车辆检测准确率为98.04%,提出算法与马自达CX-4的FOW(forward obstruction warning)前方碰撞预警系统相比,能够侧向和前向预警,并提前0.8 s发出警报。结论 本文方法与传统的车载超声波、雷达或激光测距的防碰撞预警方法相比,具有较强的适用性和稳定性,预警准确率高,可以帮助提高司机在高速公路上的行车安全性。  相似文献   

19.
针对 ZigBee网络节点协作过程中,由于工作任务不均衡导致能耗不均问题,从带有竞价的博弈角度提出了基于协作博弈的ZigBee网络能量优化路由算法。首先建立了ZigBee路由博弈的系统模型以及能耗模型;其次,针对ZigBee网络节点建立了基于斯坦克贝格博弈的ZigBee协作博弈模型,分析了协作博弈的近似纳什均衡解,给出了优化的路由算法流程描述;最后的OPNET仿真实验表明,改进的路由算法能够在节点失效数目、能量消耗以及生存时间上得到了一定的改善。  相似文献   

20.
针对反导传感器网络中弹道目标的协同跟踪问题,提出了一种基于信息增量的弹道目标协同跟踪方法。分析了多传感器对弹道目标的协同跟踪问题,并建立了自由段弹道目标分段匀加速模型。在此基础上,对自由段弹道目标跟踪过程中,利用跟踪滤波的协方差阵信息获得每个传感器对目标的信息增量,并以信息增量最大为准则选择传感器对弹道目标进行跟踪,从而实现对弹道目标的有效跟踪。仿真结果表明:所提的方法能够及时动态地选择性能最佳的传感器对弹道目标进行跟踪,提高弹道目标整体的跟踪性能,实现对弹道目标的协同跟踪。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号