共查询到20条相似文献,搜索用时 78 毫秒
1.
多智能体系统在自动驾驶、智能物流、医疗协同等多个领域中广泛应用,然而由于技术进步和系统需求的增加,这些系统面临着规模庞大、复杂度高等挑战,常出现训练效率低和适应能力差等问题。为了解决这些问题,将基于梯度的元学习方法扩展到多智能体深度强化学习中,提出一种名为多智能体一阶元近端策略优化(MAMPPO)方法,用于学习多智能体系统的初始模型参数,从而为提高多智能体深度强化学习的性能提供新的视角。该方法充分利用多智能体强化学习过程中的经验数据,通过反复适应找到在梯度下降方向上最敏感的参数并学习初始参数,使模型训练从最佳起点开始,有效提高了联合策略的决策效率,显著加快了策略变化的速度,面对新情况的适应速度显著加快。在星际争霸II上的实验结果表明,MAMPPO方法显著提高了训练速度和适应能力,为后续提高多智能强化学习的训练效率和适应能力提供了一种新的解决方法。 相似文献
3.
4.
在现实世界的复杂多智能体环境中,任务的完成通常需要多个智能体之间的相互协作,这促使各种多智能体强化学习方法不断涌现.动作价值函数估计偏差是单智能体强化学习领域中备受关注的一个重要问题,而在多智能体环境中却鲜有研究.针对这一问题,分别从理论和实验上证明了多智能体深度确定性策略梯度方法存在价值函数被高估.提出基于双评论家的多智能体深度确定性策略梯度(multiagent deep deterministic policy gradient method based on double critics,MADDPG-DC)方法,通过在双评论家网络上的最小值操作来避免价值被高估,进一步促进智能体学得最优的策略.此外,延迟行动者网络更新,保证行动者网络策略更新的效率和稳定性,提高策略学习和更新的质量.在多智能体粒子环境和交通信号控制环境上的实验结果证明了所提方法的可行性和优越性. 相似文献
5.
针对当前多智能体强化学习算法难以适应智能体规模动态变化的问题,文中提出序列多智能体强化学习算法(SMARL).将智能体的控制网络划分为动作网络和目标网络,以深度确定性策略梯度和序列到序列分别作为分割后的基础网络结构,分离算法结构与规模的相关性.同时,对算法输入输出进行特殊处理,分离算法策略与规模的相关性.SMARL中的... 相似文献
6.
7.
8.
针对多智能体系统(multi-agent systems,MAS)中环境具有不稳定性、智能体决策相互影响所导致的策略学习困难的问题,提出了一种名为观测空间关系提取(observation relation extraction,ORE)的方法,该方法使用一个完全图来建模MAS中智能体观测空间不同部分之间的关系,并使用注意力机制来计算智能体观测空间不同部分之间关系的重要程度。通过将该方法应用在基于值分解的多智能体强化学习算法上,提出了基于观测空间关系提取的多智能体强化学习算法。在星际争霸微观场景(StarCraft multi-agent challenge,SMAC)上的实验结果表明,与原始算法相比,带有ORE结构的值分解多智能体算法在收敛速度和最终性能方面都有更好的性能。 相似文献
9.
为实现交通的畅通,将博弈论引入到交通控制系统中。由于当前路口交通状况只受到来自邻居路口的车辆的影响,提出了基于多智能体的分布式协同控制框架,路口智能体与邻居通过协同博弈选出最优策略进行交通控制。描述了基于博弈论的协同控制算法,并通过仿真验证了该算法能够有效的适应交通流,实现交通控制。 相似文献
10.
针对多智能体系统中联合动作空间随智能体数量的增加而产生的指数爆炸的问题,采用"中心训练-分散执行"的框架来避免联合动作空间的维数灾难并降低算法的优化代价.针对在众多的多智能体强化学习场景下,环境仅给出所有智能体的联合行为所对应的全局奖励这一问题,提出一种新的全局信用分配机制——奖励高速路网络(RHWNet).通过在原有... 相似文献
11.
《Artificial Intelligence》2006,170(4-5):337-384
Rarely planning domains are fully observable. For this reason, the ability to deal with partial observability is one of the most important challenges in planning. In this paper, we tackle the problem of strong planning under partial observability in nondeterministic domains: find a conditional plan that will result in a successful state, regardless of multiple initial states, nondeterministic action effects, and partial observability.We make the following contributions. First, we formally define the problem of strong planning within a general framework for modeling partially observable planning domains. Second, we propose an effective planning algorithm, based on and-or search in the space of beliefs. We prove that our algorithm always terminates, and is correct and complete. In order to achieve additional effectiveness, we leverage on a symbolic, bdd-based representation for the domain, and propose several search strategies. We provide a thorough experimental evaluation of our approach, based on a wide selection of benchmarks. We compare the performance of the proposed search strategies, and identify a uniform winner that combines heuristic distance measures with mechanisms that reduce runtime uncertainty. Then, we compare our planner mbp with other state-of-the art-systems. mbp is able to outperform its competitor systems, often by orders of magnitude. 相似文献
12.
为解决虚拟企业创建过程中的伙伴企业选择的评价标准以及评价算法的应用问题,根据虚拟企业的构建过程中伙伴企业选择问题,以遗传算法为算法库模型算法,给出了一种基于可扩展算法库的多Agent社会体系结构,并举例简述了该体系结构的通信机制,最后给出了一种基于遗传算法的虚拟企业伙伴企业选择算法,该算法的作用是对伙伴选择进行优化. 相似文献
13.
14.
《Artificial Intelligence in Engineering》1994,9(1):39-52
Timeliness is usually an indispensable attribute of planning and problem solving for resource allocation in command, control and communication systems. The success of such a system is judged on its ability to respond to scheduled and unscheduled tasks within a permissible time period. The response is based on a plan that covers the following activities: resource allocation, plan execution and monitoring and dynamic plan mending, if necessary. Decision making for resource selection can become very time consuming when there are many resources and the number of constraints is large. In a changing environment of multiple agents, restrictive organizational structures and strict communication protocols may cause intolerable further delays.Traditional approaches to planning in deterministic environments require a predictable amount of time to produce and execute plans. However, given more time, such systems usually cannot improve on the plans. In this paper we describe a multi-agent resource scheduler which uses a prioritized rule base to model decision making under the constraints of time. We also discuss dynamic scoping as a negotiation technique for inter-agent cooperation and constrained lattice-like communications as an optimized message routing strategy. Finally, we present some empirical results from a sequence of experiments. 相似文献
15.
针对多Agent系统任务分解问题,提出了基于与或依赖图的任务分解模型及算法.通过引入与或依赖图概念,以描述任务中各操作之间的依赖关系,然后给出了构造操作集的与或依赖图算法,最后在此基础上设计了任务的分解模型及其算法.算法优点是能区分出各操作之间是否具有并行性且能分解出所有可并行执行的操作集,而且由于按与或依赖图中的各层而不是按各操作进行循环,其循环的次数大大减少.实例应用表明,该算法具有较高的时间与空间效率,并支持任务的动态分解. 相似文献
16.
LIANG Jun XU Zheng-chuan MAO Dong-mei CHENG Xian-yi 《通讯和计算机》2009,6(6):31-35
When we analyses medicine image, many research objects (such as human brain and heart, et al) have no obvious brim, it is nature texture image and hasn't clear boundary between different organizations. An evolutional algorithm of medicine image segmentation based on multi-agent system is proposed in this paper. The agent is designed to be distributed calculation entities of the four entities of the calculation of the distribution in the algorithm, it presence at the two-dimensional grid in the medicine image, using the priori knowledge to guide its evolution. Through the human brain MR image segmentation experiment, compare to maximum likelihood segmentation and Conjugate Gradient Square segmentation, our method is more suitable for clinical. 相似文献
17.
多Agent协作追捕问题是多Agent协调与协作研究中的一个典型问题。针对具有学习能力的单逃跑者追捕问题,提出了一种基于博弈论及Q学习的多Agent协作追捕算法。首先,建立协作追捕团队,并构建协作追捕的博弈模型;其次,通过对逃跑者策略选择的学习,建立逃跑者有限的Step-T累积奖赏的运动轨迹,并把运动轨迹调整到追捕者的策略集中;最后,求解协作追捕博弈得到Nash均衡解,每个Agent执行均衡策略完成追捕任务。同时,针对在求解中可能存在多个均衡解的问题,加入了虚拟行动行为选择算法来选择最优的均衡策略。C#仿真实验表明,所提算法能够有效地解决障碍环境中单个具有学习能力的逃跑者的追捕问题,实验数据对比分析表明该算法在同等条件下的追捕效率要优于纯博弈或纯学习的追捕算法。 相似文献
18.
目的 基于视觉的前车防碰撞预警技术是汽车主动安全领域的一个重要研究方向,其中对前车进行快速准确检测并建立稳定可靠的安全距离模型是该技术亟待解决的两个难点。为此,本文提出车路视觉协同的高速公路防碰撞预警算法。方法 将通过图像处理技术检测出来的视频图像中的车道线和自车的行驶速度作为输入,运用安全区实时计算算法构建安全距离模型,在当前车辆前方形成一块预警安全区域。采用深度神经网络YOLOv3(you only look once v3)对前车进行实时检测,得到车辆的位置信息。根据图像中前车的位置和构建的安全距离模型,对可能发生的追尾碰撞事故进行预测。结果 实验结果表明,重新训练的YOLOv3算法车辆检测准确率为98.04%,提出算法与马自达CX-4的FOW(forward obstruction warning)前方碰撞预警系统相比,能够侧向和前向预警,并提前0.8 s发出警报。结论 本文方法与传统的车载超声波、雷达或激光测距的防碰撞预警方法相比,具有较强的适用性和稳定性,预警准确率高,可以帮助提高司机在高速公路上的行车安全性。 相似文献
19.
20.