首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 62 毫秒
1.
为了解决多智能体协同训练过程中的团队奖励稀疏导致样本效率低下、无法进行有效探索以及对参数敏感的问题,本研究在MAPPO算法的基础上引入了分阶段的思想,提出了基于多阶段强化学习的多智能体协同算法MSMAC。该算法将训练划分为2个阶段:一是构建基于进化策略优化的单智能体策略网络,二是对多智能体策略网络进行协同训练。在多智能体粒子环境下的实验结果表明,基于多阶段的强化学习算法不仅提升了协作性能,而且提高了样本的训练效率和模型的收敛速度。  相似文献   

2.
多智能体协作技术综述   总被引:15,自引:0,他引:15  
本文从协作模型和研究方法两个角度考察了多智能体协作技术的发展,认为是外在的 理性形式化模型和内在的对策和学习机制是多智能体协作技术的两个重要方面.并对这两个 方面的研究和应用前景作了进一步的展望.  相似文献   

3.
多智能体协作的两层强化学习实现方法   总被引:3,自引:0,他引:3  
提出了多智能体协作的两层强化学习方法。该方法主要通过在单个智能体中构筑两层强化学习单元来实现,将该方法应用于3个智能体协作抬起圆形物体的计算机模拟中,结果表明比采用传统强化学习方法的智能体协作得更好。  相似文献   

4.
协作问题一直是多智能体系统研究的关键问题之一,该文给出了用遗传算法来实现多智能体协作的一种方法。该方法利用遗传算法来解决当多智能体系统无法得到环境信息或得到这些信息代价过高时,如何有效地产生它们的协同运动。利用该方法,对三个智能体协作把箱子搬到目标点,然后改变目标点,让智能体继续完成协作任务进行计算机仿真,结果表明遗传算法在动态环境下实现多智能体协作方面的可行性和有效性。  相似文献   

5.
基于行为预测的多智能体协作模型   总被引:4,自引:0,他引:4  
智能体的行为预测是多智能体系统中的一个具有挑战性的问题。机器人足球是一个典型的多智能体系统,论文对多智能体系统中的行为预测进行了研究,概述了RoboCup中几种典型的智能体行为预测方法和协作模型,在此基础上采用基于行为的混合预测方法,建立了一种基于行为预测的多智能体协作模型。该协作模型已应用于CSU_YunLu2003仿真球队中,在RoboCup仿真比赛中证明了该协作模型的有效性。  相似文献   

6.
卢瑾  杨东勇  陈晋音 《计算机应用》2005,25(Z1):308-310
提出了一种以可视化编程技术设计多智能体协作模拟环境的方案,通过模拟搬运物体的过程来演示智能体间的协作过程.提供了参数可调的环境模型,并对协作执行结果进行分析,为多智能体协作的探讨和研究提供了一个平台.  相似文献   

7.
为了在连续和动态的环境中处理智能体不断变化的需求,我们通过利用强化学习来研究多机器人推箱子问题,得到了一种智能体可以不需要其它智能体任何信息的情况下完成协作任务的方法。强化学习可以应用于合作和非合作场合,对于存在噪声干扰和通讯困难的情况,强化学习具有其它人工智能方法不可比拟的优越性。  相似文献   

8.
多智能体系统一直是众多学科领域研究的主要研究对象,基于切换拓扑的多智能体协作控制理论研究作为多智能体系统研究的重要部分,一直是近年来的热点。为了推进基于切换拓扑的多智能体协作控制理论研究,在广泛调研现有文献和最新成果的基础上,从一致性问题、分布式优化问题和分布式估计问题三个方面对该领域的发展现状进行了总结;探讨了诸如一致性协议的设计、一致性协议的性能分析方法及其优缺点、分布式优化的实现方式和分布式估计的实际应用。最后指出当前该领域尚未解决的问题和未来的研究方向。  相似文献   

9.
基于多智能体协同强化学习的多目标追踪方法   总被引:1,自引:0,他引:1  
  相似文献   

10.
足球机器人多智能体协作策略   总被引:12,自引:0,他引:12  
文章提出了足球机器人多智能体系统协作策略,它由三部分组成:角色执行器、角色分配器和避撞任务处理器。机器人角色分为进攻、防守和守门。角色任务处理器决定每一角色运动到何位置。角色分配器在每个采样周期中,根据视觉信息,动态地改变每一机器人的角色。避撞任务处理器预测两个机器人相撞的可能性,并改变机器人目标位置以避免碰撞。角色任务执行器执行由4阶bezier曲线产生运动轨迹。带有PID控制的足球机器人跟踪确定的bezier曲线。该文提出的策略已成功应用到GDUT_TAIYI队。  相似文献   

11.
激励学习的最优判据研究   总被引:8,自引:0,他引:8       下载免费PDF全文
激励学习智能体通过最优策略的学习与规划来求解序贯决策问题,因此如何定义策略的最优判所是激励学习研究的核心问题之一,本文讨论了一系列来自动态规划的最优判据,通过实例检验了各种判据对激励学习的适用性和优缺点,分析了设计各种判据的激励学习算法的必要性。  相似文献   

12.
随着强化学习在自动机器人控制、复杂决策问题上的广泛应用,强化学习逐渐成为机器学习领域中的一大研究热点.传统强化学习算法是一种通过不断与所处环境进行自主交互并从中得到策略的学习方式.然而,大多数多步决策问题难以给出传统强化学习所需要的反馈信号.这逐渐成为强化学习在更多复杂问题中实现应用的瓶颈.逆强化学习是基于专家决策轨迹最优的假设,在马尔可夫决策过程中逆向求解反馈函数的一类算法.目前,通过将逆强化学习和传统正向强化学习相结合设计的一类示教学习算法已经在机器人控制等领域取得了一系列成果.对强化学习、逆强化学习以及示教学习方法做一定介绍,此外还介绍了逆强化学习在应用过程中所需要解决的问题以及基于逆强化学习的示教学习方法.  相似文献   

13.
对智能体Q强化学习方法进行了扩展,讨论效用驱动的Markov强化学习问题。与单吸收状态相比,学习过程不再是状态驱动,而是效用驱动的。智能体的学习将不再与特定的目标状态相联系,而是最大化每步的平均期望收益,即最大化一定步数内的收益总和,因此学习结果是一个平均收益最大的最优循环。证明了多吸收状态下强化学习的收敛性,将栅格图像看作具有多个吸收状态的格子世界,测试了确定性环境下多吸收状态Q学习的有效性。  相似文献   

14.
车辆路径问题是物流运输优化中的核心问题,目的是在满足顾客需求下得到一条最低成本的车辆路径规划。但随着物流运输规模的不断增大,车辆路径问题求解难度增加,并且对实时性要求也不断提高,已有的常规算法不再适应实际要求。近年来,基于强化学习算法开始成为求解车辆路径问题的重要方法,在简要回顾常规方法求解车辆路径问题的基础上,重点总结基于强化学习求解车辆路径问题的算法,并将算法按照基于动态规划、基于价值、基于策略的方式进行了分类;最后对该问题未来的研究进行了展望。  相似文献   

15.
强化学习(reinforcement learning)是机器学习和人工智能领域的重要分支,近年来受到社会各界和企业的广泛关注。强化学习算法要解决的主要问题是,智能体如何直接与环境进行交互来学习策略。但是当状态空间维度增加时,传统的强化学习方法往往面临着维度灾难,难以取得好的学习效果。分层强化学习(hierarchical reinforcement learning)致力于将一个复杂的强化学习问题分解成几个子问题并分别解决,可以取得比直接解决整个问题更好的效果。分层强化学习是解决大规模强化学习问题的潜在途径,然而其受到的关注不高。本文将介绍和回顾分层强化学习的几大类方法。  相似文献   

16.
对强化学习中的探索方案进行了研究,描述了间接探索和直接探索两种方案各自的特点.综合它们的优点,提出了一种集直接探索和间接探索为一体的混合探索方案.该方案在学习的初始阶段,由于对环境的经验知识较少,侧重于直接探索;在获得比较多的经验后,侧重于间接探索,使得行动选择渐渐趋向于最优策略.实验表明该方案比纯粹的间接探索-greedy方案有更高的学习效率.  相似文献   

17.
强化学习(Reinforcement learning, RL)在围棋、视频游戏、导航、推荐系统等领域均取得了巨大成功. 然而, 许多强化学习算法仍然无法直接移植到真实物理环境中. 这是因为在模拟场景下智能体能以不断试错的方式与环境进行交互, 从而学习最优策略. 但考虑到安全因素, 很多现实世界的应用则要求限制智能体的随机探索行为. 因此, 安全问题成为强化学习从模拟到现实的一个重要挑战. 近年来, 许多研究致力于开发安全强化学习(Safe reinforcement learning, SRL)算法, 在确保系统性能的同时满足安全约束. 本文对现有的安全强化学习算法进行全面综述, 将其归为三类: 修改学习过程、修改学习目标、离线强化学习, 并介绍了5大基准测试平台: Safety Gym、safe-control-gym、SafeRL-Kit、D4RL、NeoRL. 最后总结了安全强化学习在自动驾驶、机器人控制、工业过程控制、电力系统优化和医疗健康领域中的应用, 并给出结论与展望.  相似文献   

18.
强化学习通过试错与环境交互获得策略的改进,其自学习和在线学习的特点使其成为机器学习研究的一个重要分支,该文首先介绍了强化学习的基本原理结构和各种算法;然后介绍了近年来强化学习的应用等热点问题。  相似文献   

19.
王云鹏  郭戈 《自动化学报》2019,45(12):2366-2377
现有的有轨电车信号优先控制系统存在诸多问题, 如无法适应实时交通变化、优化求解较为复杂等. 本文提出了一种基于深度强化学习的有轨电车信号优先控制策略. 不依赖于交叉口复杂交通建模, 采用实时交通信息作为输入, 在有轨电车整个通行过程中连续动态调整交通信号. 协同考虑有轨电车与社会车辆的通行需求, 在尽量保证有轨电车无需停车的同时, 降低社会车辆的通行延误. 采用深度Q网络算法进行问题求解, 并利用竞争架构、双Q网络和加权样本池改善学习性能. 基于SUMO的实验表明, 该模型能够有效地协同提高有轨电车与社会车辆的通行效率.  相似文献   

20.
基于强化学习的多任务联盟并行形成策略   总被引:1,自引:0,他引:1       下载免费PDF全文
Agent coalition is an important manner of agents' coordination and cooperation. Forming a coalition, agents can enhance their ability to solve problems and obtain more utilities. In this paper, a novel multi-task coalition parallel formation strategy is presented, and the conclusion that the process of multi-task coalition formation is a Markov decision process is testified theoretically. Moreover, reinforcement learning is used to solve agents' behavior strategy, and the process of multi-task coalition parallel formation is described. In multi-task oriented domains, the strategy can effectively and parallel form multi-task coalitions.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号