首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 31 毫秒
1.
臧嵘  王莉  史腾飞 《计算机应用》2022,42(11):3346-3353
通信是非全知环境中多智能体间实现有效合作的重要途径,当智能体数量较多时,通信过程会产生冗余消息。为有效处理通信消息,提出一种基于注意力消息共享的多智能体强化学习算法AMSAC。首先,在智能体间搭建用于有效沟通的消息共享网络,智能体通过消息读取和写入完成信息共享,解决智能体在非全知、任务复杂场景下缺乏沟通的问题;其次,在消息共享网络中,通过注意力消息共享机制对通信消息进行自适应处理,有侧重地处理来自不同智能体的消息,解决较大规模多智能体系统在通信过程中无法有效识别消息并利用的问题;然后,在集中式Critic网络中,使用Native Critic依据时序差分(TD)优势策略梯度更新Actor网络参数,使智能体的动作价值得到有效评判;最后,在执行期间,智能体分布式Actor网络根据自身观测和消息共享网络的信息进行决策。在星际争霸Ⅱ多智能体挑战赛(SMAC)环境中进行实验,结果表明,与朴素Actor?Critic (Native AC)、博弈抽象通信(GA?Comm)等多智能体强化学习方法相比,AMSAC在四个不同场景下的平均胜率提升了4 ~ 32个百分点。AMSAC的注意力消息共享机制为处理多智能体系统中智能体间的通信消息提供了合理方案,在交通枢纽控制和无人机协同领域都具备广泛的应用前景。  相似文献   

2.
针对多智能体系统(multi-agent systems,MAS)中环境具有不稳定性、智能体决策相互影响所导致的策略学习困难的问题,提出了一种名为观测空间关系提取(observation relation extraction,ORE)的方法,该方法使用一个完全图来建模MAS中智能体观测空间不同部分之间的关系,并使用注意力机制来计算智能体观测空间不同部分之间关系的重要程度。通过将该方法应用在基于值分解的多智能体强化学习算法上,提出了基于观测空间关系提取的多智能体强化学习算法。在星际争霸微观场景(StarCraft multi-agent challenge,SMAC)上的实验结果表明,与原始算法相比,带有ORE结构的值分解多智能体算法在收敛速度和最终性能方面都有更好的性能。  相似文献   

3.
多智能体深度强化学习(MADRL)将深度强化学习的思想和算法应用到多智能体系统的学习和控制中,是开发具有群智能体的多智能体系统的重要方法.现有的MADRL研究主要基于环境完全可观测或通信资源不受限的假设展开算法设计,然而部分可观测性是多智能体系统实际应用中客观存在的问题,例如智能体的观测范围通常是有限的,可观测的范围外不包括完整的环境信息,从而对多智能体间协同造成困难.鉴于此,针对实际场景中的部分可观测问题,基于集中式训练分布式执行的范式,将深度强化学习算法Actor-Critic扩展到多智能体系统,并增加智能体间的通信信道和门控机制,提出recurrent gated multi-agent Actor-Critic算法(RGMAAC).智能体可以基于历史动作观测记忆序列进行高效的通信交流,最终利用局部观测、历史观测记忆序列以及通过通信信道显式地由其他智能体共享的观察进行行为决策;同时,基于多智能体粒子环境设计多智能体同步且快速到达目标点任务,并分别设计2种奖励值函数和任务场景.实验结果表明,当任务场景中明确出现部分可观测问题时,RGMAAC算法训练后的智能体具有很好的表现,在稳定性...  相似文献   

4.
多智能体高效协作是多智能体深度强化学习的重要目标,然而多智能体决策系统中存在的环境非平稳、维数灾难等问题使得这一目标难以实现。现有值分解方法可在环境平稳性和智能体拓展性之间取得较好平衡,但忽视了智能体策略网络的重要性,并且在学习联合动作值函数时未充分利用经验池中保存的完整历史轨迹。提出一种基于多智能体多步竞争网络的多智能体协作方法,在训练过程中使用智能体网络和价值网络对智能体动作评估和环境状态评估进行解耦,同时针对整条历史轨迹完成多步学习以估计时间差分目标,通过优化近似联合动作值函数的混合网络集中且端到端地训练分散的多智能体协作策略。实验结果表明,该方法在6种场景中的平均胜率均优于基于值分解网络、单调值函数分解、值函数变换分解、反事实多智能体策略梯度的多智能体协作方法,并且具有较快的收敛速度和较好的稳定性。  相似文献   

5.
多智能体深度强化学习方法可应用于真实世界中需要多方协作的场景,是强化学习领域内的研究热点。在多目标多智能体合作场景中,各智能体之间具有复杂的合作与竞争并存的混合关系,在这些场景中应用多智能体强化学习方法时,其性能取决于该方法是否能够充分地衡量各智能体之间的关系、区分合作和竞争动作,同时也需要解决高维数据的处理以及算法效率等应用难点。针对多目标多智能体合作场景,在QMIX模型的基础上提出一种基于目标的值分解深度强化学习方法,并使用注意力机制衡量智能体之间的群体影响力,利用智能体的目标信息实现量两阶段的值分解,提升对复杂智能体关系的刻画能力,从而提高强化学习方法在多目标多智能体合作场景中的性能。实验结果表明,相比QMIX模型,该方法在星际争霸2微观操控平台上的得分与其持平,在棋盘游戏中得分平均高出4.9分,在多粒子运动环境merge和cross中得分分别平均高出25分和280.4分,且相较于主流深度强化学习方法也具有更高的得分与更好的性能表现。  相似文献   

6.
基于值分解的多智能体深度强化学习是众多多智能体深度强化学习算法中的一类,也是多智能体深度强化学习领域的一个研究热点。它利用某种约束将多智能体系统的联合动作值函数分解为个体动作值函数的某种特定组合,能够有效解决多智能体系统中的环境非稳定性和动作空间指数爆炸等问题。文中首先说明了进行值函数分解的原因;其次,介绍了多智能体深度强化学习的基本理论;接着根据是否引入其他机制以及引入机制的不同将基于值分解的多智能体深度强化学习算法分为3类:简单因子分解型、基于IGM(个体-全局-最大)原则型以及基于注意力机制型;然后按分类重点介绍了几种典型算法并对算法的优缺点进行对比分析;最后简要阐述了所提算法的应用和发展前景。  相似文献   

7.
协作问题一直是多智能体系统研究的关键问题之一,该文给出了用遗传算法来实现多智能体协作的一种方法。该方法利用遗传算法来解决当多智能体系统无法得到环境信息或得到这些信息代价过高时,如何有效地产生它们的协同运动。利用该方法,对三个智能体协作把箱子搬到目标点,然后改变目标点,让智能体继续完成协作任务进行计算机仿真,结果表明遗传算法在动态环境下实现多智能体协作方面的可行性和有效性。  相似文献   

8.
智能交通系统是集群智能技术的典型应用之一. 为解决现有智能交通通信网络脆弱性检测方法复杂度高、实时性差的问题, 提出引入深度学习技术对网络脆弱性检测方法进行设计. 先利用多智能体网络协同和消息传输机制与智能交通系统车辆间协作通信网络的共通性, 将智能交通系统通信图脆弱性检测问题建模为对多智能体网络r-鲁棒值的求解问题. 再针对随网络节点数目增多r-鲁棒值求解成NP难问题, 设计给出一种融入残差网络的深度学习算法, 将鲁棒值求解问题转化为深度学习图分类问题. 所提算法可有效应对动态多变的智能交通通信网络并对其实现快速精准的脆弱性检测. 最后通过一组典型交通场景的仿真实验验证本文所提方法的有效性.  相似文献   

9.
多智能体系统是规划识别的一个有效应用平台,提出一种基于规划识别多智能体协作算法,对对抗环境和非对抗环境中的基于规划识别的多智能体协作算法进行了分析,实现了对队友和对手行为目的的认识和建模,减少了协作主体间需要通信的时间厦难度。该协作算法应用到多智能体的有效测试平台机器人足球赛中,试验结果证明,该算法在通信受限、信息受限或信息延时的系统中可有效预测队友和对手的行为,从而实现智能体间的协作。  相似文献   

10.
综合集成研讨厅中协同研讨系统是帮助专家交流观点、协同工作、共享资源并最终涌现群体智慧的重要模块。针对传统C/S模式在软件灵活性、可扩展性上的不足,设计综合集成研讨厅中协同研讨系统的多智能体架构,以及智能体的各种行为。提出基于移动智能体的协同研讨场景自适应构建技术,当用户进入协同研讨场景时将研讨所需的各种智能体移动到客户端并进行组装。在此基础上提出基于ACL通信的工具协同化方法,并设计协同研讨场景中的各种本体概念,将本体用于智能体的ACL消息中。使用JADE框架搭建出协同研讨原型系统,并以模拟场景进行了系统验证。实验表明,该架构增强了研讨客户端的灵活性与可扩展性,同时支持专家对工具的协同操作。  相似文献   

11.
现代战争的战场较大且兵种较多,利用多智能体强化学习(MARL)进行战场推演可以加强作战单位之间的协同决策能力,从而提升战斗力。当前MARL在兵棋推演研究和对抗演练中的应用普遍存在两个简化:各个智能体的同质化以及作战单位分布稠密。实际战争场景中并不总是满足这两个设定,可能包含多种异质的智能体以及作战单位分布稀疏。为了探索强化学习在更多场景中的应用,分别就这两方面进行改进研究。首先,设计并实现了多尺度多智能体抢滩登陆环境M2ALE,M2ALE针对上述两个简化设定做了针对性的复杂化,添加了多种异质智能体和作战单位分布稀疏的场景,这两种复杂化设定加剧了多智能体环境的探索困难问题和非平稳性,使用常用的多智能体算法通常难以训练。其次,提出了一种异质多智能体课程学习框架HMACL,用于应对M2ALE环境的难点。HMACL包括3个模块:1)任务生成模块(STG),用于生成源任务以引导智能体训练;2)种类策略提升模块(CPI),针对多智能体系统本身的非平稳性,提出了一种基于智能体种类的参数共享(Class Based Parameter Sharing)策略,实现了异质智能体系统中的参数共享;3)训练模...  相似文献   

12.
现有的多智能体运动规划任务存在缺乏有效合作方法、通信依赖要求高以及缺乏信息筛选机制等问题。针对这些问题,提出了一种基于意图的多智能体深度强化学习运动规划方法,该方法可以帮助智能体在无需显式通信的条件下无碰撞地到达目标点。首先,将意图概念引入多智能体运动规划问题,将智能体的视觉图像和历史地图相结合以预测智能体的意图,使智能体可以对其他智能体的动作做预判,从而有效协作;其次,设计了一个基于注意力机制的卷积神经网络架构,并利用该网络预测智能体的意图、选择智能体的动作,在筛选出有用的视觉输入信息的同时,减少了多智能体合作对通信的依赖;最后提出了一种基于价值的深度强化学习算法来学习运动规划策略,通过改进目标函数和Q值计算方式使策略更加稳定。在PyBullet仿真平台的6种不同的仿真场景中进行了测试,实验结果表明,相较于其他先进的多智能体运动规划方法,所提方法使多智能体团队的合作效率平均提高了10.74%,具有显著的性能优势。  相似文献   

13.
为了解决智能农业车辆对所处复杂农田环境的识别信度定量分析困难的问题,提出了基于多连片贝叶斯网(MSBN)多智能体协同推理的目标识别算法.该方法把多智能体图像采集系统的局部信息表征在MSBN模型中,在观测不完备条件下,虽然单个智能体仅拥有目标的局部观测信息,但利用重叠子域信息的更新可以进行子网间消息的传播.利用MSBN局部推理和子网间信度通信的全局推理对多源信息进行融合,以提高识别性能.实验结果表明,与传统神经网络或BN方法相比,基于MSBN目标识别算法有效地对多源信息进行了补充,可以提高农业车辆在复杂环境进行识别的准确性.  相似文献   

14.
车联网边缘计算是实现车联网系统低时延和高可靠性的关键技术,但现有方法普遍存在场景趋同和系统建模局限的问题,同时包含复杂的训练过程并面临维灾风险.通过结合云计算技术,提出一种基于多智能体强化学习的边云协同卸载方案.依据随机几何理论计算卸载节点覆盖概率,对车辆节点与卸载对象进行预配对.利用线性Q函数分解方法反映每个智能体多...  相似文献   

15.
针对目前大多数多智能体强化学习算法在智能体数量增多以及环境动态不稳定的情况下导致的维度爆炸和奖励稀疏的问题,提出了一种基于加权值函数分解的多智能体分层强化学习技能发现算法。首先,该算法将集中训练分散执行的架构与分层强化学习相结合,在上层采用加权值函数分解的方法解决智能体在训练过程中容易忽略最优策略而选择次优策略的问题;其次,在下层采用独立Q学习算法使其能够在多智能体环境中分散式地处理高维复杂的任务;最后,在底层独立Q学习的基础上引入技能发现策略,使智能体之间相互学习互补的技能。分别在简易团队运动和星际争霸Ⅱ两个仿真实验平台上对该算法与多智能体强化学习算法和分层强化学习算法进行对比,实验表明,该算法在奖励回报以及双方对抗胜率等性能指标上都有所提高,提升了整个多智能体系统的决策能力和收敛速度,验证了算法的可行性。  相似文献   

16.
随着无人机网络向着集群化方向发展,无人机簇群通信面临恶意干扰电磁环境下频谱和能量资源不足以及环境部分可观测等问题.针对联合频谱域和功率域的无人机簇群抗干扰问题,以最小化长期传输能量损耗和跳频开销为优化目标,通过建立分布式部分可观测马尔可夫决策过程模型,构建基于多智能体协同的无人机簇群节能抗干扰通信框架.具体地,各簇头无人机作为智能体,利用长短时记忆神经网络的信息长期记忆优势,结合双深度Q学习方法,采用多智能体框架完成分布式训练,最终实现仅需各簇群本地观测信息即可完成协同多域节能抗干扰通信分布式决策.仿真结果表明,本文所提算法可适应部分可观测且未知动态变化的无人机簇群传输环境和干扰环境,相较于基准算法能更有效地降低长期传输能量损耗和跳频开销,且同时提升数据传输成功率.  相似文献   

17.
为解决在图像特征识别分类等机器学习任务中,存在输入图像数据复杂度过高且与部分数据与特征无关的问题,提出了一种多智能体深度强化学习的图像特征分类方法。将图像特征分类任务转化为一个部分可观测的马尔可夫决策过程。通过使用多个移动的同构智能体去收集部分图像信息,并研究智能体如何形成对图像的局部理解并采取行动,以及如何从局部观察的图像中提取相关特征并分类,以此降低数据复杂性和过滤掉不相关数据。通过改进的值函数分解方法训练智能体策略网络,对环境的全局回报按照每个智能体的贡献进行拆分,解决智能体的信度分配问题。该方法在MNIST手写数字数据集和NWPU-RESISC45遥感图像数据集上进行了验证,相比基线算法能够学习到更加有效的联合策略,分类过程拥有更好的稳定性,同时精确率也有提升。  相似文献   

18.
在深入研究PROFIBUS总线技术的基础上设计并实现了热电厂生产控制系统。主要介绍了基于PROFIBUS的热电厂智能体的划分,多智能体控制系统的结构及其实现。采用多智能体的方法,将以前的控制模块和监测模块封装成单个的智能体,组成多智能体系统,解决控制、监测和维护相互隔离的问题,从而达到信息交换容易、控制处理效率高的目的。  相似文献   

19.
超级电容作为储能式轻轨的动力源,其性能非常重要,为此提出一种分布式协同控制策略来实现串联超级电容的电压均衡.在信息层将串联超级电容单体视为智能体,均压问题可建模成多智能体系统协同跟踪问题;将串联超级电容单体之间分散的通信网络利用有向图来描述;借助有界的S型饱和函数,基于最近邻原则,设计了有界的控制增益可调节的协同均压控制律;在假定有向图含有生成树的前提下,利用李亚谱诺夫函数,结合拉塞尔不变集原则,证明了整个闭环系统的渐近稳定性;利用仿真验证了所提出的协同控制策略的有效性和可行性.  相似文献   

20.
因网约车订单派送不合理,导致资源利用率和出行效率降低。基于联合Q值函数分解的框架,提出两种订单派送方法ODDRL和LF-ODDRL,高效地将用户订单请求派送给合适的网约车司机,尽可能缩短乘客等待时间。为捕获网约车订单派送场景中随机需求与供应动态变化关系,把城市定义为一张四边形网格的地图,将每辆车视为一个独立的智能体,构建多智能体马尔可夫决策过程模型,通过最大化熵与累计奖励训练智能体。将多智能体的联合Q值函数转化为易分解函数,使联合Q值函数与单个智能体值函数中的动作具有一致性,同时设计动作搜索函数,结合集中训练、分散执行策略的优点,让每辆车以分布式的方式解决订单匹配问题,而不需要与其他车辆进行协调,从而降低复杂性。实验结果表明,相比Random、Greedy、QMIX等方法,所提ODDRL和LF-ODDRL具有较优的扩展性,其中,在500×500网格上,当乘客数为10、车辆数为2时,相对于QMIX方法接送乘客所产生的总时间分别缩短5%和12%。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号