共查询到20条相似文献,搜索用时 69 毫秒
1.
针对目前大多数多智能体强化学习算法在智能体数量增多以及环境动态不稳定的情况下导致的维度爆炸和奖励稀疏的问题,提出了一种基于加权值函数分解的多智能体分层强化学习技能发现算法。首先,该算法将集中训练分散执行的架构与分层强化学习相结合,在上层采用加权值函数分解的方法解决智能体在训练过程中容易忽略最优策略而选择次优策略的问题;其次,在下层采用独立Q学习算法使其能够在多智能体环境中分散式地处理高维复杂的任务;最后,在底层独立Q学习的基础上引入技能发现策略,使智能体之间相互学习互补的技能。分别在简易团队运动和星际争霸Ⅱ两个仿真实验平台上对该算法与多智能体强化学习算法和分层强化学习算法进行对比,实验表明,该算法在奖励回报以及双方对抗胜率等性能指标上都有所提高,提升了整个多智能体系统的决策能力和收敛速度,验证了算法的可行性。 相似文献
2.
多智能体强化学习(Multi-Agent Reinforcement Learning,MARL)在群体控制领域中被广泛应用,但由于单个智能体的马尔可夫决策模型被破坏,现有的MARL算法难以学习到最优策略,且训练中智能体的随机性会导致策略不稳定.本文从状态空间到行为空间的映射出发,研究同构多智能体系统的耦合转换,以提高策略的先进性及稳定性.首先,我们调查了同构智能体行为空间的重组,打破智能体与策略对应的固定思维,通过构建抽象智能体将智能体之间的耦合转换为不同智能体行为空间同一维度的耦合,以提高策略网络的训练效率和稳定.随后,在重组策略映射的基础上,我们从序列决策的角度出发,为抽象智能体的策略网络和评估网络分别设计自注意力模块,编码并稀疏化智能体的状态信息.重组后的状态信息经过自注意力编码后,能显示地解释智能体的决策行为.本文在三个常用的多智能体任务上对所提出方法的有效性进行了全面的验证和分析,实验结果表明,在集中奖励的情况下,本文所提出的方法能够学到比基线方法更为先进的策略,平均回报提高了20%,且训练过程与训练结果的稳定性提高了50%以上.多个对应的消融实验也分别验证了抽象智能体与自... 相似文献
3.
4.
AGV(automated guided vehicle)路径规划问题已成为货物运输、快递分拣等领域中一项关键技术问题。由于在此类场景中需要较多的AGV合作完成,传统的规划模型难以协调多AGV之间的相互作用,采用分而治之的思想或许能获得系统的最优性能。基于此,该文提出一种最大回报频率的多智能体独立强化学习MRF(maximum reward frequency)Q-learning算法,对任务调度和路径规划同时进行优化。在学习阶段AGV不需要知道其他AGV的动作,减轻了联合动作引起的维数灾问题。采用Boltzmann与ε-greedy结合策略,避免收敛到较差路径,另外算法提出采用获得全局最大累积回报的频率作用于Q值更新公式,最大化多AGV的全局累积回报。仿真实验表明,该算法能够收敛到最优解,以最短的时间步长完成路径规划任务。 相似文献
5.
为了在连续和动态的环境中处理智能体不断变化的需求,我们通过利用强化学习来研究多机器人推箱子问题,得到了一种智能体可以不需要其它智能体任何信息的情况下完成协作任务的方法。强化学习可以应用于合作和非合作场合,对于存在噪声干扰和通讯困难的情况,强化学习具有其它人工智能方法不可比拟的优越性。 相似文献
6.
针对实时、多源、海量数据条件下用户所需信息的获取问题,提出一种面向对象的、基于多智能体协同的多源信息搜索模型,以对象为中心,在反馈循环搜索的过程中,完善对象描述模型并实现多源数据中关联对象信息的获取,提高多源信息获取的全面性和准确性。设计基于Q学习的协同控制算法,针对马尔科夫对象与非马尔科夫对象给出相应的决策方法。实验结果表明,该协同控制算法比概率转移矩阵及概率统计算法具有更好的信息获取能力。 相似文献
7.
船舶避碰是智能航行中首要解决的问题,多船会遇局面下,只有相互协作,共同规划避碰策略,才能有效降低碰撞风险.为使船舶智能避碰策略具有协同性、安全性和实用性,提出一种基于多智能体深度强化学习的船舶协同避碰决策方法.首先,研究船舶会遇局面辨识方法,设计满足《国际海上避碰规则》的多船避碰策略.其次,研究多船舶智能体合作方式,构建多船舶智能体协同避碰决策模型:利用注意力推理方法提取有助于避碰决策的关键数据;设计记忆驱动的经验学习方法,有效积累交互经验;引入噪音网络和多头注意力机制,增强船舶智能体决策探索能力.最后,分别在实验地图与真实海图上,对多船会遇场景进行仿真实验.结果表明,在协同性和安全性方面,相较于多个对比方法,所提出的避碰策略均能获得具有竞争力的结果,且满足实用性要求,从而为提高船舶智能航行水平和保障航行安全提供一种新的解决方案. 相似文献
8.
一种基于分布式强化学习的多智能体协调方法 总被引:2,自引:0,他引:2
多智能体系统研究的重点在于使功能独立的智能体通过协商、协调和协作,完成复杂的控制任务或解决复杂的问题。通过对分布式强化学习算法的研究和分析,提出了一种多智能体协调方法,协调级将复杂的系统任务进行分解,协调智能体利用中央强化学习进行子任务的分配,行为级中的任务智能体接受各自的子任务,利用独立强化学习分别选择有效的行为,协作完成系统任务。通过在Robot Soccer仿真比赛中的应用和实验,说明了基于分布式强化学习的多智能体协调方法的效果优于传统的强化学习。 相似文献
9.
多智能体强化学习方法在仿真模拟、游戏对抗、推荐系统等许多方面取得了突出的进展。然而,现实世界的复杂问题使得强化学习方法存在无效探索多、训练速度慢、学习能力难以持续提升等问题。该研究嵌入规则的多智能体强化学习技术,提出基于组合训练的规则与学习结合的方式,分别设计融合规则的多智能体强化学习模型与规则选择模型,通过组合训练将两者有机结合,能够根据当前态势决定使用强化学习决策还是使用规则决策,有效解决在学习中使用哪些规则以及规则使用时机的问题。依托中国电子科技集团发布的多智能体对抗平台,对提出的方法进行实验分析和验证。通过与内置对手对抗,嵌入规则的方法经过约1.4万局训练就收敛到60%的胜率,而没有嵌入规则的算法需要约1.7万局的时候收敛到50%的胜率,结果表明嵌入规则的方法能够有效提升学习的收敛速度和最终效果。 相似文献
10.
本文针对多智能体强化学习中存在的通信和计算资源消耗大等问题,提出了一种基于事件驱动的多智能体强化学习算法,侧重于事件驱动在多智能体学习策略层方面的研究。在智能体与环境的交互过程中,算法基于事件驱动的思想,根据智能体观测信息的变化率设计触发函数,使学习过程中的通信和学习时机无需实时或按周期地进行,故在相同时间内可以降低数据传输和计算次数。另外,分析了该算法的计算资源消耗,以及对算法收敛性进行了论证。最后,仿真实验说明了该算法可以在学习过程中减少一定的通信次数和策略遍历次数,进而缓解了通信和计算资源消耗。 相似文献
11.
基于单客户端的垃圾邮件过滤系统面对技术越来越高明的垃圾邮件发布者已经突现出它的弱点,多Agent技术为垃圾邮件过滤系统的设计提供了新的思路.旨在将Multi-agent技术和多用户协作的思想引入到垃圾邮件过滤系统中,提出了一个分布式的垃圾邮件过滤系统,使各邮件客户端能够互相协作,共享反垃圾邮件信息,从而提高单客户端垃圾邮件过滤的效果和准确率. 相似文献
12.
目前多智能体强化学习算法多采用集中学习,分散行动的框架。该框架存在算法收敛时间过长和可能无法收敛的问题。为了加快多智能体的集体学习时间,提出多智能体分组学习策略。通过使用循环神经网络预测出多智能体的分组矩阵,通过在分组内部共享智能体之间经验的机制,提高了多智能体的团队学习效率;同时,为了弥补分组带来的智能体无法共享信息的问题,提出了信息微量的概念在所有智能体之间传递部分全局信息;为了加强分组内部优秀经验的留存,提出了推迟组内优秀智能体死亡时间的生灭过程。最后,在迷宫实验中,训练时间比MADDPG减少12%;夺旗实验中,训练时间比MADDPG减少17%。 相似文献
13.
通常误用检测所定义的攻击特征仅限于单一信息,如网络信息或主机信息,而由单一信息所产生的警报,由于针对某些攻击无法精确做出判断,所以误报比例相对较高。针对基于误用检测的网络入侵检测系统,建立了一个警报过滤机制。经过分析,可以找出攻击成功时所需具备的环境条件以及所会呈现的各种不同来源性质的攻击特征,入侵检测系统可据此在发现可疑入侵时,加以及时确认核查。通过运用这些异质信息,可明显减少误报的发生,提高了入侵检测报警的正确率。 相似文献
14.
网络入侵检测系统存在着检测网络未知攻击困难、漏报率高、自身性能难以适应大规模网络数据的处理等缺点.在入侵检测过程中引入了一种大规模数据筛选算法,并对其进行改进,有效地进行了数据的约简,约简后的小样本数据应用于基于支持向量机的网络入侵检测系统中,使其能够在较短时间内处理大规模网络数据.实验结果表明,该改进算法能有效地筛选出边界向量,在很少降低检测精度的情况下有效地减少了检测模型的建立时间,从而提高了检测速度. 相似文献
15.
16.
Xiaoyuan Luo Xiaolei Li Shaobao Li Zhongping Jiang Xinping Guan 《International Journal of Control, Automation and Systems》2017,15(1):138-148
This paper investigates the leader-follower flocking problem of multi-agent systems. The leader with input noise is estimated by a proposed continuous-time information weighted Kalman consensus filter (IWKCF) for agents. A novel distributed flocking algorithm based on the IWKCF is further presented to make agents achieve flocking to the leader. It is shown that the proposed flocking algorithm based on the continuous-time IWKCF is asymptotically stable. Applying the topology optimization scheme, the communication complexity of system topologies of multi-agent systems is effectively reduced. Finally, simulations are provided to demonstrate the effectiveness of the proposed results. 相似文献
17.
有效地减少 RFID 系统中冗余阅读器或天线采集到的大量重复数据,可以降低系统能耗和提高处理效率。经研究,提出采用改进的布隆过滤器(Bloom filter)对 RFID 采集数据进行去重过滤,并运用到中间件系统中。改进的 Bloom filter 主要将两个标准的 Bloom filter 组成二维并行 Bloom filter,对 RFID 采集数据所包含的两个属性值 tagID 和 readerID 进行并行过滤。经实验可见,标准 Bloom filter 与哈希过滤(hash filter)相比具有明显的优势,对其改进后,采用二维并行 Bloom filter 在误判率、吞吐率和存储空间上具有更高的系统性能。 相似文献
18.
服务Agent能够利用本身的功能以及来自外部的多个软件服务,向外界提供更为高层的服务.为了向用户提供综合的功能,服务Agent之间必须通过相互协同实现服务组合.提出了一种依靠多Agent学习机制进行服务组合的方法,其独特性在于通过学习,这些Agent能够对类似的输入迅速得到优化解.对基于多Agent协同进行服务组合的框架进行了介绍,在此基础上详细说明了如何利用多Agent学习机制进行服务组合,并对相关的实验进行了介绍. 相似文献
19.
第三方物流为单个企业带来了物流效益,却不能很好地提高供应链上整体的物流增值价值,在此背景下,第四方物流技术应运而生,它集成了第三方物流的优势并补充了其缺陷.建立的第四方物流信息平台集成了多种服务供应商所拥有的资源、能力和技术,运用multi -agent和AUML建模方法对该平台进行分析与简要设计,通过角色建模、静态建模、动态建模来分析平台结构,借助AUML图来完成建模的图形化设计,最终实现整个供应链上最佳物流方案的制定. 相似文献