首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 62 毫秒
1.
AGV(automated guided vehicle)路径规划问题已成为货物运输、快递分拣等领域中一项关键技术问题。由于在此类场景中需要较多的AGV合作完成,传统的规划模型难以协调多AGV之间的相互作用,采用分而治之的思想或许能获得系统的最优性能。基于此,该文提出一种最大回报频率的多智能体独立强化学习MRF(maximum reward frequency)Q-learning算法,对任务调度和路径规划同时进行优化。在学习阶段AGV不需要知道其他AGV的动作,减轻了联合动作引起的维数灾问题。采用Boltzmann与ε-greedy结合策略,避免收敛到较差路径,另外算法提出采用获得全局最大累积回报的频率作用于Q值更新公式,最大化多AGV的全局累积回报。仿真实验表明,该算法能够收敛到最优解,以最短的时间步长完成路径规划任务。  相似文献   

2.
针对多智能体系统的一致性协作,研究了以提高群体一致性收敛速度为目标的多层递阶拓扑结构设计问题.首先讨论了满足物理拓扑约束并具有更优性能的递阶拓扑结构存在的可能性.在此基础上,根据一致性问题的收敛时间性能指标,将递阶结构设计转化为一个与多层递阶系统中所有子图拉普拉斯矩阵特征值相关的优化问题.通过将连通图转换为若干点导出子图和它们之间的关联图,提出一个该优化问题的双层拓扑结构设计算法,并基于该算法发展了满足物理拓扑结构约束的多层递阶结构设计算法.仿真算例表明由此设计的递阶协作过程可有效加快多智能体群体一致性的收敛速度.  相似文献   

3.
在多智能体系统的收敛速度一致性问题的研究中,传统的一致性算法一般都是在单层拓扑结构上讨论的.在设计边权数或者调整连接边实现提高系统的一致性收敛速度的过程中,针对类似的方法在很多情况下是受限制的.为了解决上述问题,提出一种社区分解的递阶一致性算法,采用社区分解方法对多智能体拓扑结构优化分解,进而将多智能体系统单层一致性问题转化为多层一致性问题,在维持原有拓扑结构约束的情况下提高系统的一致性收敛速度.针对一阶线性系统,通过与标准一致性算法的仿真比较,验证了改进算法的有效性.  相似文献   

4.
为了在连续和动态的环境中处理智能体不断变化的需求,我们通过利用强化学习来研究多机器人推箱子问题,得到了一种智能体可以不需要其它智能体任何信息的情况下完成协作任务的方法。强化学习可以应用于合作和非合作场合,对于存在噪声干扰和通讯困难的情况,强化学习具有其它人工智能方法不可比拟的优越性。  相似文献   

5.
多智能体强化学习综述   总被引:1,自引:0,他引:1  
  相似文献   

6.
多智能体车间调度系统研究   总被引:1,自引:0,他引:1  
现在制造业所面临的动态需求使得其必须具有更加灵活的应变机制,这使得车间调度问题变得越来越复杂。本文采取多智能体系统技术(MAS)设计了一个包含四个智能体(agent)的多智能体车间调度系统,分别为车间调度智能体、任务分配智能体、车间资源智能体以及拍卖智能体。通过这四个智能体的通信、交互和合作,系统可以给出一个满足当前制造需求的调度最优结果。  相似文献   

7.
提出一种基于智能体建模的多AGV分布式控制系统,详细讨论了单AGV智能体建模,协作情况下分布式多AGV体系结构以及系统中AGV内部各个模块的设计与实现.对提出的系统进行了现场实验,实验结果表明,本文设计的系统能够稳定运行并有效地完成任务.  相似文献   

8.
多智能体系统中的分布式强化学习研究现状   总被引:4,自引:0,他引:4  
对目前世界上分布式强化学习方法的研究成果加以总结, 分析比较了独立强化学习、社会强化学习和群体强化学习三类分布式强化学习方法的特点、差别和适用范围, 并对分布式强化学习仍需解决的问题和未来的发展方向进行了探讨.  相似文献   

9.
可重入生产系统的递阶增强型学习调度   总被引:2,自引:0,他引:2  
对平均报酬型马氏决策过程,本文研究了一种递阶增强型学习算法;并将算法应用 于一个两台机器组成的闭环可重入生产系统,计算机仿真结果表明,调度结果优于熟知的两 种启发式调度策略.  相似文献   

10.
作为机器学习和人工智能领域的一个重要分支,多智能体分层强化学习以一种通用的形式将多智能体的协作能力与强化学习的决策能力相结合,并通过将复杂的强化学习问题分解成若干个子问题并分别解决,可以有效解决空间维数灾难问题。这也使得多智能体分层强化学习成为解决大规模复杂背景下智能决策问题的一种潜在途径。首先对多智能体分层强化学习中涉及的主要技术进行阐述,包括强化学习、半马尔可夫决策过程和多智能体强化学习;然后基于分层的角度,对基于选项、基于分层抽象机、基于值函数分解和基于端到端等4种多智能体分层强化学习方法的算法原理和研究现状进行了综述;最后介绍了多智能体分层强化学习在机器人控制、博弈决策以及任务规划等领域的应用现状。  相似文献   

11.
高度信息化的网格化城市管理可以为出租车运营优化提供新的实时动态乘客需求信息和车辆位置信息。以此为契机,针对城市出租车空驶率高和司乘匹配率低的问题,提出了一种网格化的出租车实时动态调度的增强学习控制方法。通过为出租车提供空驶巡游的动态最佳路线,新的控制方法旨在提高出租车的服务效率,并降低乘客的等待时间。首先,以城市单元网格为基础,明确出租车调度的关键问题;其次,以空驶路线的动态调整为控制手段,建立调度的增强学习模型;最后,给出求解模型的Q学习算法,并通过算例验证新调度方法的有效性。研究表明新方法可以有效提高司乘匹配率、增加总的出租车运营收入、减少乘客平均等车时间和减少总的出租车空驶时间。  相似文献   

12.
针对知识推理过程中,随着推理路径长度的增加,节点的动作空间急剧增长,使得推理难度不断提升的问题,提出一种分层强化学习的知识推理方法(knowledge reasoning method of hierarchical reinforcement learning, MutiAg-HRL),降低推理过程中的动作空间大小。MutiAg-HRL调用高级智能体对知识图谱中的关系进行粗略推理,通过计算下一步关系及给定查询关系之间的相似度,确定目标实体大致位置,依据高级智能体给出的关系,指导低级智能体进行细致推理,选择下一步动作;模型还构造交互奖励机制,对两个智能体的关系和动作选择及时给予奖励,防止模型出现奖励稀疏问题。为验证该方法的有效性,在FB15K-237和NELL-995数据集上进行实验,将实验结果与TransE、MINERVA、HRL等11种主流方法进行对比分析,MutiAg-HRL方法在链接预测任务上的hits@k平均提升了1.85%,MRR平均提升了2%。  相似文献   

13.
强化学习(reinforcement learning)是机器学习和人工智能领域的重要分支,近年来受到社会各界和企业的广泛关注。强化学习算法要解决的主要问题是,智能体如何直接与环境进行交互来学习策略。但是当状态空间维度增加时,传统的强化学习方法往往面临着维度灾难,难以取得好的学习效果。分层强化学习(hierarchical reinforcement learning)致力于将一个复杂的强化学习问题分解成几个子问题并分别解决,可以取得比直接解决整个问题更好的效果。分层强化学习是解决大规模强化学习问题的潜在途径,然而其受到的关注不高。本文将介绍和回顾分层强化学习的几大类方法。  相似文献   

14.
分层强化学习研究进展   总被引:1,自引:0,他引:1  
首先介绍了半马尔可夫决策过程、分层与抽象等分层强化学习的理论基础;其次,较全面地比较HAM、options、MAXQ和HEXQ四种典型的学习方法,从典型学习方法的拓展、学习分层、部分感知马尔可夫决策过程、并发和多agent合作等方面讨论分层强化学习的研究现状;最后指出分层强化学习未来的发展方向。  相似文献   

15.
调头任务是自动驾驶研究的内容之一,大多数在城市规范道路下的方案无法在非规范道路上实施。针对这一问题,建立了一种车辆掉头动力学模型,并设计了一种多尺度卷积神经网络提取特征图作为智能体的输入。另外还针对调头任务中的稀疏奖励问题,结合分层强化学习和近端策略优化算法提出了分层近端策略优化算法。在简单和复杂场景的实验中,该算法相比于其他算法能够更快地学习到策略,并且具有更高的掉头成功率。  相似文献   

16.
为加快分层强化学习中任务层次结构的自动生成速度,提出了一种基于多智能体系统的并行自动分层方法,该方法以Sutton提出的Option分层强化学习方法为理论框架,首先由多智能体合作对状态空间进行并行探测并集中聚类产生状态子空间,然后多智能体并行学习生成各子空间上内部策略,最终生成Option.以二维有障碍栅格空间内两点间最短路径规划为任务背景给出了算法并进行了仿真实验和分析,结果表明,并行自动分层方法生成任务层次结构的速度明显快于以往的串行自动分层方法.本文的方法适用于空间探测、路径规划、追逃等类问题领域.  相似文献   

17.
针对现有的AGV在大规模未知复杂环境中进行自主导航配送的问题,基于深度强化学习完成了AGV智能导航系统设计。首先,结合传感器对周围的障碍物进行探测感知,利用DDPG(deep deterministic policy gradient)算法实现AGV小车从环境的感知输入到动作的直接输出控制,帮助AGV完成自主导航和避障任务。此外,针对训练样本易受环境干扰的问题,提出了一种新颖的DL(disturb learning)- DDPG算法,通过对学习样本中相关数据进行高斯噪声预处理,帮助智能体适应噪声状态下的训练环境,提升了AGV在真实环境中的鲁棒性。仿真实验表明,经改进后的DL-DDPG 算法能够为AGV导航系统提供更高效的在线决策能力,使AGV小车完成自主导航与智能控制。  相似文献   

18.
合理有效地对移动海洋环境观测平台进行规划,有利于海洋环境观测网络的设计和海洋环境信息的采集.针对庞大的海洋环境,在有限的观测资源下,使用深度强化学习算法对海洋环境观测网络进行规划.针对强化学习算法求解路径规划问题中的离散和连续动作设计问题,分别使用DQN和DDPG两种算法对该问题进行单平台和多平台实验,实验结果表明,使...  相似文献   

19.
一种改进的自动分层算法BMAXQ   总被引:1,自引:0,他引:1       下载免费PDF全文
针对MAXQ算法存在的弊端,提出一种改进的分层学习算法BMAXQ。该方法修改了MAXQ的抽象机制,利用BP神经网络的特点,使得Agent能够自动发现子任务,实现各分层的并行学习,适应动态环境下的学习任务。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号