首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 46 毫秒
1.
针对多机器人协作复杂搜集任务中学习空间大,学习速度慢的问题,提出了带共享区的双层强化学习算法。该强化学习算法不仅能够实现低层状态-动作对的学习,而且能够实现高层条件-行为对的学习。高层条件-行为对的学习避免了学习空间的组合爆炸,共享区的应用强化了机器人间协作学习的能力。仿真实验结果说明所提方法加快了学习速度,满足了未知环境下多机器人复杂搜集任务的要求。  相似文献   

2.
在多机器人系统中,协作环境探索的强化学习的空间规模是机器人个数的指数函数,学习空间非常庞大造成收敛速度极慢。为了解决这个问题,将基于动作预测的强化学习方法及动作选择策略应用于多机器人协作研究中,通过预测机器人可能执行动作的概率以加快学习算法的收敛速度。实验结果表明,基于动作预测的强化学习方法能够比原始算法更快速地获取多机器人的协作策略。  相似文献   

3.
强化学习是提高机器人完成任务效率的有效方法,目前比较流行的学习方法一般采用累积折扣回报方法,但平均值回报在某些方面更适于多机器人协作。累积折扣回报方法在机器人动作层次上可以提高性能,但在多机器人任务层次上却不会得到很好的协作效果,而采用平均回报值的方法,就可以改变这种状态。本文把基于平均值回报的蒙特卡罗学习应用于多机器人合作中,得到很好的学习效果,实际机器人实验结果表明,采用平均值回报的方法优于累积折扣回报方法。  相似文献   

4.
宋志伟  陈小平 《机器人》2003,25(Z1):761-766
本文总结当前仿真机器人足球中强化学习的研究进展,系统阐述在仿真机器人足球不同决策层次中使用强化学习的不同方法,针对仿真机器人足球的特点讨论当前使用的几种对环境状态空间进行泛化的方法,并展望今后强化学习在仿真机器人足球中的主要应用方向.  相似文献   

5.
为了在连续和动态的环境中处理智能体不断变化的需求,我们通过利用强化学习来研究多机器人推箱子问题,得到了一种智能体可以不需要其它智能体任何信息的情况下完成协作任务的方法。强化学习可以应用于合作和非合作场合,对于存在噪声干扰和通讯困难的情况,强化学习具有其它人工智能方法不可比拟的优越性。  相似文献   

6.
多机器人协作导航目前广泛应用于搜索救援、物流等领域, 协作策略与目标导航是多机器人协作导航面临的主要挑战. 为提高多个移动机器人在未知环境下的协作导航能力, 本文提出了一种新的分层控制协作导航(hierarchical control cooperative navigation, HCCN) 策略, 利用高层目标决策层和低层目标导航层, 为每个机器人分配一个目标点, 并通过全局路径规划和局部路径规划算法, 引导智能体无碰撞地到达分配的目标点. 通过Gazebo平台进行实验验证, 结果表明, 文中所提方法能够有效解决协作导航过程中的稀疏奖励问题, 训练速度至少可提高16.6%, 在不同环境场景下具有更好的鲁棒性, 以期为进一步研究多机器人协作导航提供理论指导, 应用至更多的真实场景中.  相似文献   

7.
研究了多Agent环境下的协作与学习.对多Agent系统中的协作问题提出了协作模型MACM,该模型通过提供灵活协调机制支持多Agent之间的协作及协作过程中的学习.系统中的学习Agent采用分布式强化学习算法.该算法通过映射减少Q值表的存储空间,降低对系统资源的要求,同时能够保证收敛到最优解.  相似文献   

8.
基于强化学习的多机器人编队方法研究   总被引:1,自引:0,他引:1  
介绍了国内外关于强化学习的研究现状,对应用Q-学习和神经网络来实现多机器人的自适应编队方法给出了详细的系统描述。  相似文献   

9.
基于多足球机器人协作的组合射门算法   总被引:1,自引:0,他引:1  
贾骥  白静  白振兴 《计算机应用与软件》2006,23(11):103-104,113
为了提高机器人足球比赛中足球机器人的射门成功率,在分析了基本射门算法不足的基础上,用“盲区”法求出高效射门区,在求出的两个高效区中综合考虑射门角与射门区关系等因素,引入了最佳射门区的概念,并通过选择最优的机器人射门运动路径,结合大力射门算法和基本射门算法,提出了基于多足球机器人协作的组合射门算法。结果表明,用该算法改进射门策略后,射门成功率明显提高。  相似文献   

10.
基于强化学习的多Agent协作研究   总被引:2,自引:0,他引:2  
强化学习为多Agent之间的协作提供了鲁棒的学习方法.本文首先介绍了强化学习的原理和组成要素,其次描述了多Agent马尔可夫决策过程MMDP,并给出了Agent强化学习模型.在此基础上,对多Agent协作过程中存在的两种强化学习方式:IL(独立学习)和JAL(联合动作学习)进行了比较.最后分析了在有多个最优策略存在的情况下,协作多Agent系统常用的几种协调机制.  相似文献   

11.
Reinforcement Learning in the Multi-Robot Domain   总被引:16,自引:4,他引:16  
This paper describes a formulation of reinforcement learning that enables learning in noisy, dynamic environments such as in the complex concurrent multi-robot learning domain. The methodology involves minimizing the learning space through the use of behaviors and conditions, and dealing with the credit assignment problem through shaped reinforcement in the form of heterogeneous reinforcement functions and progress estimators. We experimentally validate the approach on a group of four mobile robots learning a foraging task.  相似文献   

12.
Reinforcement learning has been widely applied to solve a diverse set of learning tasks, from board games to robot behaviours. In some of them, results have been very successful, but some tasks present several characteristics that make the application of reinforcement learning harder to define. One of these areas is multi-robot learning, which has two important problems. The first is credit assignment, or how to define the reinforcement signal to each robot belonging to a cooperative team depending on the results achieved by the whole team. The second one is working with large domains, where the amount of data can be large and different in each moment of a learning step. This paper studies both issues in a multi-robot environment, showing that introducing domain knowledge and machine learning algorithms can be combined to achieve successful cooperative behaviours.  相似文献   

13.
结合强化学习技术讨论了单移动Agent学习的过程,然后扩展到多移动Agent学习领域,提出一个多移动Agent学习算法MMAL(MultiMobileAgentLearning)。算法充分考虑了移动Agent学习的特点,使得移动Agent能够在不确定和有冲突目标的上下文中进行决策,解决在学习过程中Agent对移动时机的选择,并且能够大大降低计算代价。目的是使Agent能在随机动态的环境中进行自主、协作的学习。最后,通过仿真试验表明这种学习算法是一种高效、快速的学习方法。  相似文献   

14.
基于T-S模糊再励学习的稳定双足步态生成算法   总被引:2,自引:0,他引:2  
胡凌云  孙增圻 《机器人》2004,26(5):461-466
提出了一种基于T S模糊再励学习的稳定双足步态生成算法 .将再励学习引入T S模糊神经网学习增益参数 ,从而采用较少的模糊规则充分逼近了由ZMP曲线到髋关节轨迹的非线性变化关系 ,并将连续空间的多变量变化转换为一维独立动作增益的并行搜索 .仿真结果和双足机器人Luna的实验数据都验证了算法的可行性 .  相似文献   

15.
针对多agent系统强化学习中,状态空间和动作空间随着agent个数的增加成指数倍增长,进而导致维数灾难、学习速度慢和收敛性差的问题,提出了一种新型的混合强化学习方法,用于改进传统的多agent协作强化学习;该算法基于Friend-or-Foe Q-学习,事先采用聚类分析法对状态空间和动作空间进行预处理,降低空间维数后再进行强化学习,这就避免了同等状态环境下的重复劳动和对动作集的盲目搜索,理论上大大提高了agent的学习速度和算法的收敛性;文章首先进行改进算法的思想概述,然后给出了改进算法的学习框架和算法的一般描述。  相似文献   

16.
AGV(automated guided vehicle)路径规划问题已成为货物运输、快递分拣等领域中一项关键技术问题。由于在此类场景中需要较多的AGV合作完成,传统的规划模型难以协调多AGV之间的相互作用,采用分而治之的思想或许能获得系统的最优性能。基于此,该文提出一种最大回报频率的多智能体独立强化学习MRF(maximum reward frequency)Q-learning算法,对任务调度和路径规划同时进行优化。在学习阶段AGV不需要知道其他AGV的动作,减轻了联合动作引起的维数灾问题。采用Boltzmann与ε-greedy结合策略,避免收敛到较差路径,另外算法提出采用获得全局最大累积回报的频率作用于Q值更新公式,最大化多AGV的全局累积回报。仿真实验表明,该算法能够收敛到最优解,以最短的时间步长完成路径规划任务。  相似文献   

17.
强化学习(Reinforcement Learning)是学习环境状态到动作的一种映射,并且能够获得最大的奖赏信号。强化学习中有三种方法可以实现回报的最大化:值迭代、策略迭代、策略搜索。该文介绍了强化学习的原理、算法,并对有环境模型和无环境模型的离散空间值迭代算法进行研究,并且把该算法用于固定起点和随机起点的格子世界问题。实验结果表明,相比策略迭代算法,该算法收敛速度快,实验精度好。  相似文献   

18.
交通信号的智能控制是智能交通研究中的热点问题。为更加及时有效地自适应协调交通,文中提出了一种基于分布式深度强化学习的交通信号控制模型,采用深度神经网络框架,利用目标网络、双Q网络、价值分布提升模型表现。将交叉路口的高维实时交通信息离散化建模并与相应车道上的等待时间、队列长度、延迟时间、相位信息等整合作为状态输入,在对相位序列及动作、奖励做出恰当定义的基础上,在线学习交通信号的控制策略,实现交通信号Agent的自适应控制。为验证所提算法,在SUMO(Simulation of Urban Mobility)中相同设置下,将其与3种典型的深度强化学习算法进行对比。实验结果表明,基于分布式的深度强化学习算法在交通信号Agent的控制中具有更好的效率和鲁棒性,且在交叉路口车辆的平均延迟、行驶时间、队列长度、等待时间等方面具有更好的性能表现。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号