首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 296 毫秒
1.
介绍了一种基于分层思想的强化学习方法,即将机器人的复杂行为分解为一系列简单的行为进行离线独立学习,并分别设计了每个层次的结构、参数及函数。这种学习方法能够减小状态空间并简化强化函数的设计,从而提高了学习的速率以及学习结果的准确性,并使学习过程实现了决策的逐步求精。最后以多机器人避障为任务模型,将避障问题分解为躲避静态和动态障碍物以及向目标点靠近3个子行为分别进行学习,实现了机器人的自适应行为融合,并利用仿真实验对其有效性进行了验证。  相似文献   

2.
强化学习(ReinforcementLearningRL)是从动物学习理论发展而来的,它不需要有先验知识,通过不断与环境交互来获得知识,自主的进行动作选择,具有自主学习能力,在自主机器人行为学习中受到广泛重视.本文综述了强化学习的基本原理,各种算法,包括TD算法、Q-学习和R学习等,最后介绍了强化学习的应用及其在多机器人系统中的研究热点问题.  相似文献   

3.
较为系统地综述了机器人模仿学习的过程,并对该领域的相关关键问题进行了探讨.基于模仿的生物机制,构建了机器人模仿学习的一个工程应用框架,以该框架为指导,重点对模仿学习的行为表述问题及研究进展进行论述;对模仿学习和强化学习在机器人运动技能学习中的应用进行了对比分析;并对该领域的研究进行了展望,可见对机器人模仿学习的研究是机器人仿生机制研究的热点内容.  相似文献   

4.
移动机器人的自适应式行为融合方法   总被引:2,自引:0,他引:2  
介绍了一种基于先验知识的强化学习方法,它将传统的规则控制方法和强化学习方法相结合,在保留了已知的部分规则的情况下,利用强化学习方法对基本行为的融合机制进行了完善;同时,利用已知的规则知识对学习器进行指导,保证了学习向正确方向进行,有利于学习收敛速度的提高。文章给出了2种实现方法的结合方式,并给出了学习器的结构及参数和函数设定。最后以机器人围捕为研究背景,实现了移动机器人的自适应式行为融合,并利用仿真实验对其有效性进行验证。结果表明该方法具有收敛快、学习效果好的特点。  相似文献   

5.
针对机器人模仿学习控制策略获取的问题,基于高斯过程的方法,建立示教机器人示教行为的样本数据的高斯过程回归模型并加以训练,以求解示教机器人的感知和行为之间的映射关系,并将此映射关系作为模仿机器人的控制策略来实现对示教行为的模仿.以Braitenberg车为仿真对象,研究趋光模仿学习行为.仿真实验表明:基于高斯过程的机器人模仿学习算法具有有效性,模仿机器人在不同任务环境下具有很好的适应性.  相似文献   

6.
针对机器人避障研究在连续状态空间下的环境泛化问题,提出一种基于深度强化学习的机器人避障方法。该方法引入像素点碰撞检测模块,并结合像素点碰撞模拟距离传感器,获得机器人与任意形态障碍物之间的距离和是否碰撞等信息。在深度强化学习过程中,移动机器人面对未知环境,通过行走获得经验数据训练神经网络,更新网络参数,优化机器人行为决策,实现避障任务。实验结果表明,在机器人避障过程中引入像素点碰撞检测能有效解决环境泛化问题,且动静态环境中训练出的网络模型具有较好的泛化能力。  相似文献   

7.
提出了一种机器人队形矩阵的标识方法,设计了维数更少的状态空间.通过分析不同队形对围捕的利弊,设计了状态评价及强化函数,减少了由于感知区域划分不精细等因素对学习结果合理性的影响.通过仿真实验,验证了方法的可行性,并对存在问题进行了分析.  相似文献   

8.
基于路径引导知识启发的强化学习方法   总被引:1,自引:0,他引:1  
为了提高强化学习算法的运行效率和收敛速度,提出了一种基于路径引导知识启发的强化学习方法PHQL。采用PHQL方法,不需要提前植入先导知识,agent在每一轮学习过程中更新Q表的同时,各个状态的路径知识也自主地建立起来并逐步修正和优化。算法利用已经获得的路径知识来指导和加速agent以后的强化学习过程,以减少agent学习过程的盲目性。分析了PHQL算法的探索、利用和启发3种行为的执行概率以及行为选取方法,提出一种行为选择概率随时间渐变的算法。以一个路径搜索问题为实例,对PHQL方法进行了验证、分析并与几种相关的强化学习算法进行了性能对比。实验结果表明,作者提出的方法对学习过程具有明显的加速作用,收敛性能有了较大的提高。  相似文献   

9.
基于人工神经网络的强化学习在机器人足球中的应用   总被引:8,自引:1,他引:7  
将人工神经网络与强化学习相结合,提出了基于人工神经网络的强化学习的应用方法,并用该方法解决了机器人足球比赛中踢球机器人的动作选择问题.实验结果表明了该方法的有效性.  相似文献   

10.
根据多机器人在不确定环境中编队智能行进控制的要求,以多移动机器人为对象,提出了一种基于分解策略的多机器人编队控制方法,将复杂的多机器人编队问题分解为若干组2个机器人之间的协调问题.建立了多机器人编队的基本队形模型,提出了基于主从方式的多机器人控制策略,根据基于行为的方法设计了机器人的基本子行为,通过带权值的各子行为的叠加合成得到机器人的最终行为,给出了机器人的速度调节方案.计算机仿真结果验证了该方法的有效性和可行性,具有较好的可扩展性.  相似文献   

11.
针对现有移动机器人模糊导航对未知不确定环境缺乏自适应性的缺点,提出了一种具备在线自学习能力的模糊导航方法.通过设计模糊规则并确定动作先验值,完成初始模糊导航系统的构建.利用Q强化学习算法对模糊规则中各行为的值函数进行在线增量学习,实现模糊决策的逐步求精.仿真实验表明,移动机器人导航系统能够在运行过程中不断调整导航策略,实现对未知不确定环境的自适应.同时由于导航先验知识的引入,有效地克服了强化学习初始阶段进行盲目搜索导致的学习速率低、收敛速度慢的缺点,实现了移动机器人可靠导航.  相似文献   

12.
For real-time and distributed features of multi-robot system,the strategy of combining the improved artificial potential field method and the rules based on priority is proposed to study the collision avoidance planning in multi-robot systems. The improved artificial potential field based on simulated annealing algorithm satisfactorily overcomes the drawbacks of traditional artificial potential field method,so that robots can find a local collision-free path in the complex environment. According to the movement vector trail of robots,collisions between robots can be detected,thereby the collision avoidance rules can be obtained. Coordination between robots by the priority based rules improves the real-time property of multi-robot system. The combination of these two methods can help a robot to find a collision-free path from a starting point to the goal quickly in an environment with many obstacles. The feasibility of the proposed method is validated in the VC-based simulated environment.  相似文献   

13.
以未知环境下多机器人学习为研究平台,因案例推理方法可存储以前的问题和解信息,用该方法的长期记忆特性可帮助粒子群优化算法更好地解决新的问题。在特定的仿真环境里,粒子群优化算法可训练机器人的几个基本行为,经过学习使机器人具有更好的鲁棒性和自适应学习能力。根据机器人不同行为在复杂环境下的性能指标,CBR可从案例库中选择特定的行为,并将其参数传送到粒子群优化算法的初始解库,从而加速整体的学习过程。利用机器人仿真软件MissionLab,采用基于行为的多机器人编队任务,用来测试该算法的有效性。仿真和实验结果表明,案例推理方法和粒子群优化算法相结合,使机器人获得更优的控制参数,同时在未知环境下的多机器人编队具有更好的性能。  相似文献   

14.
目前的多移动机器人系统在运行状态下,网络结构一般是静态的,很难做到成员机器人的动态增减,且系统在启动时需要复杂配置。本文设计了一种支持异质移动机器人合作的多机器人系统UMRS-1,采用分布式组织结构,支持机器人动态、自动配置地加入或退出系统。分析了组成系统的成员机器人的体系结构以及UMRS-1的组织结构。采用基于KQML实现的合同网作为协作协议,最后对多机器人协作围捕问题进行了初步探讨以说明UMRS-1的通信与协作机制。  相似文献   

15.
Chen  Chen  Wang  Yu  Gao  ZhiTao  Peng  FangYu  Tang  XiaoWei  Yan  Rong  Zhang  YuKui 《中国科学:技术科学(英文版)》2022,65(9):1957-1974

With the rapid advancement of manufacturing in China, robot machining technology has become a popular research subject. An increasing number of robots are currently being used to perform complex tasks during manual operation, e.g., the grinding of large components using multi-robot systems and robot teleoperation in dangerous environments, and machining conditions have evolved from a single open mode to a multisystem closed mode. Because the environment is constantly changing with multiple systems interacting with each other, traditional methods, such as mechanism modeling and programming are no longer applicable. Intelligent learning models, such as deep learning, transfer learning, reinforcement learning, and imitation learning, have been widely used; thus, skill learning and strategy optimization have become the focus of research on robot machining. Skill learning in robot machining can use robotic flexibility to learn skills under unknown working conditions, and machining strategy research can optimize processing quality under complex working conditions. Additionally, skill learning and strategy optimization combined with an intelligent learning model demonstrate excellent performance for data characteristics learning, multisystem transformation, and environment perception, thus compensating for the shortcomings of the traditional research field. This paper summarizes the state-of-the-art in skill learning and strategy optimization research from the perspectives of feature processing, skill learning, strategy, and model optimization of robot grinding and polishing, in which deep learning, transfer learning, reinforcement learning, and imitation learning models are integrated into skill learning and strategy optimization during robot grinding and polishing. Finally, this paper describes future development trends in skill learning and strategy optimization based on an intelligent learning model in the system knowledge transfer and nonstructural environment autonomous processing.

  相似文献   

16.
针对多机器人环境探索中的任务分配和路径规划问题,将环境中所有待探索的任务点根据短距离优先策略分配至个体机器人,利用改进的免疫遗传算法对机器人分配到的任务点进行优化探索,提出了带有初始任务点优化的路径规划方法,使机器人能够不重复并且高效地遍历工作环境中的所有探索点.通过建立多机器人仿真实验系统,随机产生环境中的任务点和机器人等数据信息,并在此条件下对本文方法进行实验验证.结果表明,本文方法能够有效地实现多机器人环境探索问题.  相似文献   

17.
In this paper a learning mechanism for reactive fuzzy controller design of a mobile robot navigating in unknown environments is proposed. The fuzzy logical controller is constructed based on the kinematics model of a real robot. The approach to learning the fuzzy rule base by relatively simple and less computational Q-learning is described in detail. After analyzing the credit assignment problem caused by the rules collision, a remedy is presented. Furthermore, time-varying parameters are used to increase the learning speed. Simulation results prove the mechanism can learn fuzzy navigation rules successfully only using scalar reinforcement signal and the rule base learned is proved to be correct and feasible on real robot platforms.  相似文献   

18.
针对传统增强学习方法在运动规划领域,尤其是机器人避障问题上存在容易过估计、难以适应复杂环境等不足,提出了一种基于深度增强学习的提升机器人避障性能的新算法模型。该模型将dueling神经网络架构与传统增强学习算法Q学习相结合,并利用两个独立训练的dueling网络处理环境数据来预测动作值,在输出层分别输出状态值和动作优势值,并将两者结合输出最终动作值。该模型能处理较高维度数据以适应复杂多变的环境,并输出优势动作供机器人选择以获得更高的累积奖励。实验结果表明,该新算法模型能有效地提升机器人避障性能。  相似文献   

19.
Robot path planning in dynamic environment based on reinforcement learning   总被引:4,自引:0,他引:4  
0 INTRODUCTIONOneofthemostimportantproblemsinmobilerobotcontrolispathplanning .Therearealreadysomemeth odsthatsolvepathplanningproblems ,suchasartificialpotentialmethodandgridmethod .Inthesemethods,itisnecessarytoestablishtheenvironment’smodelbeforeperfo…  相似文献   

20.
针对两轮式移动机器人在复杂环境下的编队控制问题,提出一种基于虚构领航法和反步法,并结合人工势场法策略的多机器人避障编队算法。首先,详细分析多机器人系统在三维空间下的编队模型,并利用空间投影方法将其映射到二维平面进行分析。其次,将运动学模型转化为链式形式,并通过正则坐标变换,将误差系统形式转换成串联非线性系统。然后运用Backstepping方法构造轮式机器人追踪系统的Lyapunov函数,设计出针对轮式机器人的轨迹跟踪控制器。再结合人工势场法避障策略,完成多机器人复杂环境下的编队任务。最后,通过多机器人轨迹跟踪的两组仿真实验,验证了所提出方法的有效性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号