首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 187 毫秒
1.
强化学习可以让机器人通过与环境的交互,学习最优的行动策略,是目前机器人领域关注的重要前沿方向之一.文中简述机器人任务规划问题的形式化建模,分析强化学习的主要方法,分别介绍无模型强化学习、基于模型的强化学习和分层强化学习的研究进展,着重探讨基于强化学习的机器人任务规划的研究进展,并讨论各种强化学习及其应用情况.最后总结强化学习在机器人应用中面临的问题与挑战,展望未来的研究方向.  相似文献   

2.
路径规划的目的是让机器人在移动过程中既能避开障碍物,又能快速规划出最短路径。在分析基于强化学习的路径规划算法优缺点的基础上,引出能够在复杂动态环境下进行良好路径规划的典型深度强化学习DQN(Deep Q-learning Network)算法。深入分析了DQN算法的基本原理和局限性,对比了各种DQN变种算法的优势和不足,进而从训练算法、神经网络结构、学习机制、AC(Actor-Critic)框架的多种变形四方面进行了分类归纳。提出了目前基于深度强化学习的路径规划方法所面临的挑战和亟待解决的问题,并展望了未来的发展方向,可为机器人智能路径规划及自动驾驶等方向的发展提供参考。  相似文献   

3.
为了应对复杂多变的环境并提高移动机器人实时避障能力,提出了一种基于深度强化学习和动态窗口法的融合路径规划方法.首先,通过将机器人的驱动控制直接作用在速度空间来执行路径规划,从而使机器人具备动态窗口特性.然后,设计并训练一个深度Q网络去逼近移动机器人的状态-动作值函数,进而与环境动态地进行交互和试错,实时调整机器人的移动轨迹,最终为机器人找到最优路径.仿真实验结果表明,论文所提方法在自定义RGB(图像像素)图像的复杂环境中能够使移动机器人保持安全适当的速度行驶,找到无碰撞的最优路径,具有较好的鲁棒性.  相似文献   

4.
为了控制移动机器人在人群密集的复杂环境中高效友好地完成避障任务,本文提出了一种人群环境中基于深度强化学习的移动机器人避障算法。首先,针对深度强化学习算法中值函数网络学习能力不足的情况,基于行人交互(crowd interaction)对值函数网络做了改进,通过行人角度网格(angel pedestrian grid)对行人之间的交互信息进行提取,并通过注意力机制(attention mechanism)提取单个行人的时序特征,学习得到当前状态与历史轨迹状态的相对重要性以及对机器人避障策略的联合影响,为之后多层感知机的学习提供先验知识;其次,依据行人空间行为(human spatial behavior)设计强化学习的奖励函数,并对机器人角度变化过大的状态进行惩罚,实现了舒适避障的要求;最后,通过仿真实验验证了人群环境中基于深度强化学习的移动机器人避障算法在人群密集的复杂环境中的可行性与有效性。  相似文献   

5.
路径规划作为移动机器人自主导航的关键技术,主要是使目标对象在规定范围内找到一条从起点到终点的无碰撞安全路径。阐述基于常规方法和强化学习方法的路径规划技术,将强化学习方法主要分为基于值和基于策略两类,对比时序差分、Q-Learning等基于值的代表方法与策略梯度、模仿学习等基于策略的代表方法,并分析其融合策略和深度强化学习方法方法的发展现状。在此基础上,总结各种强化学习方法的优缺点及适用场合,同时对基于强化学习的路径规划技术的未来发展方向进行展望。  相似文献   

6.
多智能体深度强化学习的若干关键科学问题   总被引:6,自引:0,他引:6  
孙长银  穆朝絮 《自动化学报》2020,46(7):1301-1312
强化学习作为一种用于解决无模型序列决策问题的方法已经有数十年的历史, 但强化学习方法在处理高维变量问题时常常会面临巨大挑战. 近年来, 深度学习迅猛发展, 使得强化学习方法为复杂高维的多智能体系统提供优化的决策策略、在充满挑战的环境中高效执行目标任务成为可能. 本文综述了强化学习和深度强化学习方法的原理, 提出学习系统的闭环控制框架, 分析了多智能体深度强化学习中存在的若干重要问题和解决方法, 包括多智能体强化学习的算法结构、环境非静态和部分可观性等问题, 对所调查方法的优缺点和相关应用进行分析和讨论. 最后提供多智能体深度强化学习未来的研究方向, 为开发更强大、更易应用的多智能体强化学习控制系统提供一些思路.  相似文献   

7.
深度强化学习(DRL)近年来在诸多复杂序列决策问题场景中(如游戏人工智能、无人驾驶、机器人和金融等)都取得了重要的成就。然而,在诸多现实场景中,深度强化学习的应用面临着采样成本高昂、效率低下的问题。场景中无处不在的不确定性是影响采样效率的重要原因,基于不确定性的深度强化学习探索方法成为解决上述问题的重要手段。首先简要介绍了深度强化学习中的重要概念和主流算法,列举了三种经典探索方法,并对这些方法面对复杂场景时的不足之处进行了总结;之后,介绍了不确定性的概念,以及将不确定性引入DRL探索问题研究的背景,在此基础上进行了归纳整理,将基于不确定性的探索方法分为基于乐观性、基于环境不确定性、基于偶然不确定性三种形式,详细梳理了各类方法的基本原理和优缺点;最后,展望了基于不确定性的深度强化学习探索研究的挑战与可能的发展方向。  相似文献   

8.
仿生机器人是一类典型的多关节非线性欠驱动系统,其步态控制是一个非常具有挑战性的问题。对于该问题,传统的控制和规划方法需要针对具体的运动任务进行专门设计,需要耗费大量时间和精力,而且所设计出来的控制器往往没有通用性。基于数据驱动的强化学习方法能对不同的任务进行自主学习,且对不同的机器人和运动任务具有良好的通用性。因此,近年来这种基于强化学习的方法在仿生机器人运动步态控制方面获得了不少应用。针对这方面的研究,本文从问题形式化、策略表示方法和策略学习方法3个方面对现有的研究情况进行了分析和总结,总结了强化学习应用于仿生机器人步态控制中尚待解决的问题,并指出了后续的发展方向。  相似文献   

9.
作为自动化和智能化时代的代表,机器人技术的发展成为智能控制领域研究的焦点,各种基于机器人的智能控制技术应运而生,机器人被越来越多地应用于实现与环境之间的复杂多接触交互任务.本文以机器人复杂多接触交互任务为核心问题展开讨论,结合基于强化学习的机器人智能体训练相关研究,对基于强化学习方法实现机器人多接触交互任务展开综述.概述了强化学习在机器人多接触任务研究中的代表性研究,当前研究中存在的问题以及改进多接触交互任务实验效果的优化方法,结合当前研究成果和各优化方法特点对未来机器人多接触交互任务的智能控制方法进行了展望.  相似文献   

10.
作为解决序贯决策的机器学习方法,强化学习采用交互试错的方法学习最优策略,能够契合人类的智能决策方式。基于课程学习的深度强化学习是强化学习领域的一个研究热点,它针对强化学习智能体在面临高维状态空间和动作空间时学习效率低、难以收敛的问题,通过抽取一个或多个简单源任务训练优化过程中的共性知识,加速或改善复杂目标任务的学习。论文首先介绍了课程学习的基础知识,从四个角度对深度强化学习中的课程学习最新研究进展进行了综述,包括基于网络优化的课程学习、基于多智能体合作的课程学习、基于能力评估的课程学习、基于功能函数的课程学习。然后对课程强化学习最新发展情况进行了分析,并对深度强化学习中的课程学习的当前存在问题和解决思路进行了总结归纳。最后,基于当前课程学习在深度强化学习中的应用,对课程强化学习的发展和研究方向进行了总结。  相似文献   

11.
《Advanced Robotics》2013,27(4):323-340
This article presents a novel approach to decentralized motion planning and conflict-resolution for multiple mobile robots. The proposed multi-robot motion planning is an on-line operation, based on cost wave propagation within a discretized configuration space-time. By use of the planning method, a framework for negotiation is developed, which permits quick decentralized and parallel decision making. The key objective of the negotiation procedure is dynamic assignment of robot motion priorities. Thus, robots involved in a local conflict situation cooperate in planning and execution of the lowest cost motion paths without application of any centralized components. The features required for individual and cooperative motion are embedded in a hybrid control architecture. Results obtained from realistic simulation of a multi-robot environment and also from experiments performed with two mobile robots demonstrate the flexibility and the efficiency of the proposed method.  相似文献   

12.
为了实现在多移动机器人和多窄通道的复杂动态环境中机器人的节能运动规划,提出异构多目标差分-动态窗口法(heterogeneous multi-objective differential evolution-dynamic window algorithm,HMODE-DWA).首先,建立行驶时间、执行器作用力和平滑度的3目标优化模型,设计具有碰撞约束的异构多目标差分进化算法来获得3个目标函数的最优解,进而在已知的静态环境中获得帕累托前沿,利用平均隶属度函数获得起点与终点间最优的全局路径;其次,定义基于环境缓冲区域的模糊动态窗口法使机器人完成动态复杂环境中避障,利用所提出的HMODE-DWA算法动态避障的同时实现节能规划.仿真和实验结果表明,所提出的混合路径规划控制策略能够有效降低移动机器人动态避障过程中的能耗.  相似文献   

13.
Dynamic Motion Planning for Mobile Robots Using Potential Field Method   总被引:24,自引:0,他引:24  
The potential field method is widely used for autonomous mobile robot path planning due to its elegant mathematical analysis and simplicity. However, most researches have been focused on solving the motion planning problem in a stationary environment where both targets and obstacles are stationary. This paper proposes a new potential field method for motion planning of mobile robots in a dynamic environment where the target and the obstacles are moving. Firstly, the new potential function and the corresponding virtual force are defined. Then, the problem of local minima is discussed. Finally, extensive computer simulations and hardware experiments are carried out to demonstrate the effectiveness of the dynamic motion planning schemes based on the new potential field method.  相似文献   

14.
在拥挤环境中,由于障碍物的边界形状比较复杂,需要使用广义Voronoi图表示空间环境。且在多移动机器人的运动规划过程中,需要协调多个机器人的运动,必须得到Voronoi图通道的宽度。为此提出了一种计算拥挤障碍物环境中生成的广义Voronoi图及其通道宽度的算法。并在生成的Voronoi图上利用A*算法对多个机器人进行路径规划,并利用分布式方法协调多个机器人运动。对协调两个机器人运动的过程进行了仿真,仿真结果表明利用提出的算法生成的具有通道宽度信息的Voronoi图能够满足多移动机器人运动规划的需要。  相似文献   

15.
A reactive navigation system for an autonomous mobile robot in unstructured dynamic environments is presented. The motion of moving obstacles is estimated for robot motion planning and obstacle avoidance. A multisensor-based obstacle predictor is utilized to obtain obstacle-motion information. Sensory data from a CCD camera and multiple ultrasonic range finders are combined to predict obstacle positions at the next sampling instant. A neural network, which is trained off-line, provides the desired prediction on-line in real time. The predicted obstacle configuration is employed by the proposed virtual force based navigation method to prevent collision with moving obstacles. Simulation results are presented to verify the effectiveness of the proposed navigation system in an environment with multiple mobile robots or moving objects. This system was implemented and tested on an experimental mobile robot at our laboratory. Navigation results in real environment are presented and analyzed.  相似文献   

16.
Most conventional motion planning algorithms that are based on the model of the environment cannot perform well when dealing with the navigation problem for real-world mobile robots where the environment is unknown and can change dynamically. In this paper, a layered goal-oriented motion planning strategy using fuzzy logic is developed for a mobile robot navigating in an unknown environment. The information about the global goal and the long-range sensory data are used by the first layer of the planner to produce an intermediate goal, referred to as the way-point, that gives a favorable direction in terms of seeking the goal within the detected area. The second layer of the planner takes this way-point as a subgoal and, using short-range sensory data, guides the robot to reach the subgoal while avoiding collisions. The resulting path, connecting an initial point to a goal position, is similar to the path produced by the visibility graph motion planning method, but in this approach there is no assumption about the environment. Due to its simplicity and capability for real-time implementation, fuzzy logic has been used for the proposed motion planning strategy. The resulting navigation system is implemented on a real mobile robot, Koala, and tested in various environments. Experimental results are presented which demonstrate the effectiveness of the proposed fuzzy navigation system.  相似文献   

17.
基于传统机构设计的移动机器人,由于机构运动关系相对固定、配置形式单一,难以在复杂地形中快速通行。变胞机构是一种全新的机构组合形式,在瞬时能使某些构件发生合并和分离,使机构有效构件数或自由度数发生变化,具有较强的环境适应性。变胞机构设计的移动机器人可以将速度、灵活性和稳定性集于一体,实现移动机器人在复杂环境中的快速移动。本文针对变胞机构及其移动机器人的构型设计、运动原理、驱动方式及空间配置进行了综述,归纳了现有基于变胞机构的移动机器人所面临的关键问题和技术进展,并对变胞机器人的未来发展方向进行了展望,为变胞移动机器人的发展提供参考。  相似文献   

18.
Recently, various autonomous mobile robots have been developed for practical use. To support the coexistence of robots and humans in real environments, we propose a concept named ‘Region with Velocity Constraints (RVC),’ which is set around hazardous areas. RVCs are regions where the velocities of the robot are constrained to predefined values. Inside the RVCs, the robot has to reduce its translational velocity to avoid predicted hazards such as collisions with obstacles, and to reduce its rotational velocity to prevent undesirable motions such as sharp turns. We also propose a motion planning method for navigating the mobile robot in an environment with RVCs based on the Navigation Function and Global Dynamic Window Approach. Our method generates a trajectory satisfying both translational and rotational velocity constraints to be compatible with the surroundings. Moreover, to demonstrate the validity of our method, we performed numerical simulations and experiments.  相似文献   

19.
Robots that work in a proper formation show several advantages compared to a single complex robot, such as a reduced cost, robustness, efficiency and improved performance. Existing researches focused on the method of keeping the formation shape during the motion, but usually neglect collision constraints or assume a simplified model of obstacles. This paper investigates the path planning of forming a target robot formation in a clutter environment containing unknown obstacles. The contribution lies in proposing an efficient path planner for the multiple mobile robots to achieve their goals through the clutter environment and developing a dynamic priority strategy for cooperation of robots in forming the target formation. A multirobot system is set up to verify the proposed method of robot path planning. Simulations and experiments results demonstrate that the proposed method can successfully address the collision avoidance problem as well as the formation forming problem.  相似文献   

20.
针对目前室内移动机器人沿墙走算法过于复杂、路径易重复、不能完全遍历、效率低等问题, 采用室内未知环境下结合历史状态的机器人沿墙高效遍历研究来解决这些问题. 该算法由移动机器人的上一个周期历史环境运动状态(分8类)、当前环境运动状态(分8类)和旋向信息(分2类)建立运动规则库, 沿墙行走时移动机器人时时采集这三类信息(上一个周期历史环境运动状态、当前环境运动状态和旋向信息)决定移动机器人当前的运动方向, 如此循环直到完成指定的沿墙任务. 最后对该算法进行了仿真与实际实验, 实验结果证明该算法可以在不同的、复杂的环境中高效、快速地完成沿墙走的任务, 并且对室内未知环境有很好的适应性.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号