共查询到19条相似文献,搜索用时 49 毫秒
1.
2.
为了在复杂舞台环境下使用移动机器人实现物品搬运或者载人演出,提出了一种基于深度强化学习的动态路径规划算法。首先通过构建全局地图获取移动机器人周围的障碍物信息,将演员和舞台道具分别分类成动态障碍物和静态障碍物。然后建立局部地图,通过LSTM网络编码动态障碍物信息,使用社会注意力机制计算每个动态障碍物的重要性来实现更好的避障效果。通过构建新的奖励函数来实现对动静态障碍物的不同躲避情况。最后通过模仿学习和优先级经验回放技术来提高网络的收敛速度,从而实现在舞台复杂环境下的移动机器人的动态路径规划。实验结果表明,该网络的收敛速度明显提高,在不同障碍物环境下都能够表现出好的动态避障效果。 相似文献
3.
针对现有移动机器人路径规划方法存在的收敛速度慢和难以进行在线规划的问题,研究了一种基于状态聚集SOM网和带资格迹Q学习的移动机器人路径动态规划方法——SQ(λ);首先,设计了系统的总体闭环规划模型,将整个系统分为前端(状态聚集)和后端(路径规划);然后,在传统的SOM基础上增加输出层构建出三层的SOM网实现对移动机器人状态的聚集,并给出了三层SOM网的训练算法;最后,基于聚集的状态提出了一种基于带资格迹和探索因子自适应变化的改进Q学习算法实现最优策略的获取,并能根据改进Q学习算法的收敛速度自适应地控制前端SOM输出层神经元的增减,从而改进整体算法的收敛性能;仿真实验表明:文中设计的SQ(λ)能有效地实现移动机器人的路径规划,较其它算法相比,具有收敛速度快和寻优能力强的优点,具有较大的优越性。 相似文献
4.
传统Q算法对于机器人回报函数的定义较为宽泛,导致机器人的学习效率不高。为解决该问题,给出一种回报详细分类Q(RDC-Q)学习算法。综合机器人各个传感器的返回值,依据机器人距离障碍物的远近把机器人的状态划分为20个奖励状态和15个惩罚状态,对机器人每个时刻所获得的回报值按其状态的安全等级分类,使机器人趋向于安全等级更高的状态,从而帮助机器人更快更好地学习。通过在一个障碍物密集的环境中进行仿真实验,证明该算法收敛速度相对传统回报Q算法有明显提高。 相似文献
5.
针对现有机器人路径规划强化学习算法收敛速度慢的问题,提出了一种基于人工势能场的移动机器人强化学习初始化方法.将机器人工作环境虚拟化为一个人工势能场,利用先验知识确定场中每点的势能值,它代表最优策略可获得的最大累积回报.例如障碍物区域势能值为零,目标点的势能值为全局最大.然后定义Q初始值为当前点的立即回报加上后继点的最大折算累积回报.改进算法通过Q值初始化,使得学习过程收敛速度更快,收敛过程更稳定.最后利用机器人在栅格地图中的路径对所提出的改进算法进行验证,结果表明该方法提高了初始阶段的学习效率,改善了算法性能. 相似文献
6.
随着移动机器人作业环境复杂度的提高、随机性的增强、信息量的减少,移动机器人的运动规划能力受到了严峻的挑战.研究移动机器人高效自主的运动规划理论与方法,使其在长期任务中始终保持良好的复杂环境适应能力,对保障工作安全和提升任务效率具有重要意义.对此,从移动机器人运动规划典型应用出发,重点综述了更加适应于机器人动态复杂环境的运动规划方法——深度强化学习方法.分别从基于价值、基于策略和基于行动者-评论家三类强化学习运动规划方法入手,深入分析深度强化学习规划方法的特点和实际应用场景,对比了它们的优势和不足.进而对此类算法的改进和优化方向进行分类归纳,提出了目前深度强化学习运动规划方法所面临的挑战和亟待解决的问题,并展望了未来的发展方向,为机器人智能化的发展提供参考. 相似文献
7.
随着人工智能技术的兴起和发展,移动机器人也被运用到各行各业。路径规划作为机器人技术中的重要组成部分之一,是实现移动机器人自主导航的关键技术,一直备受研究者的密切关注。路径规划的核心问题是路径规划算法,随着移动机器人所处的环境越来越复杂,对路径规划算法也提出了更高要求。针对路径规划算法的实现原理,总结了目前主流路径规划算法的研究现状,并根据各规划算法的特点,将算法分为传统路径规划算法、基于采样路径规划算法、智能仿生算法以及基于强化学习的算法。文章也围绕以上算法进行分析梳理,分析其优缺点以及改进方法,并针对现有路径规划算法的研究现状,对未来路径规划算法的发展进行展望,为路径规划的发展提供了一定的思路。 相似文献
8.
康振兴 《计算机应用与软件》2024,(1):297-303
针对移动机器人的长距离避障导航问题,提出结合深度强化学习(Deep Reinforcement Learning, DRL)和路径规划(Path Planning, PL)的避障导航算法。该方法通过快速扩展随机树(Rapidly Exploring Random Tree, RRT)算法在长距离的路径上进行规划,根据生成的路径节点,将长距离路径划分为若干短距离,而在短距离的导航问题上利用深度强化学习的算法,训练一个具有环境感知和智能决策能力的端到端避障导航模型。仿真实验表明,相较于仅用DRL的避障导航,该方法使移动机器人的长距离避障导航性能有了大幅度提升,解决了DRL在长距离避障导航任务上的局限性问题。 相似文献
9.
针对水下滑翔机路径规划问题,提出了一种基于Q学习的水下滑翔机路径规划方法。考虑到水下滑翔机在执行一些特定任务时会提前给定俯仰角及深度参数,且航向角选择范围通常是几个离散角度值,本文针对典型的几种俯仰角情况分别设计了航向动作选择集,这避免了Q学习方法“维数爆炸”问题。根据水下滑翔机航程最短的目标和障碍物外部约束条件,设计了奖励函数与动作选择策略。相较于传统路径规划方法,本文提出的方法不需要提前知道环境信息,而是在学习过程中根据环境的反馈选择最优动作,因此该方法在不同的环境条件下有优良的迁移能力。仿真结果表明,该方法能在未知环境中为水下滑翔机规划出规避障碍且航程短的路径。 相似文献
10.
未知环境下基于有先验知识的滚动Q学习机器人路径规划 总被引:1,自引:0,他引:1
提出一种未知环境下基于有先验知识的滚动Q学习机器人路径规划算法.该算法在对Q值初始化时加入对环境的先验知识作为搜索启发信息,以避免学习初期的盲目性,可以提高收敛速度.同时,以滚动学习的方法解决大规模环境下机器人视野域范围有限以及因Q学习的状态空间增大而产生的维数灾难等问题.仿真实验结果表明,应用该算法,机器人可在复杂的未知环境中快速地规划出一条从起点到终点的优化避障路径,效果令人满意. 相似文献
11.
一种基于罚函数的机器人路径规划方法 总被引:2,自引:0,他引:2
给出了一种基于罚函数的机器人路径规划方法;这种方法将机器人的路径规划由一系列带约束非线形规划问题转化为一系列无约束非线形规划问题来求解,仿真结果表明,罚函数方法是一种富有效率的解决机器人路径规划问题的方法,能够大幅度降低运算时间的复杂性,提高移动机器人的实时性。 相似文献
12.
13.
14.
15.
用栅格模型表示工作环境,确定机器人运动起始结点和目标结点后,对工作环境进行分析,选取起始点与目标点之间连线附近的若干栅格,以被选取栅格为关键点,采用蚁群算法分别计算关键点与起始点和目标节点之间的最短路径,求取全局最短路径。仿真验证,该方法简单有效。 相似文献
16.
随着智能电网的不断发展,变电站数量随之增加。针对变电站中巡检任务繁重以及人工巡检可视化水平低的问题,该文提出了一种基于改进深度强化学习的变电站机器人巡检路径规划方法。结合巡检机器人的运动模型,设计深度强化学习的动作和状态空间。将深度强化学习网络与人工势场相结合,重新构造深度强化学习的奖励函数,优化卷积神经网络结构。通过实际变电站场景进行验证,提出的改进深度强化学习算法较传统算法计算时间更短,效率更高,更有利于对变电站巡检机器人的巡检路径进行精准规划,提升变电站的自动化程度水平。 相似文献
17.
移动机器人路径规划方法研究 总被引:6,自引:0,他引:6
针对室内动态非结构化环境下的移动机器人路径规划问题,提出了一种能够将全局路径规划方法和局部路径规划方法相结合、将基于反应的行为规划和基于慎思的行为规划相结合的路径规划方法.全局路径规划器采用A*算法生成到达目标点的子目标节点序列;局部路径规划器采用改进的人工势场方法对子目标节点序列中相邻两节点进行路径平滑和优化处理.在考虑了移动机器人运动学约束的前提下,该方法不但能够充分利用已知环境信息生成全局最优路径,而且还能及时处理所遇到的随机障碍信息.仿真研究与在室内复杂环境下的实际运行结果验证了该方法的有效性. 相似文献
18.