首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 140 毫秒
1.
李奇儒  耿霞 《计算机工程》2023,(12):111-120
传统深度Q网络(DQN)算法通过融合深度神经网络和强化学习方法,解决了Q-learning算法在应对复杂环境时出现的维数灾难问题,被广泛应用于移动机器人的路径规划,但传统DQN算法的网络收敛速度较慢,路径规划效果较差,难以在较少的训练回合内获取最优路径。为了解决上述问题,提出一种改进的ERDQN算法。通过记录重复状态出现的频率,利用该频率重新计算Q值,使得在网络训练的过程中一种状态重复出现的次数越多,下一次出现该状态的概率越低,从而提高机器人对环境的探索能力,在一定程度上降低了网络收敛于局部最优的风险,减少了网络收敛的训练回合。根据机器人移动方向和机器人与目标点的距离,重新设计奖励函数。机器人在靠近目标点时能够获得正奖励,远离目标点时能够获得负奖励,并通过当前机器人的移动方向和机器人与目标点的距离调整奖励的绝对值,从而使机器人能够在避开障碍物的前提下规划出更优路径。实验结果表明,与DQN算法相比,ERDQN算法的平均得分提高了18.9%,规划出的路径长度和回合数减少了约20.1%和500。上述结果证明了ERDQN算法能够有效提高网络收敛速度及路径规划性能。  相似文献   

2.
利用强化学习训练机器人局部路径规划模型存在算法收敛速度慢、易陷入死锁区域导致目标不可达等问题。对传统近端策略优化(PPO)算法进行改进,引入长短期记忆(LSTM)神经网络并设计虚拟目标点法,提出LSTM-PPO算法。将PPO神经网络结构中的全连接层替换为LSTM记忆单元,控制样本信息的记忆和遗忘程度,优先学习奖励值高的样本,从而更快地累积奖励优化模型。在此基础上,加入虚拟目标点,通过雷达传感器收集的环境信息判断机器人陷入死锁区域时弃用目标点给予机器人的引导,使机器人走出陷阱区域并趋向目标点,减少在死锁区域不必要的训练。分别在特殊障碍物场景和混合障碍物场景中对LSTM-PPO算法进行仿真验证,结果表明,与传统PPO算法和改进算法SDAS-PPO相比,该算法在两种场景训练中均能最快到达奖励峰值,可加快模型收敛速度,减少冗余路段,优化路径平滑度并缩短路径长度。  相似文献   

3.
针对多智能体深度确定性策略梯度算法(MADDPG)学习训练效率低、收敛速度慢的问题,研究MADDPG算法经验优先抽取机制,提出PES-MADDPG算法.首先,分析MADDPG算法的模型和训练方法;然后,改进多智能体经验缓存池,以策略评估函数误差和经验抽取训练频率为依据,设计优先级评估函数,以优先级作为抽取概率获取学习样本训练神经网络;最后,在合作导航和竞争对抗2类环境中进行6组对比实验,实验结果表明,经验优先抽取机制可提高MADDPG算法的训练速度,学习后的智能体具有更好的表现,同时对深度确定性策略梯度算法(DDPG)控制的多智能体训练具有一定的适用性.  相似文献   

4.
针对复杂环境下的机器人路径规划问题,提出一种势场法优化的蚁群路径规划算法。为提高算法收敛速度,将人工势场法的规划结果作为先验知识,对蚁群初始到达的栅格进行邻域信息素的初始化,并通过构建势场导向权改变蚂蚁概率转移函数,使其作用于蚂蚁路径搜索的始终,从而改善蚁群路径搜索的盲目性。仿真结果表明,新算法具有收敛速度快、规划路径短以及环境自适应的优点。  相似文献   

5.
基于蚁群算法在路径规划过程中出现收敛速度慢、易陷入局部最优,且在复杂环境下的寻优能力弱等缺陷,提出了一种适用于机器人路径规划的改进蚁群算法。在预规划路径基础上建立初始信息素矩阵,避免算法前期盲目搜索,提高搜索速度;将改进蚁群算法和A*算法进行有机融合,进一步提高蚁群算法搜索方向性和收敛速度。制定信息素更新规则时引入拐点评价函数,提高搜索路径的光滑性,提高机器人安全性和降低能耗;提出回退策略有效减少蚂蚁死亡数量,提高路径规划方法的鲁棒性。仿真实验表明,在相同的环境下,改进的蚁群算法在机器人路径规划中搜索效率和收敛速度明显优于其他算法。  相似文献   

6.
针对行动者—评论家(AC)算法存在的经验学习样本维度高、策略梯度模型鲁棒性低等问题,依据多代理系统的信息协作优势,构建注意力机制网络并作为代理体,引入多层并行注意力机制网络模型对AC算法进行改进,提出一种基于多层并行注意力机制的柔性AC算法。将其用于解决动态未知环境下的机器人路径规划问题,可增强行动者的策略梯度鲁棒性并降低评论家的回归误差,实现机器人路径规划最优方案的快速收敛。实验结果表明,该算法有效克服机器人路径规划的局部最优,具有计算速度快、稳定收敛的优点。  相似文献   

7.
针对移动机器人在复杂环境下采用传统方法路径规划收敛速度慢和局部最优问题,提出了斥力场下粒子群优化(PSO)的移动机器人路径规划算法。首先采用栅格法对机器人的移动路径进行初步规划,并将栅格法得到的初步路径作为粒子的初始种群,根据障碍物的不同形状和尺寸以及障碍物所占的地图总面积确定栅格粒度的大小,进而对规划路径进行数学建模;然后根据粒子之间的相互协作实现对粒子位置和速度的不断更新;最后采用障碍物斥力势场构造高安全性适应度函数,从而得到一条机器人从初始位置到目标的最优路径。利用Matlab平台对所提算法进行仿真,结果表明,该算法可以实现复杂环境下路径寻优和安全避障;同时还通过对比实验验证了算法收敛速度快,能解决局部最优问题。  相似文献   

8.
为解决多自由度双足机器人步行控制中高维非线性规划难题,挖掘不确定环境下双足机器人自主运动潜力,提出了一种改进的基于深度确定性策略梯度算法(DDPG)的双足机器人步态规划方案。把双足机器人多关节自由度控制问题转化为非线性函数的多目标优化求解问题,采用DDPG算法来求解。为解决全局逼近网络求解过程收敛慢的问题,采用径向基(RBF)神经网络进行非线性函数值的计算,并采用梯度下降算法更新神经网络权值,采用SumTree来筛选优质样本。通过ROS、Gazebo、Tensorflow的联合仿真平台对双足机器人进行了模拟学习训练。经数据仿真验证,改进后的DDPG算法平均达到最大累积奖励的时间提前了45.7%,成功率也提升了8.9%,且经训练后的关节姿态角度具有更好的平滑度。  相似文献   

9.
基于蚁群模拟退火算法的水下机器人路径规划   总被引:1,自引:0,他引:1  
全局路径规划是水下机器人(AUV)研究领域的重要课题之一,文中研究已知障碍物环境条件下的水下机器人路径规划问题;提出一种分布路径规划方法,首先建立移动机器人路径规划的数学模型,介绍了蚁群算法、模拟退火算法的原理,然后考虑到蚁群算法搜索时间较长,易出现停滞现象的缺点,提出蚁群模拟退火算法来解决大范围海洋复杂环境下水下机器人的路径规划问题;通过仿真实验,表明所提算法有效,并且计算简单、收敛速度快,能够满足水下机器人导航的要求.  相似文献   

10.
强化学习中设计合理的奖励函数具有重要的意义,但这也是具有挑战性的,尤其是在实际机器人控制任务中.因此,能够在稀疏奖励的环境中探索有效的强化学习算法是当前持续关注的问题.目前虽然已经有许多在稀疏奖励下的强化学习算法研究,但从结果来看,这些算法在机器人的控制精度以及训练时间等方面均需要很大程度的优化和提升.本文提出了一种基于任务空间网格分割的强化学习算法,能够在稀疏奖励函数下,以较快的训练速度实现较高控制精度的机器人的任务成功率.该算法首先优化行为克隆损失函数梯度的系数,来获得更快的训练收敛效果;随后基于任务空间分割的策略获取优质示范样本补充到示范样本库中来实现更高的任务成功率.仿真实验结果表明,该算法在机械臂抓取控制任务中能够有效地提高训练速度和任务成功率,在5mm控制精度要求下平均任务成功率可达到90%以上.  相似文献   

11.
马小陆  梅宏 《机器人》2020,42(4):494-502
针对蚁群系统(ACS)算法收敛速度慢、易陷入局部最优、路径转折点数量过多等问题,提出了一种基于跳点搜索(JPS)策略的ACS全局路径规划算法.该算法在迭代前加入一只特殊蚂蚁,利用方向因子引导该蚂蚁始终朝着目标方向前进,并查询是否存在最简路径;在蚂蚁查询下一个节点时,利用JPS算法思想舍去大部分不需要计算的节点.最后,为验证该方法的有效性,使用不同规格的栅格地图进行了仿真实验,仿真结果表明,改进的ACS算法相比于ACS算法,收敛速度加快、收敛时间缩短,且路径更优.最后将算法应用到实际的基于机器人操作系统(ROS)的移动机器人导航实验中,实验结果表明,改进的ACS算法能够有效地解决移动机器人全局路径规划问题,且能明显提升机器人全局路径规划的效率.  相似文献   

12.
为了在复杂舞台环境下使用移动机器人实现物品搬运或者载人演出,提出了一种基于深度强化学习的动态路径规划算法。首先通过构建全局地图获取移动机器人周围的障碍物信息,将演员和舞台道具分别分类成动态障碍物和静态障碍物。然后建立局部地图,通过LSTM网络编码动态障碍物信息,使用社会注意力机制计算每个动态障碍物的重要性来实现更好的避障效果。通过构建新的奖励函数来实现对动静态障碍物的不同躲避情况。最后通过模仿学习和优先级经验回放技术来提高网络的收敛速度,从而实现在舞台复杂环境下的移动机器人的动态路径规划。实验结果表明,该网络的收敛速度明显提高,在不同障碍物环境下都能够表现出好的动态避障效果。  相似文献   

13.
随着移动机器人在各个领域的研究与发展,人们对移动机器人路径规划的能力提出了更高的要求;为了解决传统的深度Q网络算法在未知环境下,应用于自主移动机器人路径规划时存在的收敛速度慢、训练前期产生较大迭代空间、迭代的次数多等问题,在传统DQN算法初始化Q值时,加入人工势场法的引力势场来协助初始化环境先验信息,进而可以引导移动机器人向目标点运动,来减少算法在最初几轮探索中形成的大批无效迭代,进而减少迭代次数,加快收敛速度;在栅格地图环境中应用pytorch框架验证加入初始引力势场的改进DQN算法路径规划效果;仿真实验结果表明,改进算法能在产生较小的迭代空间且较少的迭代次数后,快速有效地规划出一条从起点到目标点的最优路径。  相似文献   

14.
基于遗传模拟退火算法的移动机器人路径规划   总被引:4,自引:2,他引:2  
杜宗宗  刘国栋 《计算机仿真》2009,26(12):118-121,125
针对移动机器人路径规划的难题,运用了一种基于遗传模拟退火算法的移动机器人最优路径规划方法,对移动机器人的路径规划进行了设计,采用了栅格法对环境进行建模.为了提高路径规划的效率,采用了一种改进的避障算法来生成初始种群.将遗传算法与模拟退火算法相结合形成遗传模拟退火算法,新算法具有较强的全局和局部搜索能力.仿真实验结果证明算法相对于基本遗传算法的收敛速度、搜索质量和最优解输出概率方面有了明显的提高.  相似文献   

15.
针对传统强化学习算法在训练初期缺乏对周围环境的先验知识,模块化自重构机器人会随机选择动作,导致迭代次数浪费和算法收敛速度缓慢的问题,提出一种两阶段强化学习算法。在第一阶段,利用基于群体和知识共享的Q-learning训练机器人前往网格地图的中心点,以获得一个最优共享Q表。在这个阶段中,为了减少迭代次数,提高算法的收敛速...  相似文献   

16.
在移动机器人控制领域,路径规划是最重要并具有挑战性的问题之一。本文首先采用栅格法对环境进行建模,然后提出一种改进的人工蜂群算法用于机器人的路径规划。在该算法中,为了提高人工蜂群算法的收敛速度,提出自适应的搜索方式,并采用精英保留选择策略以避免机器人路径规划陷入局部最优。仿真实验结果表明,所提算法在机器人路径规划上的可行性与有效性。  相似文献   

17.
针对移动机器人在海水环境中的三维路径规划问题容易陷入局部最优和收敛慢等瑕疵,根据三维环境全局信息来改进蚁群算法以提高实时性和收敛速度。改进蚁群算法的启发函数,采用局部信息和全局信息结合动态地改进信息素更新方式,以及根据三维空间中路径的平坦程度和光滑度二阶微分分别增加了一阶微分和二阶微分来再次修改信息素更新规则。仿真对比实验结果显示改进后的蚁群算法克服了收敛速度慢、容易陷入局部最优的缺点。  相似文献   

18.
针对基本蚁群算法在二维静态栅格地图下进行移动机器人路径规划时出现的搜索效率低下、收敛速度缓慢、局部最优解等问题,提出一种自适应机制改进蚁群算法,用于移动机器人在二维栅格地图下的路径规划.首先采用伪随机状态转移规则进行路径选择,定义一种动态选择因子以自适应更新选择比例,引入距离参数计算转移概率,提高算法的全局搜索能力以及搜索效率;然后基于最大最小蚂蚁模型和精英蚂蚁模型,提出一种奖励惩罚机制更新信息素增量,提高算法收敛速度;最后定义一种信息素自适应挥发因子,限制信息素浓度的上下限,提高算法全局性的同时提高算法的收敛速度.在不同规格的二维静态栅格地图下进行移动机器人全局路径规划对比实验,实验结果表明自适应机制改进蚁群算法具有较快的收敛速度,搜索效率明显提高且具有较好的全局搜索能力,验证了所提算法的实用性和优越性.  相似文献   

19.
针对移动机器人在有大型障碍物和运动空间相对狭窄的复杂环境中,人工势场法(APF)容易出现反复震荡、路径规划时间较长以及大型障碍物附近避障困难的问题,提出了在结合边缘探测法的APF路径规划基础上,加入自适应动态步长调整算法来克服APF的上述缺陷,实现移动机器人在复杂环境下的平滑路径规划,在确保路径近似最优的同时提高APF算法的收敛速度和路经规划的避障性能。实验结果证明了上述方法的有效性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号