首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 968 毫秒
1.
未知环境下基于有先验知识的滚动Q学习机器人路径规划   总被引:1,自引:0,他引:1  
胡俊  朱庆保 《控制与决策》2010,25(9):1364-1368
提出一种未知环境下基于有先验知识的滚动Q学习机器人路径规划算法.该算法在对Q值初始化时加入对环境的先验知识作为搜索启发信息,以避免学习初期的盲目性,可以提高收敛速度.同时,以滚动学习的方法解决大规模环境下机器人视野域范围有限以及因Q学习的状态空间增大而产生的维数灾难等问题.仿真实验结果表明,应用该算法,机器人可在复杂的未知环境中快速地规划出一条从起点到终点的优化避障路径,效果令人满意.  相似文献   

2.
赵坤  嵇启春  李玲燕 《计算机工程》2013,(12):242-246,254
针对未知环境下的机器人迷宫求解问题,提出一种动态离散势场路径规划算法。为提高路径优化性能,采用引入边界节点的栅格法建立模型,在各栅格的边界节点处定义障碍物状态和势场的数值大小,通过计算可连通相邻节点的累计代价值完成势场的构造。为提高寻优速度,随着环境信息的更新动态改变势场分布,沿势场下降最快方向获得实时重规划路径,引导机器人向目标运动,通过预规划路径的访问状态判断路径是否收敛,避免无用栅格的扩展。仿真实验结果表明,应用该算法可使机器人在复杂未知的迷宫环境中快速、高效地规划出一条折线少、转折角度小的优化路径。  相似文献   

3.
移动机器人在复杂环境中移动难以得到较优的路径,基于马尔可夫过程的Q学习(Q-learning)算法能通过试错学习取得较优的路径,但这种方法收敛速度慢,迭代次数多,且试错方式无法应用于真实的环境中。在Q-learning算法中加入引力势场作为初始环境先验信息,在其基础上对环境进行陷阱区域逐层搜索,剔除凹形陷阱区域[Q]值迭代,加快了路径规划的收敛速度。同时取消对障碍物的试错学习,使算法在初始状态就能有效避开障碍物,适用于真实环境中直接学习。利用python及pygame模块建立复杂地图,验证加入初始引力势场和陷阱搜索的改进Q-learning算法路径规划效果。仿真实验表明,改进算法能在较少的迭代次数后,快速有效地到达目标位置,且路径较优。  相似文献   

4.
针对移动智能体在未知环境下的路径规划问题,提出了基于探索-利用权衡优化的Q学习路径规划.对强化学习方法中固有的探索-利用权衡问题,提出了探索贪婪系数ε值随学习幕数平滑衰减的εDBE(ε-decreasing based episodes)方法和根据Q表中的状态动作值判断到达状态的陌生/熟悉程度、做出探索或利用选择的Aε...  相似文献   

5.
随着移动机器人在各个领域的研究与发展,人们对移动机器人路径规划的能力提出了更高的要求;为了解决传统的深度Q网络算法在未知环境下,应用于自主移动机器人路径规划时存在的收敛速度慢、训练前期产生较大迭代空间、迭代的次数多等问题,在传统DQN算法初始化Q值时,加入人工势场法的引力势场来协助初始化环境先验信息,进而可以引导移动机器人向目标点运动,来减少算法在最初几轮探索中形成的大批无效迭代,进而减少迭代次数,加快收敛速度;在栅格地图环境中应用pytorch框架验证加入初始引力势场的改进DQN算法路径规划效果;仿真实验结果表明,改进算法能在产生较小的迭代空间且较少的迭代次数后,快速有效地规划出一条从起点到目标点的最优路径。  相似文献   

6.
路径规划是移动机器人未知环境探索的关键问题,路径点的合理规划对提高环境探索的效率和环境场预测的准确性至关重要.基于强化学习范式,提出一种适用于静态环境场探索的移动机器人在线信息路径规划方法.针对基于模型训练算法计算成本高的问题,通过机器人与环境的交互作用,采用动作价值评估的方法来学习所获取的环境场历史信息,提高机器人实时规划能力.为了提高环境预测准确性,引入基于置信度上界的动作选择方法来平衡探索未知区域与利用已有信息,鼓励机器人向更多未知区域进行全场特征探索,同时避免因探索区域有限而陷入局部极值.仿真实验中,环境场分别采用高斯分布和Ackley函数模型.结果表明,所提算法能够实现机器人环境探索路径点的在线决策,准确有效地捕捉全场和局部环境特征.  相似文献   

7.
基于势场法的移动机器人避障路径规划   总被引:1,自引:0,他引:1  
针对势场法所固有的几个缺陷,提出了一种基于势场法的移动机器人避障路径规划算法,并成功应用于未知复杂环境下移动机器人的路径规划中。仿真试验表明:提出的方法具有较强的路径规划能力,克服了传统势场法的缺点,具有较强的实用性。  相似文献   

8.
以复杂任务下多个智能体路径规划问题为研究对象,提出一种基于强化学习的多Agent路径规划方法。该方法采用无模型的在线Q学习算法,多个Agent不断重复"探索-学习-利用"过程,积累历史经验评估动作策略并优化决策,完成未知环境下的多Agent的路径规划任务。仿真结果表明,与基于强化学习的单Agent路径规划方法相比,该方法在多Agent避免了相碰并成功躲避障碍物的前提下,减少了17.4%的总探索步数,形成了到达目标点的最短路径。  相似文献   

9.
针对蚁群算法路径规划初期信息素浓度差异较小,正反馈作用不明显,路径搜索存在着盲目性、收敛速度相对较慢、易陷入局部最优等情况,人工势场算法的势场力可引导机器人快速朝目标位置前进,提出势场蚁群算法,通过栅格法对机器人的工作环境进行建模,利用人工势场中的势场力、势场力启发信息影响系数及蚁群算法中机器人与目标位置的距离构造综合启发信息,并利用蚁群算法的搜索机制在未知环境中寻找一条最优路径。大量的仿真实验表明势场蚁群算法路径规划能找到更优路径和收敛速度更快。  相似文献   

10.
薛锋  金世俊 《测控技术》2018,37(9):51-55
人工势场法路径规划需要建立在已知环境下障碍物分布位置的基础之上,而激光雷达传感器可以用于未知环境下障碍物分布位置的探测和获取,因此可以将两者结合,从而解决移动机器人未知环境下路径规划问题。该课题建立在人工势场法理论基础之上,在Matlab中构建路径规划仿真图形用户界面,利用机载激光雷达传感器探测获取障碍物的位置分布信息,通过串口将数据传输至Matlab软件中并显示。在Matlab软件下编写人工势场路径规划的实现算法,进行仿真实验。实验结果表明,传统人工势场法路径规划存在的两个问题,分析原因后给出一种改进的人工势场法,并在之前的图形用户界面下继续进行仿真实验。仿真结果表明:改进的人工势场法有效地实现了路径优化的目标。  相似文献   

11.
基于MetrOPOlis准则的Q-学习算法研究   总被引:3,自引:0,他引:3  
探索与扩张是Q-学习算法中动作选取的关键问题,一味地扩张使智能体很快地陷入局部最优,虽然探索可以跳出局部最优并加速学习,而过多的探索将影响算法的性能,通过把Q-学习中寻求成策略表示为组合优化问题中最优解的搜索,将模拟退火算法的Mketropolis准则用于Q-学习中探索和扩张之间的折衷处理,提出基于Metropolis准则的Q-学习算法SA-Q-learning,通过比较,它具有更快的收敛速度,而且避免了过多探索引起的算法性能下降。  相似文献   

12.
为了解决传统的强化学习算法应用于移动机器人未知环境的路径规划时存在收敛速度慢、迭代次数多、收敛结果不稳定等问题,提出一种改进的Q-learning算法。在状态初始化时引入人工势场法,使得越靠近目标位置状态值越大,从而引导智能体朝目标位置移动,减少算法初始阶段因对环境探索产生的大量无效迭代;在智能体选择动作时改进[ε]-贪婪策略,根据算法的收敛程度动态调整贪婪因子[ε],从而更好地平衡探索和利用之间的关系,在加快算法收敛速度的同时提高收敛结果的稳定性。基于Python的Tkinter标准化库搭建的格栅地图仿真结果表明,改进的Q-learning算法相较于传统算法在路径规划时间上缩短85.1%,收敛前迭代次数减少74.7%,同时算法的收敛结果稳定性也得到了提升。  相似文献   

13.
A new Q-learning algorithm based on the metropolis criterion   总被引:4,自引:0,他引:4  
The balance between exploration and exploitation is one of the key problems of action selection in Q-learning. Pure exploitation causes the agent to reach the locally optimal policies quickly, whereas excessive exploration degrades the performance of the Q-learning algorithm even if it may accelerate the learning process and allow avoiding the locally optimal policies. In this paper, finding the optimum policy in Q-learning is described as search for the optimum solution in combinatorial optimization. The Metropolis criterion of simulated annealing algorithm is introduced in order to balance exploration and exploitation of Q-learning, and the modified Q-learning algorithm based on this criterion, SA-Q-learning, is presented. Experiments show that SA-Q-learning converges more quickly than Q-learning or Boltzmann exploration, and that the search does not suffer of performance degradation due to excessive exploration.  相似文献   

14.
路径规划的目的是让机器人在移动过程中既能避开障碍物,又能快速规划出最短路径。在分析基于强化学习的路径规划算法优缺点的基础上,引出能够在复杂动态环境下进行良好路径规划的典型深度强化学习DQN(Deep Q-learning Network)算法。深入分析了DQN算法的基本原理和局限性,对比了各种DQN变种算法的优势和不足,进而从训练算法、神经网络结构、学习机制、AC(Actor-Critic)框架的多种变形四方面进行了分类归纳。提出了目前基于深度强化学习的路径规划方法所面临的挑战和亟待解决的问题,并展望了未来的发展方向,可为机器人智能路径规划及自动驾驶等方向的发展提供参考。  相似文献   

15.
运用Voronoi图理论及人工势场理论,研究了一种基于近似Voronoi图的移动机器人实时路径规划的方法,用来实现未知室内环境中移动机器人的自主导航。该方法朝向预先定义的目标点位置来探测室内环境,生成近似Voronoi图,同时利用人工势场法进行避障,生成一条能达到目标点的安全、光滑路径。仿真结果表明,该方法简单且易于实现,同时能够减少规划时间。  相似文献   

16.
针对传统Q-learning算法在复杂环境下移动机器人路径规划问题中容易产生维数灾难的问题,提出一种改进方法。该方法将深度学习融于Q-learming框架中,以网络输出代替Q值表,解决维数灾难问题。通过构建记忆回放矩阵和双层网络结构打断数据相关性,提高算法收敛性。最后,通过栅格法建立仿真环境建模,在不同复杂程度上的地图上进行仿真实验,对比实验验证了传统Q-learming难以在大状态空间下进行路径规划,深度强化学习能够在复杂状态环境下进行良好的路径规划。  相似文献   

17.
复杂环境下基于势场原理的路径规划方法   总被引:17,自引:4,他引:17  
高云峰  黄海 《机器人》2004,26(2):114-118
针对势场原理所固有的几个缺陷:在相近障碍物间不能发现路径;在狭窄通道中摆动;在障碍物前振荡;存在陷阱区域;当目标附近有障碍物时无法达到目标点,提出了改进办法.改进后的势场法适用于未知复杂环境下移动机器人的路径规划,并具备一定的学习能力.仿真实验验证了该方法的有效性.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号