首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 250 毫秒
1.
未知环境下基于有先验知识的滚动Q学习机器人路径规划   总被引:1,自引:0,他引:1  
胡俊  朱庆保 《控制与决策》2010,25(9):1364-1368
提出一种未知环境下基于有先验知识的滚动Q学习机器人路径规划算法.该算法在对Q值初始化时加入对环境的先验知识作为搜索启发信息,以避免学习初期的盲目性,可以提高收敛速度.同时,以滚动学习的方法解决大规模环境下机器人视野域范围有限以及因Q学习的状态空间增大而产生的维数灾难等问题.仿真实验结果表明,应用该算法,机器人可在复杂的未知环境中快速地规划出一条从起点到终点的优化避障路径,效果令人满意.  相似文献   

2.
李奇儒  耿霞 《计算机工程》2023,(12):111-120
传统深度Q网络(DQN)算法通过融合深度神经网络和强化学习方法,解决了Q-learning算法在应对复杂环境时出现的维数灾难问题,被广泛应用于移动机器人的路径规划,但传统DQN算法的网络收敛速度较慢,路径规划效果较差,难以在较少的训练回合内获取最优路径。为了解决上述问题,提出一种改进的ERDQN算法。通过记录重复状态出现的频率,利用该频率重新计算Q值,使得在网络训练的过程中一种状态重复出现的次数越多,下一次出现该状态的概率越低,从而提高机器人对环境的探索能力,在一定程度上降低了网络收敛于局部最优的风险,减少了网络收敛的训练回合。根据机器人移动方向和机器人与目标点的距离,重新设计奖励函数。机器人在靠近目标点时能够获得正奖励,远离目标点时能够获得负奖励,并通过当前机器人的移动方向和机器人与目标点的距离调整奖励的绝对值,从而使机器人能够在避开障碍物的前提下规划出更优路径。实验结果表明,与DQN算法相比,ERDQN算法的平均得分提高了18.9%,规划出的路径长度和回合数减少了约20.1%和500。上述结果证明了ERDQN算法能够有效提高网络收敛速度及路径规划性能。  相似文献   

3.
提出一种改进深度强化学习算法(NDQN),解决传统Q-learning算法处理复杂地形中移动机器人路径规划时面临的维数灾难.提出一种将深度学习融于Q-learning框架中,以网络输出代替Q值表的深度强化学习方法.针对深度Q网络存在严重的过估计问题,利用更正函数对深度Q网络中的评价函数进行改进.将改进深度强化学习算法与...  相似文献   

4.
基于改进概率栅格分解的路径规划算法   总被引:1,自引:0,他引:1       下载免费PDF全文
吕太之  赵春霞 《计算机工程》2007,33(21):160-162
栅格分解法是目前研究最广泛的路径规划方法之一,但随着机器人自由度增加会出现“维数灾难”问题,不太适合于解决高自由度机器人在复杂环境中的路径规划。该文提出了基于改进概率栅格分解的路径规划算法,将随机采样应用到栅格分解算法中,虽然不能保证算法的最优性,却极大地提高了算法的效率,使其适合于解决高自由度机器人在复杂环境下的路径规划问题。仿真试验表明该算法可以在较短时间内获得可通行的路径。  相似文献   

5.
郑慧杰  刘弘  郑向伟 《计算机应用》2012,32(8):2223-2226
针对群体动画中传统路径规划算法搜索时间长、寻优能力差等问题,提出一种利用群搜索算法进行多线程路径规划的方法。该方法首先将模拟退火算法引入到搜索模式中,克服算法易陷入局部最优的问题;其次,通过结合多线程和路径随机拼接技术,将算法应用到路径规划中。仿真实验表明该算法无论在高维还是低维情况下都具有较好的全局收敛性,能够很好地满足在复杂动画环境下路径规划的要求。  相似文献   

6.
为了解决传统深度强化学习在室内未知环境下移动机器人路径规划中存在探索能力差和环境状态空间奖励稀疏的问题,提出了一种基于深度图像信息的改进深度强化学习算法。利用Kinect视觉传感器直接获取的深度图像信息和目标位置信息作为网络的输入,以机器人的线速度和角速度作为下一步动作指令的输出。设计了改进的奖惩函数,提高了算法的奖励值,优化了状态空间,在一定程度上缓解了奖励稀疏的问题。仿真结果表明,改进算法提高了机器人的探索能力,优化了路径轨迹,使机器人有效地避开了障碍物,规划出更短的路径,简单环境下比DQN算法的平均路径长度缩短了21.4%,复杂环境下平均路径长度缩短了11.3%。  相似文献   

7.
攻击路径规划对实现自动化渗透测试具有重要意义,在现实环境中攻击者很难获取全面准确的网络及配置信息,面向未知渗透测试环境下的攻击路径规划,提出了基于深度强化学习的攻击路径规划方法。首先,对渗透测试问题的状态空间和动作空间进行形式化描述,引入信息收集动作增强对环境的感知能力。然后,智能体通过与环境的自主交互进行学习,寻找最大化长期收益的最优策略,从而指导攻击者进行路径规划。当前深度强化学习算法应用于攻击路径规划存在适应性不强和收敛困难等问题,限制了其处理复杂渗透测试环境的能力。智能体在训练初期通过盲目探索得到的动作序列在维度迅速增长时质量会急剧下降,有时很难完成目标,而且低质量的动作序列大量积累会导致算法不收敛甚至神经元死亡。针对此问题,本文提出的深度强化学习算法在DDQN算法的基础上增加了路径启发信息和深度优先渗透的动作选择策略。路径启发信息充分利用历史经验,在训练初期对智能体的学习过程加以引导,深度优先渗透的动作选择策略在一定程度上对动作空间进行了剪枝,加速智能体的学习过程。最后,通过与其他深度强化学习算法在相同实验条件下的对比,验证了本文算法收敛速度更快,运行时间缩短30%以上。  相似文献   

8.
提出了一种基于贝叶斯决策的机器人路径规划蚂蚁算法,该算法在路径节点选择方式上采用贝叶斯模型,通过后验概率对候选节点进行评估,解决了用传统蚂蚁算法进行路径规划时容易陷入局部最优的问题。仿真实验表明,机器人应用该算法可在复杂障碍环境下快速规划出一条全局优化避障路径。  相似文献   

9.
针对二维动态场景下的移动机器人路径规划问题,提出了一种新颖的路径规划方法——连续动态运动基元(continuous dynamic movement primitives, CDMPs).该方法将传统的单一动态运动基元推广到连续动态运动基元,通过对演示运动轨迹的学习,获得各运动基元的权重序列,利用相位变量的更新,实现对未知动态目标的追踪.该方法克服了移动机器人对环境模型的依赖,解决了动态场景下追踪运动目标和躲避动态障碍物的路径规划问题.最后通过一系列仿真实验,验证了算法的可行性.仿真实验结果表明,对于动态场景下移动机器人路径规划问题, CDMPs算法比传统的DMPs方法在连续性能和规划效率上具有更好的表现.  相似文献   

10.
现有的强化学习方法都不能很好地处理动态环境中的学习问题,当环境变化时需要重新学习最优策略,若环境变化的时间间隔小于策略收敛时间,学习算法则不能收敛.本文在Option分层强化学习方法的基础上提出一种适应动态环境的分层强化学习方法,该方法利用学习的分层特性,仅关注分层任务子目标状态及当前Option内部环境状态的变化,将策略更新过程限制在规模较小的局部空间或维数较低的高层空间上,从而加快学习速度.以二维动态栅格空间内两点间最短路径规划为背景进行了仿真实验,实验结果表明,该方法策略学习速度明显高于以往的方法,且学习算法收敛性对环境变化频率的依赖性有所降低.  相似文献   

11.
阳杰  张凯 《微处理机》2021,(1):47-51
未知连续环境状态下的Q学习路径规划算法在执行对环境的试错时收敛速度慢,容易陷入局部,不利于对真实未知环境的探索,为解决此问题,针对Q学习路径规划问题提出一种基于Metropolis准则的区域扩张策略的势场强化学习算法.算法为环境提供势场先验知识初始化状态信息,消除初始时刻的盲目性,提高学习效率,同时引入基于Metrop...  相似文献   

12.
3D打印是一项先进的制造技术,通过优化其中路径规划方案可以提高效率或成型质量。由于用于3D打印路径规划的传统方法在打印复杂薄壁结构时效果不佳,该文结合强化学习的智能性,提出了一种适用于复杂薄壁结构的路径规划方法。基于3D打印中的路径规划是填充任务,将强化学习中的路径规划任务转换为全遍历问题。为提高打印效率和成型质量,以最小化打印总成本为优化目标,根据优化目标设计强化学习中的约束条件,即最小化打印头的启停和转弯次数。建立单层切片的仿真环境,采用带有上述约束条件的Q-learning算法,通过计算总成本的值来引导学习,寻找最优路径方案。实验结果表明,该方法在打印复杂薄壁结构上的表现优于用于3D打印路径规划的传统方法。  相似文献   

13.
如何在动态变化的复杂网络中实现高效的路由选择是当前的研究热点之一。Q-学习是一种常用的强化学习算法,通过与环境的不断交互来解决未知环境中最优控制问题,能有效地完成在线式学习任务。本文提出一种基于秩的Q-路由选择(Rank-based Q-routing, RQ routing)算法。RQ routing算法在Q-学习的框架下,保留了Q-路由选择(Q-routing)算法的高效性,引入能动态计算的秩函数,用于表示当前状态在场景中的优先级,用以求解路由选择的最优解,避免等待队列过长,减少网络拥堵,提高传输速度。RQ routing算法中的秩函数具有灵活性,使用不同的秩函数即可满足各种场景的需求,保证了算法具有更好的泛化能力,克服了传统Q-routing应用场景单一的不足。实验验证了本文算法的有效性。  相似文献   

14.
Path planning and obstacle avoidance are two challenging problems in the study of intelligent robots. In this paper, we develop a new method to alleviate these problems based on deep Q-learning with experience replay and heuristic knowledge. In this method, a neural network has been used to resolve the “curse of dimensionality” issue of the Q-table in reinforcement learning. When a robot is walking in an unknown environment, it collects experience data which is used for training a neural network; such a process is called experience replay. Heuristic knowledge helps the robot avoid blind exploration and provides more effective data for training the neural network. The simulation results show that in comparison with the existing methods, our method can converge to an optimal action strategy with less time and can explore a path in an unknown environment with fewer steps and larger average reward.   相似文献   

15.
针对水下滑翔机路径规划问题,提出了一种基于Q学习的水下滑翔机路径规划方法。考虑到水下滑翔机在执行一些特定任务时会提前给定俯仰角及深度参数,且航向角选择范围通常是几个离散角度值,本文针对典型的几种俯仰角情况分别设计了航向动作选择集,这避免了Q学习方法“维数爆炸”问题。根据水下滑翔机航程最短的目标和障碍物外部约束条件,设计了奖励函数与动作选择策略。相较于传统路径规划方法,本文提出的方法不需要提前知道环境信息,而是在学习过程中根据环境的反馈选择最优动作,因此该方法在不同的环境条件下有优良的迁移能力。仿真结果表明,该方法能在未知环境中为水下滑翔机规划出规避障碍且航程短的路径。  相似文献   

16.
Reinforcement based mobile robot navigation in dynamic environment   总被引:1,自引:0,他引:1  
In this paper, a new approach is developed for solving the problem of mobile robot path planning in an unknown dynamic environment based on Q-learning. Q-learning algorithms have been used widely for solving real world problems, especially in robotics since it has been proved to give reliable and efficient solutions due to its simple and well developed theory. However, most of the researchers who tried to use Q-learning for solving the mobile robot navigation problem dealt with static environments; they avoided using it for dynamic environments because it is a more complex problem that has infinite number of states. This great number of states makes the training for the intelligent agent very difficult. In this paper, the Q-learning algorithm was applied for solving the mobile robot navigation in dynamic environment problem by limiting the number of states based on a new definition for the states space. This has the effect of reducing the size of the Q-table and hence, increasing the speed of the navigation algorithm. The conducted experimental simulation scenarios indicate the strength of the new proposed approach for mobile robot navigation in dynamic environment. The results show that the new approach has a high Hit rate and that the robot succeeded to reach its target in a collision free path in most cases which is the most desirable feature in any navigation algorithm.  相似文献   

17.
提出了一种解决城市区域交通协调控制问题的混沌模糊Q学习(C-FQL)方法。在模糊Q学习的过程中添加混沌扰动,以改进传统的Agent选择动作的方式,并通过遗忘因子以平衡模糊Q学习中探索和利用之间的关系。将该算法应用于城市区域交通协调控制中优化各信号交叉口的周期、绿信比和相位差。利用TSIS交通仿真平台,建立典型的城市区域交通网络并进行仿真。仿真结果表明该方法可以大大提高区域交通的整体效率。  相似文献   

18.
高速铁路作为国家综合交通运输体系的骨干核心,近十年来取得了飞速蓬勃的发展.其飞速发展的同时也引发了路网复杂化、分布区域广等现象,这些现象对高铁动态调度提出了更高的要求.突发事件的不确定性会对列车造成时间延误影响,甚者时间延误会沿路网传播,造成大面积列车到发晚点.而目前对于此问题的人工调度方式,前瞻性及针对性较差,难以对受影响列车进行迅速调整.针对上述问题,本文建立了以各列车在各车站延误时间总和最小为目标函数的高速铁路列车动态调度模型,在此基础上设计了用于与智能体交互的仿真环境,采用了强化学习中的Q-learning算法对模型进行求解.最后通过仿真实例验证了仿真环境的合理性以及Q-learning算法用于高铁动态调度的有效性,为高铁调度员做出优化决策提供了良好的依据.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号