首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 635 毫秒
1.
为了提高无人机(Unmanned Aerial Vehicle,UAV)系统的智能避障性能,提出了一种基于双延迟深度确定性策略梯度(Twin Delayed Deep Deterministic Policy Gradient,TD3)的改进算法(Improved Twin Delayed Deep Deterministic Policy Gradient,I-TD3)。该算法通过设置两个经验缓存池分离成功飞行经验和失败飞行经验,并根据两个经验缓存池的不同使用目的分别结合优先经验回放(Prioritized Experience Replay)方法和经验回放(Experience Replay)方法,提高有效经验的采样效率,缓解因无效经验过高导致的训练效率低问题。改进奖励函数,解决因奖励设置不合理导致的训练效果差问题。在AirSim平台上实现仿真实验,结果表明在四旋翼无人机的避障问题上,I-TD3算法的避障效果优于TD3算法和深度确定性策略梯度(Deep Deterministic Policy Gradient,DDPG)算法。  相似文献   

2.
路径规划的目的是让机器人在移动过程中既能避开障碍物,又能快速规划出最短路径。在分析基于强化学习的路径规划算法优缺点的基础上,引出能够在复杂动态环境下进行良好路径规划的典型深度强化学习DQN(Deep Q-learning Network)算法。深入分析了DQN算法的基本原理和局限性,对比了各种DQN变种算法的优势和不足,进而从训练算法、神经网络结构、学习机制、AC(Actor-Critic)框架的多种变形四方面进行了分类归纳。提出了目前基于深度强化学习的路径规划方法所面临的挑战和亟待解决的问题,并展望了未来的发展方向,可为机器人智能路径规划及自动驾驶等方向的发展提供参考。  相似文献   

3.
无人艇(Unmanned surface vehicle, USV)作为一种具有广泛应用前景的无人系统,其自主决策能力尤为关键.由于水面运动环境较为开阔,传统避障决策算法难以在量化规则下自主规划最优路线,而一般强化学习方法在大范围复杂环境下难以快速收敛.针对这些问题,提出一种基于阈值的深度Q网络避障算法(Threshold deep Q network, T-DQN),在深度Q网络(Deep Q network, DQN)基础上增加长短期记忆网络(Long short-term memory, LSTM)来保存训练信息,并设定经验回放池阈值加速算法的收敛.通过在不同尺度的栅格环境中进行实验仿真,实验结果表明, T-DQN算法能快速地收敛到最优路径,其整体收敛步数相比Q-learning算法和DQN算法,分别减少69.1%和24.8%,引入的阈值筛选机制使整体收敛步数降低41.1%.在Unity 3D强化学习仿真平台,验证了复杂地图场景下的避障任务完成情况,实验结果表明,该算法能实现无人艇的精细化避障和智能安全行驶.  相似文献   

4.
针对传统粒子群路径规划不能根据不同环境调节路径节点数、搜索效率低、甚至在一些地形下得不到可行解的不足,提出一种基于变维粒子群的路径规划算法.通过动态改变粒子的维度,控制路径节点数目并调整节点分布,加快了算法收敛速度.在需要沿障碍物迂回才能通过的复杂障碍物的情况下,采用一次位置记忆的避障算法得到无障碍路径.仿真结果表明,该算法可获得较优的路径且收敛速度较快.  相似文献   

5.
李奇儒  耿霞 《计算机工程》2023,(12):111-120
传统深度Q网络(DQN)算法通过融合深度神经网络和强化学习方法,解决了Q-learning算法在应对复杂环境时出现的维数灾难问题,被广泛应用于移动机器人的路径规划,但传统DQN算法的网络收敛速度较慢,路径规划效果较差,难以在较少的训练回合内获取最优路径。为了解决上述问题,提出一种改进的ERDQN算法。通过记录重复状态出现的频率,利用该频率重新计算Q值,使得在网络训练的过程中一种状态重复出现的次数越多,下一次出现该状态的概率越低,从而提高机器人对环境的探索能力,在一定程度上降低了网络收敛于局部最优的风险,减少了网络收敛的训练回合。根据机器人移动方向和机器人与目标点的距离,重新设计奖励函数。机器人在靠近目标点时能够获得正奖励,远离目标点时能够获得负奖励,并通过当前机器人的移动方向和机器人与目标点的距离调整奖励的绝对值,从而使机器人能够在避开障碍物的前提下规划出更优路径。实验结果表明,与DQN算法相比,ERDQN算法的平均得分提高了18.9%,规划出的路径长度和回合数减少了约20.1%和500。上述结果证明了ERDQN算法能够有效提高网络收敛速度及路径规划性能。  相似文献   

6.
张建行  刘全 《计算机科学》2021,48(10):37-43
强化学习中的连续控制问题一直是近年来的研究热点.深度确定性策略梯度(Deep Deterministic Policy Gradients,DDPG)算法在连续控制任务中表现优异.DDPG算法利用经验回放机制训练网络模型,为了进一步提高经验回放机制在DDPG算法中的效率,将情节累积回报作为样本分类依据,提出一种基于情节经验回放的深度确定性策略梯度(Deep Determinis-tic Policy Gradient with Episode Experience Replay,EER-DDPG)方法.首先,将经验样本以情节为单位进行存储,根据情节累积回报大小使用两个经验缓冲池分类存储.然后,在网络模型训练阶段着重对累积回报较大的样本进行采样,以提升训练质量.在连续控制任务中对该方法进行实验验证,并与采取随机采样的DDPG方法、置信区域策略优化(Trust Region Policy Op-timization,TRPO)方法以及近端策略优化(Proximal Policy Optimization,PPO)方法进行比较.实验结果表明,EER-DDPG方法有更好的性能表现.  相似文献   

7.
传统无人机飞行路径自动规划方法无法获取全部障碍物信号,使无人机飞行不能达到避障效果,导致飞行路线规划效果较差;为此提出基于贝叶斯决策的无人机飞行路径自动规划方法;无人机飞行路径自动规划硬件模块包含自动规划模块、动画演示模块、地图导航模块和数据导出模块,自动规划模块负责控制无人机飞行;动画演示模块使用240PRO型号的LEWITT声卡,为展示飞机飞行路线提供声音;LS-TM8N地图导航模块通过串口将射频信号发送到天线的输入端,再由数据导出模块导出并保存相关数据;基于贝叶斯决策原理,结合贝叶斯元胞蚁群算法,计算贝叶斯先验概率和后验概率,规划无人机飞行路径,获取最优路径;实验结果表明,该方法遇到静态障碍物捕获的避障信号在-28~30mV范围内波动,动态障碍物捕获的避障信号在-27~30 mV范围内波动,与实际障碍物信号波动范围一致,避障效果较优.  相似文献   

8.
基于虚拟障碍物的移动机器人路径规划方法   总被引:1,自引:0,他引:1  
叶炜垚  王春香  杨明  王冰 《机器人》2011,33(3):273-278,286
针对城市道路环境,将全局路径规划方法和局部路径规划方法相结合,提出了基于虚拟障碍物的路径规划方法.该方法首先采用A*算法得到一条全局最优的车道路径,然后根据全局最优的路径生成虚拟障碍物,最后将虚拟障碍物与传感器探知的实际障碍物融合,采用改进的向量直方图方法进行局部路径规划.该方法不仅能够充分利用已知环境信息生成全局最优...  相似文献   

9.
路径规划技术是移动机器人研究领域中的一个重要分支,使得机器人能够在多障碍物环境中安全快速地找到一条相对最优路径.针对全局路径规划时蚁群算法盲目性搜索、易陷入局部最优、收敛速度慢以及局部路径规划时DWA算法难以有效地规避动态障碍物等问题,提出一种改进蚁群算法与DWA算法的融合算法.首先,采用GRRT-Connect算法不等分配初始信息素,解决陷阱地图中局部最优问题;然后,增加蚁群接力搜索方法以解决蚂蚁禁忌表自死锁问题,并利用切片取优方法优化最优路径选择机制得到全局最优路径;接着,以最优路径关键点为子目标点运行DWA算法,提出自适应调节速度方法进行最优行驶;最后,提出预计算方法规避动态障碍物达到局部规划效果.仿真结果表明,与现有文献结果相比,融合算法最优路径长度缩短了10.28%,收敛速度加快了6.55%,验证了所提出算法的有效性和优越性.  相似文献   

10.
动态环境的实时碰撞规避是移动机器人轨迹规划中的一个巨大挑战。针对可变障碍物数量的环境,提出了基于LSTM(Long Short Term Memory)和DRL(Deep Reinforcement Learning)的实时轨迹规划算法Crit-LSTM-DRL。首先,根据机器人和障碍物的状态,预测碰撞可能发生的时间,计算各个障碍物相对于机器人的碰撞危急程度(Collision Criticality);其次,将障碍物根据碰撞危急程度由低到高排序,然后由LSTM模型提取固定维度的环境表征向量;最后,将机器人状态和该环境表征向量作为DRL的输入,计算对应状态的价值。在任何一个时刻,针对每一个动作,通过LSTM和DRL计算下一时刻对应的状态的价值,从而计算当前状态的最大价值以及对应的动作。针对不同环境,训练获得3个模型,即在5个障碍物的环境里训练的模型、在10个障碍物的环境里训练的模型和在可变障碍物数量(1~10)的环境里训练的模型,分析了它们在不同测试环境中的性能。为进一步分析单个障碍物和机器人之间的交互影响,将障碍物表示为障碍物和机器人的联合状态(Joint State),分析了在上述...  相似文献   

11.
基于Messy遗传算法(Messy GA),设计了移动机器人的通用路径规划算法,其中的优化目标包括最短路径、一定的平滑度和最优安全距离.在算法中加入了优化算子及交叉率和变异率的自适应调整,加快了收敛速度.仿真结果验证了所提方法的有效性.根据能力风暴机器人(AS-R)的实际运行要求,修改算法以扩大路径与障碍物之间的间隔度,并提出采用平滑的方法来优化路径.以AS-R为平台进行了轨迹跟踪实验.实验结果表明算法在随机摆放障碍物和实验室环境下可以实现路径规划,并能够最终实现AS-R机器人的全局路径规划.  相似文献   

12.
针对双足机器人在非平整地面行走时容易失去运动稳定性的问题,提出一种基于一种基于价值的深度强化学习算法DQN(Deep Q-Network)的步态控制方法。首先通过机器人步态规划得到针对平整地面环境的离线步态,然后将双足机器人视为一个智能体,建立机器人环境空间、状态空间、动作空间及奖惩机制,该过程与传统控制方法相比无需复杂的动力学建模过程,最后经过多回合训练使双足机器人学会在不平整地面进行姿态调整,保证行走稳定性。在V-Rep仿真环境中进行了算法验证,双足机器人在非平整地面行走过程中,通过DQN步态调整学习算法,姿态角度波动范围在3°以内,结果表明双足机器人行走稳定性得到明显改善,实现了机器人的姿态调整行为学习,证明了该方法的有效性。  相似文献   

13.
利用强化学习训练机器人局部路径规划模型存在算法收敛速度慢、易陷入死锁区域导致目标不可达等问题。对传统近端策略优化(PPO)算法进行改进,引入长短期记忆(LSTM)神经网络并设计虚拟目标点法,提出LSTM-PPO算法。将PPO神经网络结构中的全连接层替换为LSTM记忆单元,控制样本信息的记忆和遗忘程度,优先学习奖励值高的样本,从而更快地累积奖励优化模型。在此基础上,加入虚拟目标点,通过雷达传感器收集的环境信息判断机器人陷入死锁区域时弃用目标点给予机器人的引导,使机器人走出陷阱区域并趋向目标点,减少在死锁区域不必要的训练。分别在特殊障碍物场景和混合障碍物场景中对LSTM-PPO算法进行仿真验证,结果表明,与传统PPO算法和改进算法SDAS-PPO相比,该算法在两种场景训练中均能最快到达奖励峰值,可加快模型收敛速度,减少冗余路段,优化路径平滑度并缩短路径长度。  相似文献   

14.
针对无线网络环境中多用户之间冲突及干扰影响问题,本文利用马尔可夫框架进行建模分析,提出了一种多用户联合抗干扰决策算法(MJADA).该算法融合长短期记忆库(Long Short Term Memory,LSTM)和深度Q网络(Deep Q Network,DQN),目标是生成一个用户之间无需交换信息的多用户抗干扰频谱决策策略.MJADA不仅在动作状态空间巨大的多用户场景下能够实现有效的收敛,而且在不同的干扰场景下都能够更好的减少冲突以及规避干扰.仿真结果表明,在扫频干扰下,MJADA算法的抗干扰性能比随机策略高出约72.3%,比独立DQN算法提升33.7%.  相似文献   

15.
基于连续过松弛方法的支持向量回归算法   总被引:5,自引:0,他引:5  
全勇  杨杰  姚莉秀  叶晨洲 《软件学报》2004,15(2):200-206
支持向量回归(support vector regression,简称SVR)训练算法需要解决在大规模样本条件下的凸二次规划(quadratic programming,简称QP)问题.尽管此种优化算法的机理已经有了较为明确的认识,但已有的支持向量回归训练算法仍较为复杂且收敛速度较慢.为解决这些问题.首先采用扩展方法使SVR与支撑向量机分类(SVC)具有相似的数学形式,并在此基础上针对大规模样本回归问题提出一种用于SVR的简化SOR(successive overrelaxation)算法.实验表明,这种新的回归训练方法在数据量较大时,相对其他训练方法有较快的收敛速度,特别适于在大规模样本条件下的回归训练算法设计.  相似文献   

16.
基于双层模糊逻辑的多机器人路径规划与避碰   总被引:1,自引:0,他引:1  
针对无通信情况下的多机器人系统在未知动态环境下的路径规划问题,设计了基于双层模糊逻辑的多机器人路径规划与动态避碰系统。方向模糊控制器充分考虑了障碍物的距离信息和目标的角度信息,转化为机器人与障碍物的碰撞可能性,从而输出转向角度实现机器人的动态避障;速度模糊控制器将障碍物的距离信息作为输入,将速度因子作为输出,提高了多机器人路径规划与动态避碰系统的效率和鲁棒性。在Pioneer3-DX机器人实体上验证了该系统的可行性。  相似文献   

17.
黄鲁  周非同 《控制与决策》2020,35(4):877-884
采用D*Lite算法规划出的路径并不平滑,且预规路径与障碍物均十分接近.除此之外,在动态环境下时,由D*Lite算法重规划得到的路径也离障碍物距离很近,十分容易发生碰撞.针对此问题,引入懒惰视线算法与距离变换相结合的方法改进D*Lite算法.首先,对地图进行距离变换,并引入距离值的启发式代价,使得距离障碍物较远的节点优先被选择.然后,在扩展节点时引入视线算法,增加本地父亲节点和远程父亲节点的概念,使得路径不局限于八邻域扩展,从而进化为任意角度路径规划算法;最后,在遇到未知障碍物时进行局部距离变换,结合启发距离值信息进行重规划,使得重规划得到的路径远离突现的障碍物.仿真实验表明,在不同环境下规划所得到的路径均十分平滑与安全.  相似文献   

18.
本文对基于空间数据库的移动机器人路径规划算法中引入先裁剪再检索的思想,在此基础上提出一种全新的移动机器人路径规划算法。该算法能使规划的路径成功地得到短的无碰路径,而且收敛速度明显加快;除了适用于障碍物是多边形围成的图形外,还适用于障碍物是圆形的情形;允许设定不同的障碍物各条边的模拟退火初始温度,从而能够简单地避免某些局部极小值的情况。  相似文献   

19.
祝毅鸣  刘莹 《计算机测量与控制》2014,22(11):3732-37343743
传统的车辆路径规划方法无法有效地应对实时在线客户需求量随机变化的情形且收敛速度过慢,为了克服其缺点,设计了一种基于蒙特卡罗和重要性采样的交叉熵车辆路径规划方法;首先对随机动态车辆路径规划问题进行了数学建模,然后,描述了蒙特卡罗和交叉熵算法实现稀有事件概率估计的原理,并引入Tsallis熵实现对传统交叉熵的改进,采用蒙特卡罗多次采样获得的费用期望作为路径真实费用的估计值,通过交叉熵算法对重要性概率密度函数和分位数进行不断更新,以增加重要样本获取的概率,从而实现最优路径的获取;最后定义了具体的基于Tsallis熵的随机动态车辆路径规划方法;在MATLAB仿真工具下进行试验,结果表明文中方法能有效地解决随机动态车辆路径问题,与其它方法相比,具有收敛速度快和收敛精度高的优点,是一种有效的随机动态车辆路径规划方法。  相似文献   

20.
为了解决传统深度强化学习在室内未知环境下移动机器人路径规划中存在探索能力差和环境状态空间奖励稀疏的问题,提出了一种基于深度图像信息的改进深度强化学习算法。利用Kinect视觉传感器直接获取的深度图像信息和目标位置信息作为网络的输入,以机器人的线速度和角速度作为下一步动作指令的输出。设计了改进的奖惩函数,提高了算法的奖励值,优化了状态空间,在一定程度上缓解了奖励稀疏的问题。仿真结果表明,改进算法提高了机器人的探索能力,优化了路径轨迹,使机器人有效地避开了障碍物,规划出更短的路径,简单环境下比DQN算法的平均路径长度缩短了21.4%,复杂环境下平均路径长度缩短了11.3%。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号