首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 187 毫秒
1.
针对深度Q学习算法在机器人路径规划中的过估计问题,提出一种动态融合深度双Q算法(dynamic target doub-le deep Q network,DTDDQN).通过动态融合DDQN和平均DQN的先验知识进行网络参数训练,前期以较大权重的DDQN优化目标对估计网络进行网络训练和先验知识的积累,随着学习的深入,...  相似文献   

2.
为解决传统的深度[Q]网络模型下机器人探索复杂未知环境时收敛速度慢的问题,提出了基于竞争网络结构的改进深度双[Q]网络方法(Improved Dueling Deep Double [Q]-Network,IDDDQN)。移动机器人通过改进的DDQN网络结构对其三个动作的值函数进行估计,并更新网络参数,通过训练网络得到相应的[Q]值。移动机器人采用玻尔兹曼分布与[ε]-greedy相结合的探索策略,选择一个最优动作,到达下一个观察。机器人将通过学习收集到的数据采用改进的重采样优选机制存储到缓存记忆单元中,并利用小批量数据训练网络。实验结果显示,与基本DDQN算法比,IDDDQN训练的机器人能够更快地适应未知环境,网络的收敛速度也得到提高,到达目标点的成功率增加了3倍多,在未知的复杂环境中可以更好地获取最优路径。  相似文献   

3.
针对DDPG(deep deterministic policy gradient)在线训练过程中陷入局部极小值及产生大量试错动作和无效数据的问题,提出一种基于离线模型预训练学习的改进DDPG算法。利用已有数据离线训练对象状态模型和价值奖励模型,提前对DDPG中动作网络和价值网络进行预训练学习,减少DDPG前期工作量并提升在线学习的品质。加入DDQN(double deep Q-Learning network)结构解决Q值估计偏高问题。仿真结果中获取平均累积奖励值提升了9.15%,表明改进算法有效提高了DDPG算法效果。  相似文献   

4.
在校园安全管理中,传统的定期定点巡逻和摄像头监控难以覆盖整个校园,而无人机监控则可以弥补上述缺点。由于当前的无人机路径规划算法难以保证信息的时效性,因此,研究提出了基于深度Q网络的路径规划算法。实验结果显示,深度Q网络的成功率随着测试次数的增加而升高,最终稳定在0.79左右,高于基于信息年龄的轨迹规划算法和Q学习算法。同时深度Q网络规划的路径拐点数量仅为16个,覆盖率趋近于1,均优于其余算法。在自由空间和建筑密集空间中,深度Q网络的成功率最终分别稳定在0.99和0.86左右,平均步数均未超过100步。上述结果表明,基于深度Q网络的无人机路径规划算法能高效稳定地实现最优路径规划,实现对校园安全的无死角实时监控。  相似文献   

5.
针对现有深度强化学习算法在状态空间维度大的环境中难以收敛的问题,提出了在时间维度上提取特征的基于一维卷积循环网络的强化学习算法;首先在深度Q网络(DQN,deep Q network)的基础上构建一个深度强化学习系统;然后在深度循环Q网络(DRQN,deep recurrent Q network)的神经网络结构基础上加入了一层一维卷积层,用于在长短时记忆(LSTM,long short-term memory)层之前提取时间维度上的特征;最后在与时序相关的环境下对该新型强化学习算法进行训练和测试;实验结果表明这一改动可以提高智能体的决策水平,并使得深度强化学习算法在非图像输入的时序相关环境中有更好的表现。  相似文献   

6.
针对传统Q-learning算法在复杂环境下移动机器人路径规划问题中容易产生维数灾难的问题,提出一种改进方法。该方法将深度学习融于Q-learming框架中,以网络输出代替Q值表,解决维数灾难问题。通过构建记忆回放矩阵和双层网络结构打断数据相关性,提高算法收敛性。最后,通过栅格法建立仿真环境建模,在不同复杂程度上的地图上进行仿真实验,对比实验验证了传统Q-learming难以在大状态空间下进行路径规划,深度强化学习能够在复杂状态环境下进行良好的路径规划。  相似文献   

7.
无人艇(Unmanned surface vehicle, USV)作为一种具有广泛应用前景的无人系统,其自主决策能力尤为关键.由于水面运动环境较为开阔,传统避障决策算法难以在量化规则下自主规划最优路线,而一般强化学习方法在大范围复杂环境下难以快速收敛.针对这些问题,提出一种基于阈值的深度Q网络避障算法(Threshold deep Q network, T-DQN),在深度Q网络(Deep Q network, DQN)基础上增加长短期记忆网络(Long short-term memory, LSTM)来保存训练信息,并设定经验回放池阈值加速算法的收敛.通过在不同尺度的栅格环境中进行实验仿真,实验结果表明, T-DQN算法能快速地收敛到最优路径,其整体收敛步数相比Q-learning算法和DQN算法,分别减少69.1%和24.8%,引入的阈值筛选机制使整体收敛步数降低41.1%.在Unity 3D强化学习仿真平台,验证了复杂地图场景下的避障任务完成情况,实验结果表明,该算法能实现无人艇的精细化避障和智能安全行驶.  相似文献   

8.
目的 随着虚拟现实技术的发展,在虚拟场景中,基于多智能体的逃生路径规划已成为关键技术之一。与传统的火灾演习相比,采用基于虚拟现实的方法完成火灾逃生演练具有诸多优势,如成本低、代价小、可靠性高等,但仍有一定的局限性,为此,提出一种改进的双层深度Q网络(deep Q network,DQN)架构的路径规划算法。方法 基于两个结构相同的双Q网络,优化了经验池的生成方法和探索策略,并在奖励中增加火灾这样的环境因素对智能体的影响。同时,为了提高疏散的安全性和效率,提出了一种基于改进的K-medoids算法的多智能体分组策略方法。结果 相关实验表明提出的改进的双层深度Q网络架构收敛速度更快,学习更加稳定,模型性能得到有效提升。综合考虑火灾场景下智能体的疏散效率和疏散安全性,使用指标平均健康疏散值(average health evacuation value, AHEP)评估疏散效果,相较于传统的路径规划方法A-STAR(a star search algorithm)和DIJKSTRA(Dijkstra’s algorithm)分别提高了84%和104%;与基于火灾场景改进的扩展A-STAR和Dijkstra-ACO(Dijkstra and ant colony optimization)混合算法比较,分别提高了30%和21%;与考虑火灾影响的DQN算法相比,提高了20%,疏散效率和安全性都得到提高,规划的路径疏散效果更好。通过比较不同分组模式下的疏散效果,验证了对多智能体合适分组可以提高智能体疏散效率。结论 提出的算法优于目前大多数常用的方法,显著提高了疏散的效率和安全性。  相似文献   

9.
王伟 《计算机应用研究》2021,38(5):1498-1502
针对现有蜂窝网络功率分配算法存在泛化能力弱、效率低等问题进行了研究,提出基于深度双Q网络(deep double Q network,DDQN)的功率分配算法。采用双神经网络结构,解决强化学习过程中易出现的维度灾难及值函数过估计问题;对状态信息进行设计并输入神经网络,输出智能体的动作行为,并设计奖赏函数反馈给神经网络,使智能体可以有效地自主学习,多次迭代得到最优的功率分配策略。仿真结果表明,所提的模型可获得的平均速率为1.89,平均运行时间为0.0013 s,在不同用户密度及小区数量下均可达到最高的平均速率,验证了算法的有效性,为蜂窝网络资源分配问题提供了新的思路。  相似文献   

10.
随着移动机器人在各个领域的研究与发展,人们对移动机器人路径规划的能力提出了更高的要求;为了解决传统的深度Q网络算法在未知环境下,应用于自主移动机器人路径规划时存在的收敛速度慢、训练前期产生较大迭代空间、迭代的次数多等问题,在传统DQN算法初始化Q值时,加入人工势场法的引力势场来协助初始化环境先验信息,进而可以引导移动机器人向目标点运动,来减少算法在最初几轮探索中形成的大批无效迭代,进而减少迭代次数,加快收敛速度;在栅格地图环境中应用pytorch框架验证加入初始引力势场的改进DQN算法路径规划效果;仿真实验结果表明,改进算法能在产生较小的迭代空间且较少的迭代次数后,快速有效地规划出一条从起点到目标点的最优路径。  相似文献   

11.
针对在复杂地形中标准的粒子群算法用于矿井搜救机器人路径规划存在迭代速度慢和求解精度低的问题,提出了一种基于双粒子群算法的矿井搜救机器人路径规划方法。首先将障碍物膨胀化处理为规则化多边形,以此建立环境模型,再以改进双粒子群算法作为路径寻优算法,当传感器检测到搜救机器人正前方一定距离内有障碍物时,开始运行双改进粒子群算法:改进学习因子的粒子群算法(CPSO)粒子步长大,适用于相对开阔地带寻找路径,而添加动态速度权重的粒子群算法(PPSO)粒子步长小,擅长在障碍物形状复杂多变地带寻找路径;然后评估2种粒子群算法得到的路径是否符合避障条件,若均符合避障条件,则选取最短路径作为最终路径;最后得到矿井搜救机器人在整个路况模型中的最优行驶路径。仿真结果表明,通过改进学习因子和添加动态速度权重提高了粒子群算法的收敛速度,降低了最优解波动幅度,改进的双粒子群算法能够与路径规划模型有效结合,在复杂路段能够寻找到最优路径,提高了路径规划成功率,缩短了路径长度。  相似文献   

12.
攻击路径规划对实现自动化渗透测试具有重要意义,在现实环境中攻击者很难获取全面准确的网络及配置信息,面向未知渗透测试环境下的攻击路径规划,提出了基于深度强化学习的攻击路径规划方法。首先,对渗透测试问题的状态空间和动作空间进行形式化描述,引入信息收集动作增强对环境的感知能力。然后,智能体通过与环境的自主交互进行学习,寻找最大化长期收益的最优策略,从而指导攻击者进行路径规划。当前深度强化学习算法应用于攻击路径规划存在适应性不强和收敛困难等问题,限制了其处理复杂渗透测试环境的能力。智能体在训练初期通过盲目探索得到的动作序列在维度迅速增长时质量会急剧下降,有时很难完成目标,而且低质量的动作序列大量积累会导致算法不收敛甚至神经元死亡。针对此问题,本文提出的深度强化学习算法在DDQN算法的基础上增加了路径启发信息和深度优先渗透的动作选择策略。路径启发信息充分利用历史经验,在训练初期对智能体的学习过程加以引导,深度优先渗透的动作选择策略在一定程度上对动作空间进行了剪枝,加速智能体的学习过程。最后,通过与其他深度强化学习算法在相同实验条件下的对比,验证了本文算法收敛速度更快,运行时间缩短30%以上。  相似文献   

13.
针对六轴工业机器人装配避障路径运动问题,研究了机器人整体避障运动路径规划方法,提出一种RRT*改进算法;算法以RRT*算法为基础,在障碍物建模中引入包围盒算法,加入对机器人各轴与障碍物的碰撞检测;在路径规划中加入对随机点生成方向与树枝生长方向的先验引导机制,优化了算法路径长度与路径搜寻效率;通过Matlab进行了试验验证,结果表明与标准RRT*算法相比,先验引导RRT*算法缩短路径长度14%左右,且满足机器人末端路径与手臂各轴的避障需求。  相似文献   

14.
为了提升搜索式路径规划算法在C字型障碍中的探索效率,提出了一种基于对抗生成网络的A*算法。首先使用训练更为稳定的梯度惩罚Wasserstein对抗生成网络(WGAN-GP)生成存在可行路径的感兴趣区域;然后使用A*算法优先探索该区域,使得路径规划能够被有效引导;最终形成一条连续的路径。经过实验仿真验证,其相较于传统A*算法节约了31%的规划时间、减少了22.84%的探索空间,提升了路径规划算法的效率。实验结果表明,改进的A*算法具有较高的探索效率,能够更好地应用于机器人路径规划中。  相似文献   

15.
针对室内环境下机器人的移动和定位需要,提出基于视觉FastSLAM的移动机器人自主探索方法.该方法综合考虑信息增益和路径距离,基于边界选取探索位置并规划路径,最大化机器人的自主探索效率,确保探索任务的完整实现.在FastSLAM 2.0的基础上,利用视觉作为观测手段,有效融合全景扫描和地标跟踪方法,提高数据观测效率,并且引入地标视觉特征增强数据关联估计,完成定位和地图绘制.实验表明,文中方法能正确选取最优探索位置并合理规划路径,完成探索任务,并且定位精度和地图绘制精度较高,鲁棒性较好.  相似文献   

16.
针对跳点搜索(jump point search,JPS)路径规划算法在大尺度复杂场景下存在内存资源消耗较大、路径结果平滑度较低且路径过于靠近障碍物等问题,提出融合安全势场等级函数与优化Floyd算法的改进JPS算法。首先建立了安全等级函数对栅格地图中的栅格状态进行重新赋值构建安全等级地图;然后改进了启发式函数,引入目标与主方向两项偏置函数项结合安全等级函数项,进一步减少对称性搜索带来的时间消耗,改善了所规划路径的安全程度。其次通过添加二次平滑算法流程优化了Floyd算法;最后结合B-spline样条插值法,进一步提高了改进算法所规划路径的平滑程度。仿真实验验证了改进优化算法在内存资源消耗、路径长度、路径平滑程度以及路径安全程度都有显著提升。  相似文献   

17.
三维路径规划问题是在干扰环境下寻找出发点到目的地之间最优路径的组合优化问题。针对传统群智能算法在求解该问题时存在收敛精度低、易陷入局部最优等缺陷,提出了一种自适应飞蛾扑火优化算法对该问题进行优化求解。改进算法通过引入飞行方向动态调整策略和位置交叉策略,在动态调整飞蛾飞行方向的同时不断产生新个体,有效避免了算法陷入局部最优;通过自适应调整火焰的数量,在算法全局探索阶段增强了种群多样性,避免了早熟收敛。将自适应飞蛾扑火优化算法与其他群智能算法用于三维路径规划问题求解,实验结果表明,改进的自适应飞蛾扑火优化算法在所有算法中代价值最小,收敛速度最快,说明该算法在三维路径规划问题中具有更好的求解能力。  相似文献   

18.
提出了一种满足家庭服务机器人环境认知和智能服务需要的融合环境和目标信息的家庭全息地图。设计了局部几何—全局拓扑的全息地图分层表示模型。分析了机器人坐标系、局部环境坐标系和目标的相对关系,给出了机器人局部环境自定位算法和基于坐标变换的服务机器人全息地图构建方法。家庭环境下机器人实物实验表明,基于局部几何—全局拓扑表示的全息地图,服务机器人路径规划和任务执行效率得到有效提升。  相似文献   

19.
刘景森  吉宏远  李煜 《自动化学报》2021,47(7):1710-1719
为更好地解决移动机器人路径规划问题, 改进蝙蝠算法的寻优性能, 拓展其应用领域, 提出了一种具有反向学习和正切随机探索机制的蝙蝠算法. 在全局搜索阶段的位置更新中引入动态扰动系数, 提高算法全局搜索能力; 在局部搜索阶段, 融入正切随机探索机制, 增强算法局部寻优的策略性, 避免算法陷入局部极值. 同时, 加入反向学习选择策略, 进一步平衡蝙蝠种群多样性和算法局部开采能力, 提高算法的收敛精度. 然后, 把改进算法与三次样条插值方法相结合去求解机器人全局路径规划问题, 定义了基于路径结点的编码方式, 构造了绕避障碍求解最短路径的方法和适应度函数. 最后, 在简单和复杂障碍环境下分别对单机器人和多机器人系统进行了路径规划对比实验. 实验结果表明, 改进后算法无论在最优解还是平均解方面都要优于其他几种对比算法, 对于求解机器人全局路径规划问题具有较好的可行性和有效性.  相似文献   

20.
童心赤  张华军  郭航 《计算机应用》2020,40(11):3373-3378
针对海洋环境下无人水面艇路径(USV)规划安全性与平滑性问题,提出一种多方向A*路径规划算法以获得全局最优路径。首先,结合电子海图生成栅格化环境信息,并根据安全航行距离约束建立USV安全区域模型,在传统A*算法基础上设计一种带安全距离约束的A*启发函数来保证生成的路径节点的安全;其次,改进传统A*算法的八方向搜索模式,提出一种多方向搜索模式来调整生成路径中的冗余点与拐点;最后,采用路径平滑算法对路径拐点进行平滑处理以获得满足实际航行要求的连续平滑路径。在仿真实验中,改进A*算法规划的路径距离为7 043 m,相较于Dijkstra算法、传统A*四方向搜索算法和传统A*八方向搜索算法分别降低了9.7%、26.6%和7.9%。仿真结果表明改进后的多方向A*搜索算法能够有效减小路径距离,更适用于USV路径规划问题。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号