首页 | 本学科首页   官方微博 | 高级检索  
     

基于深度强化学习哈里斯鹰算法的路径规划
引用本文:曾宁坤,胡朋,梁竹关,丁洪伟,杨志军.基于深度强化学习哈里斯鹰算法的路径规划[J].电子测量技术,2023,46(12):69-76.
作者姓名:曾宁坤  胡朋  梁竹关  丁洪伟  杨志军
作者单位:云南大学信息学院 昆明 650000;优备科技股份有限公司 昆明 650000;1.云南大学信息学院 昆明 650000;3.云南师范大学教育部民族教育信息化重点实验室 昆明 650500
基金项目:国家自然科学基金(61461053)项目资助
摘    要:哈里斯鹰算法存在容易早熟、陷入局部最优陷阱、稳定性较差等问题。为了提升算法性能,本文提出了一种利用深度确定性策略梯度算法(DDPG)改进的哈里斯鹰算法。该改进将深度强化学习和启发式算法结合,利用深度确定性策略梯度算法训练神经网络,再通过神经网络动态地生成哈里斯鹰算法关键参数,平衡算法全局搜索和局部搜索,并赋予算法后期跳出局部最优陷阱的能力。通过函数优化和路径规划对比实验,实验结果表明,DDPGHHO算法具有一定的泛化性和优秀的稳定性,且在不同环境下均能够搜索到更优路径。

关 键 词:路径规划  深度确定性策略梯度算法  哈里斯鹰算法  深度强化学习

Path planning based on deep reinforcement learning Harris Hawks algorithm
Zeng Ningkun,Hu Peng,Liang Zhuguan,Ding Hongwei,Yang Zhijun.Path planning based on deep reinforcement learning Harris Hawks algorithm[J].Electronic Measurement Technology,2023,46(12):69-76.
Authors:Zeng Ningkun  Hu Peng  Liang Zhuguan  Ding Hongwei  Yang Zhijun
Abstract:Harris Hawk algorithm has problems such as easy precocious puberty, falling into local optimal traps, and poor stability. In order to improve the performance of the algorithm, this paper proposes an improved Harris Hawk algorithm using deep deterministic policy gradient (DDPG).DDPGHHO combines deep reinforcement learning with heuristic algorithm, trains neural network by using deep deterministic policy gradient, dynamically generates key parameters of HHO through neural network, balances global search and local search, and endows the algorithm with the ability to jump out of local optimal traps in the later period. Through the comparative experiments of function optimization and path planning, the results show that the DDPGHHO has certain generalization and excellent stability, and can search the better path in different environments.
Keywords:
点击此处可从《电子测量技术》浏览原始摘要信息
点击此处可从《电子测量技术》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号