首页 | 本学科首页   官方微博 | 高级检索  
     

基于离线模型预训练学习的改进DDPG算法
引用本文:张茜,王洪格,倪亮. 基于离线模型预训练学习的改进DDPG算法[J]. 计算机工程与设计, 2022, 43(5): 1451-1458. DOI: 10.16208/j.issn1000-7024.2022.05.033
作者姓名:张茜  王洪格  倪亮
作者单位:中原工学院 计算机学院,河南 郑州 450007
基金项目:河南省科技攻关计划基金项目(222102210281、182102210130);;国家留学基金项目(201908410281);;河南省高校重点科研基金项目(21A520053);
摘    要:针对DDPG(deep deterministic policy gradient)在线训练过程中陷入局部极小值及产生大量试错动作和无效数据的问题,提出一种基于离线模型预训练学习的改进DDPG算法。利用已有数据离线训练对象状态模型和价值奖励模型,提前对DDPG中动作网络和价值网络进行预训练学习,减少DDPG前期工作量并提升在线学习的品质。加入DDQN(double deep Q-Learning network)结构解决Q值估计偏高问题。仿真结果中获取平均累积奖励值提升了9.15%,表明改进算法有效提高了DDPG算法效果。

关 键 词:深度确定性策略梯度  离线模型  预训练学习  深度双Q网络  累积奖励

Improved DDPG algorithm based on offline model pre-training learning
ZHANG Qian,WANG Hong-ge,NI Liang. Improved DDPG algorithm based on offline model pre-training learning[J]. Computer Engineering and Design, 2022, 43(5): 1451-1458. DOI: 10.16208/j.issn1000-7024.2022.05.033
Authors:ZHANG Qian  WANG Hong-ge  NI Liang
Abstract:
Keywords:
本文献已被 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号