基于离线模型预训练学习的改进DDPG算法 Improved DDPG algorithm based on offline model pre-training learning期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

基于离线模型预训练学习的改进DDPG算法

引用本文：	张茜,王洪格,倪亮. 基于离线模型预训练学习的改进DDPG算法[J]. 计算机工程与设计, 2022, 43(5): 1451-1458. DOI: 10.16208/j.issn1000-7024.2022.05.033

作者姓名：	张茜王洪格倪亮

作者单位：	中原工学院计算机学院,河南郑州 450007

基金项目：	河南省科技攻关计划基金项目(222102210281、182102210130)；;国家留学基金项目(201908410281)；;河南省高校重点科研基金项目(21A520053)；

摘要：	针对DDPG(deep deterministic policy gradient)在线训练过程中陷入局部极小值及产生大量试错动作和无效数据的问题,提出一种基于离线模型预训练学习的改进DDPG算法。利用已有数据离线训练对象状态模型和价值奖励模型,提前对DDPG中动作网络和价值网络进行预训练学习,减少DDPG前期工作量并提升在线学习的品质。加入DDQN(double deep Q-Learning network)结构解决Q值估计偏高问题。仿真结果中获取平均累积奖励值提升了9.15%,表明改进算法有效提高了DDPG算法效果。
关键词：	深度确定性策略梯度离线模型预训练学习深度双Q网络累积奖励
Improved DDPG algorithm based on offline model pre-training learning

ZHANG Qian,WANG Hong-ge,NI Liang. Improved DDPG algorithm based on offline model pre-training learning[J]. Computer Engineering and Design, 2022, 43(5): 1451-1458. DOI: 10.16208/j.issn1000-7024.2022.05.033

Authors:	ZHANG Qian WANG Hong-ge NI Liang

Abstract:

Keywords:
本文献已被万方数据等数据库收录！

设为首页 | 免责声明 | 关于勤云 | 加入收藏