基于情节经验回放的深度确定性策略梯度方法 Deep Deterministic Policy Gradient with Episode Experience Replay期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

基于情节经验回放的深度确定性策略梯度方法

引用本文：	张建行,刘全. 基于情节经验回放的深度确定性策略梯度方法[J]. 计算机科学, 2021, 48(10): 37-43. DOI: 10.11896/jsjkx.200900208

作者姓名：	张建行刘全

作者单位：	苏州大学计算机科学与技术学院江苏苏州215006;苏州大学计算机科学与技术学院江苏苏州215006;苏州大学江苏省计算机信息处理技术重点实验室江苏苏州215006;吉林大学符号计算与知识工程教育部重点实验室长春 130012;软件新技术与产业化协同创新中心南京210000

摘要：	强化学习中的连续控制问题一直是近年来的研究热点.深度确定性策略梯度(Deep Deterministic Policy Gradients,DDPG)算法在连续控制任务中表现优异.DDPG算法利用经验回放机制训练网络模型,为了进一步提高经验回放机制在DDPG算法中的效率,将情节累积回报作为样本分类依据,提出一种基于情节...
关键词：	深度确定性策略梯度连续控制任务经验回放累积回报分类经验回放
Deep Deterministic Policy Gradient with Episode Experience Replay

ZHANG Jian-hang,LIU Quan. Deep Deterministic Policy Gradient with Episode Experience Replay[J]. Computer Science, 2021, 48(10): 37-43. DOI: 10.11896/jsjkx.200900208

Authors:	ZHANG Jian-hang LIU Quan

Abstract:

Keywords:
本文献已被万方数据等数据库收录！