基于经验指导的深度确定性多行动者-评论家算法期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

基于经验指导的深度确定性多行动者-评论家算法

引用本文：	陈红名, 刘全, 闫岩, 何斌, 姜玉斌, 张琳琳. 基于经验指导的深度确定性多行动者-评论家算法[J]. 计算机研究与发展, 2019, 56(8): 1708-1720. DOI: 10.7544/issn1000-1239.2019.20190155

作者姓名：	陈红名刘全闫岩何斌姜玉斌张琳琳

作者单位：	¹(苏州大学计算机科学与技术学院江苏苏州 215006);²(江苏省计算机信息处理技术重点实验室(苏州大学) 江苏苏州 215006);³(符号计算与知识工程教育部重点实验室(吉林大学) 长春 130012);⁴(软件新技术与产业化协同创新中心南京 210000) (20174227007@stu.suda.edu.cn)

基金项目：	国家自然科学基金;国家自然科学基金;国家自然科学基金;国家自然科学基金;国家自然科学基金;江苏省高等学校自然科学研究重大项目;江苏省高等学校自然科学研究重大项目;苏州市应用基础研究计划

摘要：	连续控制问题一直是强化学习研究的一个重要方向.近些年深度学习的发展以及确定性策略梯度(deterministic policy gradients, DPG)算法的提出,为解决连续控制问题提供了很多好的思路.这类方法大多在动作空间中加入外部噪声源进行探索,但是它们在一些连续控制任务中的表现并不是很好.为更好地解决探索问题,提出了一种基于经验指导的深度确定性多行动者-评论家算法(experience-guided deep deterministic actor-critic with multi-actor, EGDDAC-MA),该算法不需要外部探索噪声,而是从自身优秀经验中学习得到一个指导网络,对动作选择和值函数的更新进行指导.此外,为了缓解网络学习的波动性,算法使用多行动者-评论家模型,模型中的多个行动者网络之间互不干扰,各自执行情节的不同阶段.实验表明：相比于DDPG,TRPO和PPO算法,EGDDAC-MA算法在GYM仿真平台中的大多数连续任务中有更好的表现.
关键词：	强化学习深度强化学习确定性行动者-评论家经验指导专家指导多行动者
本文献已被维普万方数据等数据库收录！
	点击此处可从《计算机研究与发展》浏览原始摘要信息
	点击此处可从《计算机研究与发展》下载免费的PDF全文

设为首页 | 免责声明 | 关于勤云 | 加入收藏