基于经验指导的深度确定性多行动者-评论家算法 |
| |
引用本文: | 陈红名, 刘全, 闫岩, 何斌, 姜玉斌, 张琳琳. 基于经验指导的深度确定性多行动者-评论家算法[J]. 计算机研究与发展, 2019, 56(8): 1708-1720. DOI: 10.7544/issn1000-1239.2019.20190155 |
| |
作者姓名: | 陈红名 刘全 闫岩 何斌 姜玉斌 张琳琳 |
| |
作者单位: | 1(苏州大学计算机科学与技术学院 江苏苏州 215006);2(江苏省计算机信息处理技术重点实验室(苏州大学) 江苏苏州 215006);3(符号计算与知识工程教育部重点实验室(吉林大学) 长春 130012);4(软件新技术与产业化协同创新中心 南京 210000) (20174227007@stu.suda.edu.cn) |
| |
基金项目: | 国家自然科学基金;国家自然科学基金;国家自然科学基金;国家自然科学基金;国家自然科学基金;江苏省高等学校自然科学研究重大项目;江苏省高等学校自然科学研究重大项目;苏州市应用基础研究计划 |
| |
摘 要: | 连续控制问题一直是强化学习研究的一个重要方向.近些年深度学习的发展以及确定性策略梯度(deterministic policy gradients, DPG)算法的提出,为解决连续控制问题提供了很多好的思路.这类方法大多在动作空间中加入外部噪声源进行探索,但是它们在一些连续控制任务中的表现并不是很好.为更好地解决探索问题,提出了一种基于经验指导的深度确定性多行动者-评论家算法(experience-guided deep deterministic actor-critic with multi-actor, EGDDAC-MA),该算法不需要外部探索噪声,而是从自身优秀经验中学习得到一个指导网络,对动作选择和值函数的更新进行指导.此外,为了缓解网络学习的波动性,算法使用多行动者-评论家模型,模型中的多个行动者网络之间互不干扰,各自执行情节的不同阶段.实验表明:相比于DDPG,TRPO和PPO算法,EGDDAC-MA算法在GYM仿真平台中的大多数连续任务中有更好的表现.
|
关 键 词: | 强化学习 深度强化学习 确定性行动者-评论家 经验指导 专家指导 多行动者 |
本文献已被 维普 万方数据 等数据库收录! |
| 点击此处可从《计算机研究与发展》浏览原始摘要信息 |
|
点击此处可从《计算机研究与发展》下载免费的PDF全文 |
|