一种平衡探索和利用的优先经验回放方法 |
| |
引用本文: | 张佳能,李辉,吴昊霖,王壮.一种平衡探索和利用的优先经验回放方法[J].计算机科学,2022(5):179-185. |
| |
作者姓名: | 张佳能 李辉 吴昊霖 王壮 |
| |
摘 要: | 经验回放方法可以重用过去的经验来更新目标策略,提高样本的利用率,已经成为深度强化学习的一个重要组成部分.优先经验回放在经验回放的基础上进行选择性采样,期望更好地利用经验样本.但目前的优先经验回放方式会降低从经验缓冲池采样的样本的多样性,使神经网络收敛于局部最优.针对上述问题,提出了一种平衡探索和利用的优先经验回放方法(...
|
关 键 词: | 强化学习 经验回放 优先采样 利用 探索 软演员-评论家算法 |
|
|