一种平衡探索和利用的优先经验回放方法期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

一种平衡探索和利用的优先经验回放方法

引用本文：	张佳能,李辉,吴昊霖,王壮.一种平衡探索和利用的优先经验回放方法[J].计算机科学,2022(5):179-185.

作者姓名：	张佳能李辉吴昊霖王壮

摘要：	经验回放方法可以重用过去的经验来更新目标策略,提高样本的利用率,已经成为深度强化学习的一个重要组成部分.优先经验回放在经验回放的基础上进行选择性采样,期望更好地利用经验样本.但目前的优先经验回放方式会降低从经验缓冲池采样的样本的多样性,使神经网络收敛于局部最优.针对上述问题,提出了一种平衡探索和利用的优先经验回放方法(...
关键词：	强化学习经验回放优先采样利用探索软演员-评论家算法