基于平均序列累计奖赏的自适应ε-greedy策略 |
| |
引用本文: | 杨彤,秦进.基于平均序列累计奖赏的自适应ε-greedy策略[J].计算机工程与应用,2021,57(11):148-155. |
| |
作者姓名: | 杨彤 秦进 |
| |
作者单位: | 贵州大学 计算机科学与技术学院,贵阳 550025 |
| |
摘 要: | 探索与利用的权衡是强化学习的挑战之一。探索使智能体为进一步改进策略而采取新的动作,而利用使智能体采用历史经验中的信息以最大化累计奖赏。深度强化学习中常用“ε]-greedy”策略处理探索与利用的权衡问题,未考虑影响智能体做出决策的其他因素,具有一定的盲目性。针对此问题提出一种自适应调节探索因子的ε]-greedy策略,该策略依据智能体每完成一次任务所获得的序列累计奖赏值指导智能体进行合理的探索或利用。序列累计奖赏值越大,说明当前智能体所采用的有效动作越多,减小探索因子以便更多地利用历史经验。反之,序列累计奖赏值越小,说明当前策略还有改进的空间,增大探索因子以便探索更多可能的动作。实验结果证明改进的策略在Playing Atari 2600视频游戏中取得了更高的平均奖赏值,说明改进的策略能更好地权衡探索与利用。
|
关 键 词: | 深度强化学习 探索与利用 序列累计奖赏 &epsilon -greedy策略 |
本文献已被 万方数据 等数据库收录! |
| 点击此处可从《计算机工程与应用》浏览原始摘要信息 |
|
点击此处可从《计算机工程与应用》下载全文 |
|