融合好奇心和策略蒸馏的稀疏奖励探索机制 |
| |
作者姓名: | 王子腾 于亚新 夏子芳 乔佳琪 |
| |
作者单位: | 1. 东北大学计算机科学与工程学院;2. 医学影像智能计算教育部重点实验室(东北大学) |
| |
基金项目: | 国家自然科学基金资助项目(61871106,61973059)~~; |
| |
摘 要: | 深度强化学习算法在奖励稀疏的环境下,难以通过与环境的交互学习到最优策略,因此需要构建内在奖励指导策略进行探索更新。然而,这样仍存在一些问题:1)状态分类存在的统计失准问题会造成奖励值大小被误判,使智能体(agent)学习到错误行为;2)由于预测网络识别状态信息的能力较强,内在奖励产生状态的新鲜感下降,影响了最优策略的学习效果;3)由于随机状态转移,教师策略的信息未被有效利用,降低了智能体的环境探索能力。为了解决以上问题,提出一种融合随机生成网络预测误差与哈希离散化统计的奖励构建机制RGNP-HCE(Randomly Generated Network Prediction and Hash Count Exploration),并通过蒸馏(distillation)将多教师策略的知识迁移到学生策略中。RGNP-HCE机制采用好奇心分类思想构建融合奖励:一方面在多回合间以随机生成网络预测差构建全局好奇心奖励;另一方面在单回合内以哈希离散化统计构建局部好奇心奖励,从而保证内在奖励的合理性以及策略梯度更新的正确性。此外,将多个教师策略学习到的知识通过蒸馏迁移到学生策略中,有效提升学生策略的环...
|
关 键 词: | 奖励稀疏 内在奖励 探索能力 策略蒸馏 深度强化学习 |
|
|