首页 | 本学科首页   官方微博 | 高级检索  
     

异策略模仿-强化学习序列推荐算法
作者姓名:刘珈麟  贺泽宇  李俊
作者单位:中国科学院计算机网络信息中心,北京信息科技大学计算机学院,中国科学院计算机网络信息中心
基金项目:国家自然科学基金资助项目(61672490,61602436);中国科学院对外合作重点项目(241711KYSB20180002);国家重大研发计划子课题(2022YFC3320900)
摘    要:最近,强化学习序列推荐系统受到研究者们的广泛关注,这得益于它能更好地联合建模用户感兴趣的内动态和外倾向。然而,现有方法面临同策略评估方法数据利用率低导致模型依赖大量的专家标注数据和启发式价值激励函数设计依赖反复人工调试两个主要挑战。因此,提出了一种新颖的异策略模仿-强化学习的序列推荐算法COG4Rec,以提高数据利用效率和实现可学习的价值函数。首先,它通过异策略方式更新分布匹配目标函数,来避免同策略更新密集在线交互限制;其次,COG4Rec采用可学习的价值函数设计,通过对数衰减状态分布比模仿用户外倾向的价值激励函数;最后,为了避免模仿学习分布漂移问题,COG4Rec通过累积衰减分布比强化用户行为记录中高价值轨迹片段重组推荐策略。一系列基准数据集上的性能对比实验和消融实验结果表明:COG4Rec比自回归模型提升了17.60%,它比启发式强化学习方法提升了3.25%。这证明了所提模型结构和优化算法的有效性。这也证明可学习的价值函数是可行的,并且异策略方式能有效提高数据利用效率。

关 键 词:异策略评估   模仿学习   逆强化学习   序列推荐
收稿时间:2023-10-08
修稿时间:2023-12-09
点击此处可从《计算机应用研究》浏览原始摘要信息
点击此处可从《计算机应用研究》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号