首页 | 本学科首页   官方微博 | 高级检索  
文章检索
  按 检索   检索词:      
出版年份:   被引次数:   他引次数: 提示:输入*表示无穷大
  免费   0篇
  国内免费   2篇
自动化技术   2篇
  2024年   2篇
排序方式: 共有2条查询结果,搜索用时 0 毫秒
1
1.
最近,强化学习技术在序列推荐系统取得成功,它能从用户长期反馈信号中学习有效的推荐策略.然而,模型的激励函数设计面临区分度过低的难题.这限制了模型学习不同用户反馈信号间的价值差异的能力,并导致推荐策略总是次优的.现有工作主要通过调节衰减因子来保证激励函数区分度,但它依赖专家先验知识缺乏理论基础.为了更合理地设计激励函数和提高其区分度,本文依据因果论来分析推荐系统,并提出一种基于反事实区分度增强的序列推荐算法CAL4Rec.首先,所提出方法用结构因果图描述序列推荐过程,并创造性地用因果图定义了因果可鉴别的价值激励区分度.其次,该方法用反事实生成对抗的自监督学习过程优化推荐策略网络,以学习用户的真实倾向.在一系列序列推荐基准数据集上,对CAL4Rec开展了广泛对比和消融实验,实验结果表明CAL4Rec的提升对多种网络实现结构有效(平均2.34%).  相似文献   
2.
最近,强化学习序列推荐系统受到研究者们的广泛关注,这得益于它能更好地联合建模用户感兴趣的内动态和外倾向。然而,现有方法面临同策略评估方法数据利用率低导致模型依赖大量的专家标注数据和启发式价值激励函数设计依赖反复人工调试两个主要挑战。因此,提出了一种新颖的异策略模仿-强化学习的序列推荐算法COG4Rec,以提高数据利用效率和实现可学习的价值函数。首先,它通过异策略方式更新分布匹配目标函数,来避免同策略更新密集在线交互限制;其次,COG4Rec采用可学习的价值函数设计,通过对数衰减状态分布比模仿用户外倾向的价值激励函数;最后,为了避免模仿学习分布漂移问题,COG4Rec通过累积衰减分布比强化用户行为记录中高价值轨迹片段重组推荐策略。一系列基准数据集上的性能对比实验和消融实验结果表明:COG4Rec比自回归模型提升了17.60%,它比启发式强化学习方法提升了3.25%。这证明了所提模型结构和优化算法的有效性。这也证明可学习的价值函数是可行的,并且异策略方式能有效提高数据利用效率。  相似文献   
1
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号