首页 | 本学科首页   官方微博 | 高级检索  
     

平均奖赏MDP的在策略无模型激励学习算法
作者姓名:陈焕文  谢丽娟
作者单位:长沙电子学院数学与计算机系,;长沙电子学院数学与计算机系,
摘    要:本文以随机逼近的形式,提出了一些用于求解平均奖赏Markov决策过程系统方程的在策略无模型激励学习算法,这些算法与广泛且成功应用于折扣奖赏MDP的SARSA(λ)类算法相似,为比较这些新算法的性能,本文还给出了一些初步的实验结果。

关 键 词:激励学习  Markov决策过程  平均奖赏  折扣奖赏  动态规划
文章编号:1007-130X(2001)02-0066-04
本文献已被 CNKI 维普 万方数据 等数据库收录!
点击此处可从《计算机工程与科学》浏览原始摘要信息
点击此处可从《计算机工程与科学》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号