平均奖赏MDP的在策略无模型激励学习算法期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

平均奖赏MDP的在策略无模型激励学习算法

作者姓名：	陈焕文谢丽娟

作者单位：	长沙电子学院数学与计算机系,;长沙电子学院数学与计算机系,

摘要：	本文以随机逼近的形式,提出了一些用于求解平均奖赏Markov决策过程系统方程的在策略无模型激励学习算法,这些算法与广泛且成功应用于折扣奖赏MDP的SARSA（λ）类算法相似,为比较这些新算法的性能,本文还给出了一些初步的实验结果。
关键词：	激励学习 Markov决策过程平均奖赏折扣奖赏动态规划
文章编号：	1007-130X(2001)02-0066-04
本文献已被 CNKI 维普万方数据等数据库收录！
	点击此处可从《计算机工程与科学》浏览原始摘要信息
	点击此处可从《计算机工程与科学》下载全文