平均奖赏MDP的在策略无模型激励学习算法 On-Policy Modeless Reinforcement Learning Algorithms for Average-Payoff MDPs期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

平均奖赏MDP的在策略无模型激励学习算法

引用本文：	陈焕文,谢丽娟. 平均奖赏MDP的在策略无模型激励学习算法[J]. 计算机工程与科学, 2001, 23(2): 66-69

作者姓名：	陈焕文谢丽娟

作者单位：	长沙电子学院数学与计算机系,

摘要：	本文以随机逼近的形式，提出了一些用于求解平均奖赏Markov决策过程系统方程的在策略无模型激励学习算法，这些算法与广泛且成功应用于折扣奖赏MDP的SARSA（λ）类算法相似，为比较这些新算法的性能，本文还给出了一些初步的实验结果。
关键词：	激励学习 Markov决策过程平均奖赏折扣奖赏人工智能
文章编号：	1007-130X(2001)02-0066-04
On-Policy Modeless Reinforcement Learning Algorithms for Average-Payoff MDPs

CHEN Huan-wen,XIE Li-juan. On-Policy Modeless Reinforcement Learning Algorithms for Average-Payoff MDPs[J]. Computer Engineering & Science, 2001, 23(2): 66-69

Authors:	CHEN Huan-wen XIE Li-juan

Abstract:	New on-policy modeless average-pa yoff reinforcement learning algorithms are derived as stochastic approximation m ethods for solving the system of equations in average-payoff Markov decision pr ocesses.These algorithms are analogous to the popular SARSA(λ) learning algorit hms already used in the discounted-payoff case.Preliminary empirical resu lts are presented to validate these new algorithms.

Keywords:	reinforcement learning Markov decision process(MDP) average payoff discounted payoff dynamic programming(DP)
本文献已被 CNKI 维普万方数据等数据库收录！
	点击此处可从《计算机工程与科学》浏览原始摘要信息
	点击此处可从《计算机工程与科学》下载免费的PDF全文

设为首页 | 免责声明 | 关于勤云 | 加入收藏