首页 | 本学科首页   官方微博 | 高级检索  
     

平均奖赏MDP的在策略无模型激励学习算法
引用本文:陈焕文,谢丽娟. 平均奖赏MDP的在策略无模型激励学习算法[J]. 计算机工程与科学, 2001, 23(2): 66-69
作者姓名:陈焕文  谢丽娟
作者单位:长沙电子学院数学与计算机系,
摘    要:本文以随机逼近的形式,提出了一些用于求解平均奖赏Markov决策过程系统方程的在策略无模型激励学习算法,这些算法与广泛且成功应用于折扣奖赏MDP的SARSA(λ)类算法相似,为比较这些新算法的性能,本文还给出了一些初步的实验结果。

关 键 词:激励学习 Markov决策过程 平均奖赏 折扣奖赏 人工智能
文章编号:1007-130X(2001)02-0066-04

On-Policy Modeless Reinforcement Learning Algorithms for Average-Payoff MDPs
CHEN Huan-wen,XIE Li-juan. On-Policy Modeless Reinforcement Learning Algorithms for Average-Payoff MDPs[J]. Computer Engineering & Science, 2001, 23(2): 66-69
Authors:CHEN Huan-wen  XIE Li-juan
Abstract:New on-policy modeless average-pa yoff reinforcement learning algorithms are derived as stochastic approximation m ethods for solving the system of equations in average-payoff Markov decision pr ocesses.These algorithms are analogous to the popular SARSA(λ) learning algorit hms already used in the discounted-payoff case.Preliminary empirical resu lts are presented to validate these new algorithms.
Keywords:reinforcement learning  Markov decision process(MDP)  average payoff  discounted payoff  dynamic programming(DP)
本文献已被 CNKI 维普 万方数据 等数据库收录!
点击此处可从《计算机工程与科学》浏览原始摘要信息
点击此处可从《计算机工程与科学》下载免费的PDF全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号