首页 | 本学科首页   官方微博 | 高级检索  
     

平均准则问题的即时差分学习算法
引用本文:胡光华,吴沧浦.平均准则问题的即时差分学习算法[J].自动化学报,2000,26(4):533-536.
作者姓名:胡光华  吴沧浦
作者单位:1.北京理工大学自动控制系,北京
基金项目:国家自然科学基金资助项目.
摘    要:考虑平均准则随机动态规划(SDP)问题的一族在线即时差分(TD)学习算法.在学 习中,平均问题的相对值函数是控制器所要学习的目标函数.所提出的算法是已有的TD(λ) 算法及R-学习算法的一种推广.

关 键 词:即时差分学习    强化学习    动态规划    Monte  Carlo方法
收稿时间:1998-6-23
修稿时间:1998年6月23日

TEMPORAL DIFFERENCE LEARNING ALGORITHMS FOR AVERAGE REWARD PROBLEM
Hu Guanghua,Wu Cangpu.TEMPORAL DIFFERENCE LEARNING ALGORITHMS FOR AVERAGE REWARD PROBLEM[J].Acta Automatica Sinica,2000,26(4):533-536.
Authors:Hu Guanghua  Wu Cangpu
Affiliation:1.Department of Automatic Control,Beijing Institute of Technology,Beijing
Abstract:In this paper, some on-line TD (λ) learning algorithms for average reward stochastic dynamic programming problems are presented. During learning, the relative function is the object to be predicted by the agent. This work is an extension to and generalization of the work on previous TD (λ) methods and R-learning algorithms.
Keywords:Temporal  difference learning  reinforcement learning  dynamic programming  Monte Carlo method  
本文献已被 CNKI 维普 万方数据 等数据库收录!
点击此处可从《自动化学报》浏览原始摘要信息
点击此处可从《自动化学报》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号