平均准则问题的即时差分学习算法 TEMPORAL DIFFERENCE LEARNING ALGORITHMS FOR AVERAGE REWARD PROBLEM期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

平均准则问题的即时差分学习算法

引用本文：	胡光华,吴沧浦.平均准则问题的即时差分学习算法[J].自动化学报,2000,26(4):533-536.

作者姓名：	胡光华吴沧浦

作者单位：	1.北京理工大学自动控制系,北京

基金项目：	国家自然科学基金资助项目.

摘要：	考虑平均准则随机动态规划(SDP)问题的一族在线即时差分(TD)学习算法.在学习中,平均问题的相对值函数是控制器所要学习的目标函数.所提出的算法是已有的TD(λ) 算法及R-学习算法的一种推广.
关键词：	即时差分学习强化学习动态规划 Monte Carlo方法
收稿时间：	1998-6-23
修稿时间：	1998年6月23日
TEMPORAL DIFFERENCE LEARNING ALGORITHMS FOR AVERAGE REWARD PROBLEM

Hu Guanghua,Wu Cangpu.TEMPORAL DIFFERENCE LEARNING ALGORITHMS FOR AVERAGE REWARD PROBLEM[J].Acta Automatica Sinica,2000,26(4):533-536.

Authors:	Hu Guanghua Wu Cangpu

Affiliation:	1.Department of Automatic Control,Beijing Institute of Technology,Beijing

Abstract:	In this paper, some on-line TD (λ) learning algorithms for average reward stochastic dynamic programming problems are presented. During learning, the relative function is the object to be predicted by the agent. This work is an extension to and generalization of the work on previous TD (λ) methods and R-learning algorithms.

Keywords:	Temporal difference learning reinforcement learning dynamic programming Monte Carlo method
本文献已被 CNKI 维普万方数据等数据库收录！
	点击此处可从《自动化学报》浏览原始摘要信息
	点击此处可从《自动化学报》下载全文

设为首页 | 免责声明 | 关于勤云 | 加入收藏