平均报酬模型的多步强化学习算法 Model-Free Average Reward Multi-step Reinforcement Learning期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

平均报酬模型的多步强化学习算法

引用本文：	胡光华,吴沧浦.平均报酬模型的多步强化学习算法[J].控制理论与应用,2000,17(5):660-664.

作者姓名：	胡光华吴沧浦

作者单位：	北京理工大学自动控制系,北京,100081

基金项目：	国家自然科学基金!(6 96 740 0 5 )

摘要：	讨论模型未知的平均报酬强化学习算法。通过结合即时差分学习与Ｒ学习算法，将折扣问题中的一些方法推广到了平均准则问题中，提出了两类算法：Ｒ（λ）学习。现有的Ｒ学习可视为Ｒ（λ）学习和ＴＴＤ（λ）学习当λ＝０时的一个特例。仿真结果表明，λ取中间值的Ｒ（λ）和ＴＴＤ（λ）学习比现有的方法在可靠性与收敛速度上均有提高。
关键词：	R学习强化学习算法平均报酬模型机器学习
修稿时间：	1998-10-21
Model-Free Average Reward Multi-step Reinforcement Learning

HU Guanghua,WU Cangpu.Model-Free Average Reward Multi-step Reinforcement Learning[J].Control Theory & Applications,2000,17(5):660-664.

Authors:	HU Guanghua WU Cangpu

Abstract:

Keywords:	reinforcement learning temporal difference learning Markov decision processes R-learning
本文献已被 CNKI 维普万方数据等数据库收录！
	点击此处可从《控制理论与应用》浏览原始摘要信息