首页 | 本学科首页   官方微博 | 高级检索  
     

平均报酬模型的多步强化学习算法
引用本文:胡光华,吴沧浦.平均报酬模型的多步强化学习算法[J].控制理论与应用,2000,17(5):660-664.
作者姓名:胡光华  吴沧浦
作者单位:北京理工大学自动控制系,北京,100081
基金项目:国家自然科学基金!(6 96 740 0 5 )
摘    要:讨论模型未知的平均报酬强化学习算法。通过结合即时差分学习与R学习算法,将折扣问题中的一些方法推广到了平均准则问题中,提出了两类算法:R(λ)学习。现有的R学习可视为R(λ)学习和TTD(λ)学习当λ=0时的一个特例。仿真结果表明,λ取中间值的R(λ)和TTD(λ)学习比现有的方法在可靠性与收敛速度上均有提高。

关 键 词:R学习  强化学习算法  平均报酬模型  机器学习
修稿时间:1998-10-21

Model-Free Average Reward Multi-step Reinforcement Learning
HU Guanghua,WU Cangpu.Model-Free Average Reward Multi-step Reinforcement Learning[J].Control Theory & Applications,2000,17(5):660-664.
Authors:HU Guanghua  WU Cangpu
Abstract:
Keywords:reinforcement learning  temporal difference learning  Markov decision processes  R-learning
本文献已被 CNKI 维普 万方数据 等数据库收录!
点击此处可从《控制理论与应用》浏览原始摘要信息
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号