首页 | 本学科首页   官方微博 | 高级检索  
     

效用驱动的Markov强化学习
引用本文:韩伟. 效用驱动的Markov强化学习[J]. 计算机工程与应用, 2009, 45(4): 42-44. DOI: 10.3778/j.issn.1002-8331.2009.04.012
作者姓名:韩伟
作者单位:南京财经大学,信息工程学院,南京,210046
基金项目:国家自然科学基金,国家高技术研究发展计划(863计划),南京财经大学校级课题,江苏省青蓝工程项目 
摘    要:对智能体Q强化学习方法进行了扩展,讨论效用驱动的Markov强化学习问题。与单吸收状态相比,学习过程不再是状态驱动,而是效用驱动的。智能体的学习将不再与特定的目标状态相联系,而是最大化每步的平均期望收益,即最大化一定步数内的收益总和,因此学习结果是一个平均收益最大的最优循环。证明了多吸收状态下强化学习的收敛性,将栅格图像看作具有多个吸收状态的格子世界,测试了确定性环境下多吸收状态Q学习的有效性。

关 键 词:强化学习  智能体  Markov决策过程
收稿时间:2008-01-10
修稿时间:2008-3-31 

Markov reinforcement learning driven by utility
HAN Wei. Markov reinforcement learning driven by utility[J]. Computer Engineering and Applications, 2009, 45(4): 42-44. DOI: 10.3778/j.issn.1002-8331.2009.04.012
Authors:HAN Wei
Affiliation:College of Information Science,Nanjing University of Finance and Economics,Nanjing 210046,China
Abstract:This paper puts forward an extended model of Q learning and discusses a utility-drive Markov reinforcement learning.Compared with learning algorithm with single absorbed states,the learning target is not a state but to maximize the averaged utilities of agent in each decision process.The learning result is always a circle which lets agent acquire maximal rewards.Convergence of Q-learning is proved and the simulations in image grids indicates the learning result is a circle.
Keywords:reinforcement learning  intelligent agent  Markov decision process
本文献已被 CNKI 维普 万方数据 等数据库收录!
点击此处可从《计算机工程与应用》浏览原始摘要信息
点击此处可从《计算机工程与应用》下载免费的PDF全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号