效用驱动的Markov强化学习期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

效用驱动的Markov强化学习

作者姓名：	韩伟

作者单位：	南京财经大学,信息工程学院,南京,210046

基金项目：	国家自然科学基金,国家高技术研究发展计划(863计划),南京财经大学校级课题,江苏省青蓝工程项目

摘要：	对智能体Q强化学习方法进行了扩展,讨论效用驱动的Markov强化学习问题。与单吸收状态相比,学习过程不再是状态驱动,而是效用驱动的。智能体的学习将不再与特定的目标状态相联系,而是最大化每步的平均期望收益,即最大化一定步数内的收益总和,因此学习结果是一个平均收益最大的最优循环。证明了多吸收状态下强化学习的收敛性,将栅格图像看作具有多个吸收状态的格子世界,测试了确定性环境下多吸收状态Q学习的有效性。
关键词：	强化学习智能体 Markov决策过程
收稿时间：	2008-01-10
修稿时间：	2008-3-31
本文献已被 CNKI 维普万方数据等数据库收录！
	点击此处可从《计算机工程与应用》浏览原始摘要信息
	点击此处可从《计算机工程与应用》下载全文