平均报酬模型强化学习理论、算法及应用期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

平均报酬模型强化学习理论、算法及应用

作者姓名：	黄炳强曹广益李建华

作者单位：	上海交通大学自动化系,上海,200030;华东理工大学计算机系,上海,200237

摘要：	折扣报酬模型强化学习是目前强化学习研究的主流,但折扣因子的选取使得近期期望报酬的影响大于远期期望报酬的影响,而有时候较大远期期望报酬的策略有可能是最优的,因此比较合理的方法是采用平均报酬模型强化学习。该文介绍了平均报酬模型强化学习的两个主要算法以及主要应用。
关键词：	平均报酬强化学习 R学习 H学习
文章编号：	1000-3428（2007）18-0018-02
修稿时间：	2006-09-26
本文献已被 CNKI 维普万方数据等数据库收录！
	点击此处可从《计算机工程》浏览原始摘要信息
	点击此处可从《计算机工程》下载全文