首页 | 本学科首页   官方微博 | 高级检索  
     

平均报酬模型强化学习理论、算法及应用
作者姓名:黄炳强  曹广益  李建华
作者单位:上海交通大学自动化系,上海,200030;华东理工大学计算机系,上海,200237
摘    要:折扣报酬模型强化学习是目前强化学习研究的主流,但折扣因子的选取使得近期期望报酬的影响大于远期期望报酬的影响,而有时候较大远期期望报酬的策略有可能是最优的,因此比较合理的方法是采用平均报酬模型强化学习。该文介绍了平均报酬模型强化学习的两个主要算法以及主要应用。

关 键 词:平均报酬强化学习  R学习  H学习
文章编号:1000-3428(2007)18-0018-02
修稿时间:2006-09-26
本文献已被 CNKI 维普 万方数据 等数据库收录!
点击此处可从《计算机工程》浏览原始摘要信息
点击此处可从《计算机工程》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号