首页 | 本学科首页   官方微博 | 高级检索  
     

基于SMDP环境的自主生成options算法的研究
引用本文:苏畅,高阳,陈世福,陈兆乾.基于SMDP环境的自主生成options算法的研究[J].模式识别与人工智能,2005,18(6).
作者姓名:苏畅  高阳  陈世福  陈兆乾
作者单位:南京大学,计算机软件新技术国家重点实验室,南京,210093
基金项目:中国科学院资助项目,科技部科研项目,国家自然科学基金,江苏省创新人才基金
摘    要:options是一种与SMDP模型紧密相关的引入时间抽象的强化学习算法,该算法一个重要且仍待解决的问题是如何能使agent自主找到合适的options.本文首先提出了一种基于访问落差变化率的子目标找寻算法,该算法克服了现有算法的低精确性和部分依赖人为因素的弊病.然后在该算法的基础上,提出了构造options的算法流程,并把这-算法运用于迷宫问题之中.实验结果表明利用实验生成的options可以大大加快学习的效率.

关 键 词:强化学习  马尔可夫决策过程  抉择  半马尔可夫决策过程  子目标

The Study of Recognizing Options Based on SMDP
SU Chang,GAO Yang,CHEN Shi-Fu,CHEN Zhao-Qian.The Study of Recognizing Options Based on SMDP[J].Pattern Recognition and Artificial Intelligence,2005,18(6).
Authors:SU Chang  GAO Yang  CHEN Shi-Fu  CHEN Zhao-Qian
Abstract:
Keywords:
本文献已被 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号