首页 | 本学科首页   官方微博 | 高级检索  
     

一种基于线性函数逼近的离策略Q(λ)算法
引用本文:傅启明,刘,全,王,辉,肖,飞,于,俊,李,娇.一种基于线性函数逼近的离策略Q(λ)算法[J].计算机学报,2014(3):3677-3686.
作者姓名:傅启明                    
摘    要:将函数逼近用于强化学习是目前机器学习领域的一个新的研究热点.针对传统的基于查询表及函数逼近的Q(λ)学习算法在大规模状态空间中收敛速度慢或者无法收敛的问题,提出一种基于线性函数逼近的离策略Q(λ)算法.该算法通过引入重要性关联因子,在迭代次数逐步增长的过程中,使得在策略与离策略相统一,确保算法的收敛性.同时在保证在策略与离策略的样本数据一致性的前提下,对算法的收敛性给予理论证明.将文中提出的算法用于Baird反例、Mountain-Car及Random Walk仿真平台,实验结果表明,该算法与传统的基于函数逼近的离策略算法相比,具有较好的收敛性;与传统的基于查询表的算法相比,具有更快的收敛速度,且对于状态空间的增长具有较强的鲁棒性.

关 键 词:强化学习  函数逼近  离策略  Q(λ)算法  机器学习
本文献已被 CNKI 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号