一种基于线性函数逼近的离策略Q(λ)算法期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

一种基于线性函数逼近的离策略Q(λ)算法

引用本文：	傅启明,刘,全,王,辉,肖,飞,于,俊,李,娇.一种基于线性函数逼近的离策略Q(λ)算法[J].计算机学报,2014(3):3677-3686.

作者姓名：	傅启明刘全王辉肖飞于俊李娇

摘要：	将函数逼近用于强化学习是目前机器学习领域的一个新的研究热点.针对传统的基于查询表及函数逼近的Q(λ)学习算法在大规模状态空间中收敛速度慢或者无法收敛的问题,提出一种基于线性函数逼近的离策略Q(λ)算法.该算法通过引入重要性关联因子,在迭代次数逐步增长的过程中,使得在策略与离策略相统一,确保算法的收敛性.同时在保证在策略与离策略的样本数据一致性的前提下,对算法的收敛性给予理论证明.将文中提出的算法用于Baird反例、Mountain-Car及Random Walk仿真平台,实验结果表明,该算法与传统的基于函数逼近的离策略算法相比,具有较好的收敛性;与传统的基于查询表的算法相比,具有更快的收敛速度,且对于状态空间的增长具有较强的鲁棒性.
关键词：	强化学习函数逼近离策略 Q(λ)算法机器学习
本文献已被 CNKI 等数据库收录！