一种基于线性函数逼近的离策略Q(λ)算法 |
| |
引用本文: | 傅启明,刘,全,王,辉,肖,飞,于,俊,李,娇.一种基于线性函数逼近的离策略Q(λ)算法[J].计算机学报,2014(3):3677-3686. |
| |
作者姓名: | 傅启明 刘 全 王 辉 肖 飞 于 俊 李 娇 |
| |
摘 要: | 将函数逼近用于强化学习是目前机器学习领域的一个新的研究热点.针对传统的基于查询表及函数逼近的Q(λ)学习算法在大规模状态空间中收敛速度慢或者无法收敛的问题,提出一种基于线性函数逼近的离策略Q(λ)算法.该算法通过引入重要性关联因子,在迭代次数逐步增长的过程中,使得在策略与离策略相统一,确保算法的收敛性.同时在保证在策略与离策略的样本数据一致性的前提下,对算法的收敛性给予理论证明.将文中提出的算法用于Baird反例、Mountain-Car及Random Walk仿真平台,实验结果表明,该算法与传统的基于函数逼近的离策略算法相比,具有较好的收敛性;与传统的基于查询表的算法相比,具有更快的收敛速度,且对于状态空间的增长具有较强的鲁棒性.
|
关 键 词: | 强化学习 函数逼近 离策略 Q(λ)算法 机器学习 |
本文献已被 CNKI 等数据库收录! |
|