基于自适应势函数塑造奖赏机制的梯度下降Sarsa(λ)算法 |
| |
作者姓名: | 肖 飞 刘 全 傅启明 孙洪坤 高 龙 |
| |
作者单位: | 苏州大学计算机科学与技术学院;吉林大学符号计算与知识工程教育部重点实验室 |
| |
基金项目: | 国家自然科学基金资助项目(61070223,61103045,61070122,61272005);江苏省自然科学基金资助项目(BK2012616);江苏省高校自然科学研究基金资助项目(09KJA520002,09KJB520012);吉林大学符号计算与知识工程教育部重点实验室基金资助项目(93K172012K04)~~ |
| |
摘 要: | 针对连续状态空间下的强化学习算法初始性能差及收敛速度慢的问题,提出利用自适应势函数塑造奖赏机制来改进强化学习算法。该机制通过额外的奖赏信号自适应地将模型知识传递给学习器,可以有效提高算法的初始性能及收敛速度。鉴于径向基函数(RBF)网络的优良性能及存在的问题,提出利用自适应归一化RBF(ANRBF)网络作为势函数来塑造奖赏。基于ANRBF网络提出了梯度下降(GD)版的强化学习算法——ANRBF-GD-Sarsa(λ)。从理论上分析了ANRBF-GD-Sarsa(λ)算法的收敛性,并通过实验验证了ANRBF-GD-Sarsa(λ)算法具有较好的初始性能及收敛速度。
|
关 键 词: | 强化学习 Sarsa(λ) 梯度下降 势函数 塑造奖赏 |
本文献已被 CNKI 等数据库收录! |
| 点击此处可从《通信学报》浏览原始摘要信息 |
|
点击此处可从《通信学报》下载全文 |
|