首页 | 本学科首页   官方微博 | 高级检索  
     

策略梯度强化学习中的最优回报基线
引用本文:王学宁,徐昕,吴涛,贺汉根.策略梯度强化学习中的最优回报基线[J].计算机学报,2005,28(6):1021-1026.
作者姓名:王学宁  徐昕  吴涛  贺汉根
作者单位:1. 国防科学技术大学自动化研究所,长沙,410073
2. 国防科学技术大学自动化研究所,长沙,410073;国防科学技术大学计算机学院网络技术与信息安全研究所,长沙,410073
基金项目:国家自然科学基金重点项目(60234030),青年科学基金项目(60303012)资助.
摘    要:尽管策略梯度强化学习算法有较好的收敛性,但是在梯度估计的过程中方差过大,却是该方法在理论和应用上的一个主要弱点,为减小梯度强化学习算法的方差,该文提出一种新的算法——Istate-Grbp算法:在策略梯度算法Istate-GPOMDP中加入回报基线,以改进策略梯度算法的学习性能,文中证明了在Istate-GPOMDP算法中引入回报基线,不会改变梯度估计的期望值,并且给出了使方差最小的最优回报基线,实验结果表明,和已有算法相比,该文提出的算法通过减小梯度估计的方差,提高了学习效率,加快了学习过程的收敛。

关 键 词:强化学习  策略梯度  部分可观测马氏决策过程  回报基线

The Optimal Reward Baseline for Policy-Gradient Reinforcement Learning
WANG Xue-Ning,XU Xin,WU Tao,HE Han-gen.The Optimal Reward Baseline for Policy-Gradient Reinforcement Learning[J].Chinese Journal of Computers,2005,28(6):1021-1026.
Authors:WANG Xue-Ning  XU Xin  WU Tao  HE Han-gen
Affiliation:WANG Xue Ning 1) XU Xin 1),2) WU Tao 1) HE Han Gen 1) 1)
Abstract:
Keywords:reinforcement learning  policy gradient  partial observable Markov decision process  reward baseline
本文献已被 CNKI 维普 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号