策略梯度强化学习中的最优回报基线 The Optimal Reward Baseline for Policy-Gradient Reinforcement Learning期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

策略梯度强化学习中的最优回报基线

引用本文：	王学宁,徐昕,吴涛,贺汉根.策略梯度强化学习中的最优回报基线[J].计算机学报,2005,28(6):1021-1026.

作者姓名：	王学宁徐昕吴涛贺汉根

作者单位：	1. 国防科学技术大学自动化研究所,长沙,410073 2. 国防科学技术大学自动化研究所,长沙,410073;国防科学技术大学计算机学院网络技术与信息安全研究所,长沙,410073

基金项目：	国家自然科学基金重点项目(60234030)，青年科学基金项目(60303012)资助.

摘要：	尽管策略梯度强化学习算法有较好的收敛性，但是在梯度估计的过程中方差过大，却是该方法在理论和应用上的一个主要弱点，为减小梯度强化学习算法的方差，该文提出一种新的算法——Istate-Grbp算法：在策略梯度算法Istate-GPOMDP中加入回报基线，以改进策略梯度算法的学习性能，文中证明了在Istate-GPOMDP算法中引入回报基线，不会改变梯度估计的期望值，并且给出了使方差最小的最优回报基线，实验结果表明，和已有算法相比，该文提出的算法通过减小梯度估计的方差，提高了学习效率，加快了学习过程的收敛。
关键词：	强化学习策略梯度部分可观测马氏决策过程回报基线
The Optimal Reward Baseline for Policy-Gradient Reinforcement Learning

WANG Xue-Ning,XU Xin,WU Tao,HE Han-gen.The Optimal Reward Baseline for Policy-Gradient Reinforcement Learning[J].Chinese Journal of Computers,2005,28(6):1021-1026.

Authors:	WANG Xue-Ning XU Xin WU Tao HE Han-gen

Affiliation:	WANG Xue Ning 1) XU Xin 1),2) WU Tao 1) HE Han Gen 1) 1)

Abstract:

Keywords:	reinforcement learning policy gradient partial observable Markov decision process reward baseline
本文献已被 CNKI 维普万方数据等数据库收录！

设为首页 | 免责声明 | 关于勤云 | 加入收藏