几种经典的策略梯度算法性能对比期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

几种经典的策略梯度算法性能对比

引用本文：	王辉,于婧.几种经典的策略梯度算法性能对比[J].数字社区&智能家居,2014(29):6937-6941,6944.

作者姓名：	王辉于婧

作者单位：	苏州大学计算机科学与技术学院

摘要：	策略梯度函数是基于直接策略搜索的方法。它把策略参数化,并且估算优化指标相对于策略参数的梯度,然后利用该梯度来调整这些参数,最后可以获得局部最优或者局部最优策略。所以这样得到的策略可以是随机性策略也可是确定性策略。通过自主开发的Gridworld策略梯度实验平台,对经典GPOMDP、NAC和基于TD(λ)的策略梯度算法的收敛性能进行了对比分析。
关键词：	强化学习策略梯度收敛性仿真实验
本文献已被 CNKI 等数据库收录！