首页 | 本学科首页   官方微博 | 高级检索  
     

几种经典的策略梯度算法性能对比
引用本文:王辉,于婧.几种经典的策略梯度算法性能对比[J].数字社区&智能家居,2014(29):6937-6941,6944.
作者姓名:王辉  于婧
作者单位:苏州大学计算机科学与技术学院
摘    要:策略梯度函数是基于直接策略搜索的方法。它把策略参数化,并且估算优化指标相对于策略参数的梯度,然后利用该梯度来调整这些参数,最后可以获得局部最优或者局部最优策略。所以这样得到的策略可以是随机性策略也可是确定性策略。通过自主开发的Gridworld策略梯度实验平台,对经典GPOMDP、NAC和基于TD(λ)的策略梯度算法的收敛性能进行了对比分析。

关 键 词:强化学习  策略梯度  收敛性  仿真实验
本文献已被 CNKI 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号