几种经典的策略梯度算法性能对比 |
| |
引用本文: | 王辉,于婧.几种经典的策略梯度算法性能对比[J].数字社区&智能家居,2014(29):6937-6941,6944. |
| |
作者姓名: | 王辉 于婧 |
| |
作者单位: | 苏州大学计算机科学与技术学院 |
| |
摘 要: | 策略梯度函数是基于直接策略搜索的方法。它把策略参数化,并且估算优化指标相对于策略参数的梯度,然后利用该梯度来调整这些参数,最后可以获得局部最优或者局部最优策略。所以这样得到的策略可以是随机性策略也可是确定性策略。通过自主开发的Gridworld策略梯度实验平台,对经典GPOMDP、NAC和基于TD(λ)的策略梯度算法的收敛性能进行了对比分析。
|
关 键 词: | 强化学习 策略梯度 收敛性 仿真实验 |
本文献已被 CNKI 等数据库收录! |
|