基于核方法的连续动作Actor-Critic学习 |
| |
引用本文: | 陈兴国,高,阳,范顺国,俞亚君.基于核方法的连续动作Actor-Critic学习[J].模式识别与人工智能,2014(2):103-110. |
| |
作者姓名: | 陈兴国 高 阳 范顺国 俞亚君 |
| |
摘 要: | 强化学习算法通常要处理连续状态及连续动作空间问题以实现精确控制.就此文中结合Actor-Critic方法在处理连续动作空间的优点及核方法在处理连续状态空间的优势,提出一种基于核方法的连续动作Actor-Critic学习算法(KCACL).该算法中,Actor根据奖赏不作为原则更新动作概率,Critic采用基于核方法的在线选择时间差分算法学习状态值函数.对比实验验证该算法的有效性.
|
关 键 词: | 强化学习 连续动作空间 函数估计 核方法 |
本文献已被 CNKI 等数据库收录! |
|