基于核方法的连续动作Actor-Critic学习期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

基于核方法的连续动作Actor-Critic学习

引用本文：	陈兴国,高,阳,范顺国,俞亚君.基于核方法的连续动作Actor-Critic学习[J].模式识别与人工智能,2014(2):103-110.

作者姓名：	陈兴国高阳范顺国俞亚君

摘要：	强化学习算法通常要处理连续状态及连续动作空间问题以实现精确控制.就此文中结合Actor-Critic方法在处理连续动作空间的优点及核方法在处理连续状态空间的优势,提出一种基于核方法的连续动作Actor-Critic学习算法(KCACL).该算法中,Actor根据奖赏不作为原则更新动作概率,Critic采用基于核方法的在线选择时间差分算法学习状态值函数.对比实验验证该算法的有效性.
关键词：	强化学习连续动作空间函数估计核方法
本文献已被 CNKI 等数据库收录！