首页 | 本学科首页   官方微博 | 高级检索  
     

基于测地高斯基函数的递归最小二乘策略迭代
引用本文:王雪松,张政,程玉虎,张依阳. 基于测地高斯基函数的递归最小二乘策略迭代[J]. 信息与控制, 2009, 38(4): 1-1
作者姓名:王雪松  张政  程玉虎  张依阳
作者单位:1. 中国矿业大学信息与电气工程学院,江苏,徐州,221116;中国科学院自动化研究所复杂系统与智能科学重点实验室,北京,100190
2. 中国矿业大学信息与电气工程学院,江苏,徐州,221116
基金项目:教育部新世纪优秀人才支持计划,国家自然科学基金资助项目,江苏省自然科学基金资助项目,高等学校博士学科点专项科研基金资助项目,中国科学院自动化研究所复杂系统与智能科学重点实验室开放课题 
摘    要:在策略迭代结强化学习方法的值函数逼近过程中,基函数的合理选择直接影响方法的性能.为更好地描述环境的拓扑关系,采用测地线距离来替换普通高斯函数中的欧氏距离,提出一种基于测地高斯基函数的策略迭代强化学习方法.首先,基于马尔可夫决策过程抽样得到的样本数据建立环境的图论描述.其次,在图上定义测地高斯基函数,并用基于最短路径快速算法得到的最短路径来逼近测地线距离.然后,假定强化学习系统的状态—动作值函数是给定测地高斯基函数的加权组合,采用递归最小二乘方法对权值进行在线增量式更新.最后,基于估计的值函数进行策略改进.10£10 和20£20 迷宫问题的仿真结果验证了所提策略迭代方法的有效性.

关 键 词:策略迭代  递归最小二乘  图论  测地距离  高斯函数  基函数

Recursive Least Squares Policy Iteration Based on Geodesic Gaussian Basis Function
WANG Xue-song,ZHANG Zheng,CHENG Yu-hu,ZHANG Yi-yang. Recursive Least Squares Policy Iteration Based on Geodesic Gaussian Basis Function[J]. Information and Control, 2009, 38(4): 1-1
Authors:WANG Xue-song  ZHANG Zheng  CHENG Yu-hu  ZHANG Yi-yang
Abstract:
Keywords:
本文献已被 万方数据 等数据库收录!
点击此处可从《信息与控制》浏览原始摘要信息
点击此处可从《信息与控制》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号