基于测地高斯基函数的递归最小二乘策略迭代 Recursive Least Squares Policy Iteration Based on Geodesic Gaussian Basis Function期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

基于测地高斯基函数的递归最小二乘策略迭代

引用本文：	王雪松,张政,程玉虎,张依阳. 基于测地高斯基函数的递归最小二乘策略迭代[J]. 信息与控制, 2009, 38(4): 1-1

作者姓名：	王雪松张政程玉虎张依阳

作者单位：	1. 中国矿业大学信息与电气工程学院,江苏,徐州,221116;中国科学院自动化研究所复杂系统与智能科学重点实验室,北京,100190 2. 中国矿业大学信息与电气工程学院,江苏,徐州,221116

基金项目：	教育部新世纪优秀人才支持计划，国家自然科学基金资助项目，江苏省自然科学基金资助项目，高等学校博士学科点专项科研基金资助项目，中国科学院自动化研究所复杂系统与智能科学重点实验室开放课题

摘要：	在策略迭代结强化学习方法的值函数逼近过程中，基函数的合理选择直接影响方法的性能．为更好地描述环境的拓扑关系，采用测地线距离来替换普通高斯函数中的欧氏距离，提出一种基于测地高斯基函数的策略迭代强化学习方法．首先，基于马尔可夫决策过程抽样得到的样本数据建立环境的图论描述．其次，在图上定义测地高斯基函数，并用基于最短路径快速算法得到的最短路径来逼近测地线距离．然后，假定强化学习系统的状态—动作值函数是给定测地高斯基函数的加权组合，采用递归最小二乘方法对权值进行在线增量式更新．最后，基于估计的值函数进行策略改进．10￡10 和20￡20 迷宫问题的仿真结果验证了所提策略迭代方法的有效性．
关键词：	策略迭代递归最小二乘图论测地距离高斯函数基函数
Recursive Least Squares Policy Iteration Based on Geodesic Gaussian Basis Function

WANG Xue-song,ZHANG Zheng,CHENG Yu-hu,ZHANG Yi-yang. Recursive Least Squares Policy Iteration Based on Geodesic Gaussian Basis Function[J]. Information and Control, 2009, 38(4): 1-1

Authors:	WANG Xue-song ZHANG Zheng CHENG Yu-hu ZHANG Yi-yang

Abstract:

Keywords:
本文献已被万方数据等数据库收录！
	点击此处可从《信息与控制》浏览原始摘要信息
	点击此处可从《信息与控制》下载全文

设为首页 | 免责声明 | 关于勤云 | 加入收藏