基于神经网络的Sarsa强化学习算法 Sarsa Reinforcement Learning Algorithm Based on Neural Networks期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

基于神经网络的Sarsa强化学习算法

引用本文：	林联明,王浩,王一雄. 基于神经网络的Sarsa强化学习算法[J]. 微机发展, 2006, 16(1): 30-32

作者姓名：	林联明王浩王一雄

作者单位：	合肥工业大学计算机与信息学院安徽合肥230009

摘要：	标准的Sarsa算法对状态空间的要求是离散的且空间较小,而实际问题中很多的系统的状态空间是连续的或尽管是离散的但空间较大,这就要求有很大的空间来存储状态动作对(State-Action-Pair)。对此文中提出用BP网络队列保存SAPs,实验验证可以解决由于空间过大而带来的Q值表示问题。
关键词：	强化学习智能主体马尔可夫决策过程误差后向传播网络状态动作对
文章编号：	1005-3751(2006)01-0030-03
修稿时间：	2005-04-29
Sarsa Reinforcement Learning Algorithm Based on Neural Networks

LIN Lian-ming,WANG Hao,WANG Yi-xiong. Sarsa Reinforcement Learning Algorithm Based on Neural Networks[J]. Microcomputer Development, 2006, 16(1): 30-32

Authors:	LIN Lian-ming WANG Hao WANG Yi-xiong

Abstract:	The standard Sarsa algorithm requires that the state space is discrete and small.However,in real environment it does not satisfy that due to the fact that it may be continuous or discrete but has big space state,so it needs too memory to keep State-Action-pair(SAPs).This paper proposes to use BP queue to store SAPs.The experiment shows it can resolve the problem that how to represent Q values in case of big state space.

Keywords:	reinforcement learning agent MDP(Markov decision process) BP(back propagation) SAP(state_-action_-pair)
本文献已被 CNKI 等数据库收录！

设为首页 | 免责声明 | 关于勤云 | 加入收藏