首页 | 本学科首页   官方微博 | 高级检索  
     

基于神经网络的Sarsa强化学习算法
引用本文:林联明,王浩,王一雄. 基于神经网络的Sarsa强化学习算法[J]. 微机发展, 2006, 16(1): 30-32
作者姓名:林联明  王浩  王一雄
作者单位:合肥工业大学计算机与信息学院 安徽合肥230009
摘    要:标准的Sarsa算法对状态空间的要求是离散的且空间较小,而实际问题中很多的系统的状态空间是连续的或尽管是离散的但空间较大,这就要求有很大的空间来存储状态动作对(State-Action-Pair)。对此文中提出用BP网络队列保存SAPs,实验验证可以解决由于空间过大而带来的Q值表示问题。

关 键 词:强化学习  智能主体  马尔可夫决策过程  误差后向传播网络  状态动作对
文章编号:1005-3751(2006)01-0030-03
修稿时间:2005-04-29

Sarsa Reinforcement Learning Algorithm Based on Neural Networks
LIN Lian-ming,WANG Hao,WANG Yi-xiong. Sarsa Reinforcement Learning Algorithm Based on Neural Networks[J]. Microcomputer Development, 2006, 16(1): 30-32
Authors:LIN Lian-ming  WANG Hao  WANG Yi-xiong
Abstract:The standard Sarsa algorithm requires that the state space is discrete and small.However,in real environment it does not satisfy that due to the fact that it may be continuous or discrete but has big space state,so it needs too memory to keep State-Action-pair(SAPs).This paper proposes to use BP queue to store SAPs.The experiment shows it can resolve the problem that how to represent Q values in case of big state space.
Keywords:reinforcement learning  agent  MDP(Markov decision process)  BP(back propagation)  SAP(state_-action_-pair)  
本文献已被 CNKI 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号