一种部分可感知系统的增强学习方法 |
| |
引用本文: | 汤俏,赵凯. 一种部分可感知系统的增强学习方法[J]. 计算机科学, 2004, 31(Z2): 162-165 |
| |
作者姓名: | 汤俏 赵凯 |
| |
作者单位: | 中国科学院自动化研究所,复杂系统与智能科学实验室,北京,100080 |
| |
摘 要: | 1引言在人工智能领域中,增强学习理论由于其自学习性和自适应性的优点而得到了广泛关注,在机器人控制系统,优化组合问题等诸多领域得到了越来越广泛的应用,是当前研究的重点问题之一[1].现有的增强学习方法对马尔可夫决策过程(MDP,Markov Decision Processes),即,进行策略选择的agent能够准确全面地获得关于环境所有信息的情况,已经有了多种较成熟的算法,如Q-learning等[2,3].
|
A Reinforcement Learning Algorithm for Partially Observable Markov Decision Processes |
| |
Abstract: | |
| |
Keywords: | |
本文献已被 万方数据 等数据库收录! |
|