部分可观测Markov环境下的激励学习综述 |
| |
引用本文: | 谢丽娟,陈焕文.部分可观测Markov环境下的激励学习综述[J].电力科学与技术学报,2002,17(2):23-27. |
| |
作者姓名: | 谢丽娟 陈焕文 |
| |
作者单位: | 1. 湖南师范大学心理学系,湖南,长沙,410081 2. 长沙电力学院数学与计算机系,湖南,长沙,410077 |
| |
基金项目: | 国家自然科学基金,60075019, |
| |
摘 要: | 对智能体在不确定环境下的学习与规划问题的激励学习技术进行了综述.首先介绍了用于描述隐状态问题的部分可观测Markov决策理论(POMDPs),在简单回顾其它POMDP求解技术后,重点讨论环境模型事先未知的激励学习技术,包括两类:一类为基于状态的值函数学习;一类为策略空间的直接搜索.最后分析了这些方法尚存在的问题,并指出了未来可能的研究方向.
|
关 键 词: | 激励学习 部分可观测Markov决策过程 机器学习 人工智能 |
文章编号: | 1006-7140(2002)02-0023-05 |
修稿时间: | 2002年4月10日 |
A Survey on Reinforcement Learning under Partially Observable Markov Environment |
| |
Abstract: | |
| |
Keywords: | |
本文献已被 万方数据 等数据库收录! |
|