部分可观测Markov环境下的激励学习综述 A Survey on Reinforcement Learning under Partially Observable Markov Environment期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

部分可观测Markov环境下的激励学习综述

引用本文：	谢丽娟,陈焕文.部分可观测Markov环境下的激励学习综述[J].电力科学与技术学报,2002,17(2):23-27.

作者姓名：	谢丽娟陈焕文

作者单位：	1. 湖南师范大学心理学系,湖南,长沙,410081 2. 长沙电力学院数学与计算机系,湖南,长沙,410077

基金项目：	国家自然科学基金，60075019，

摘要：	对智能体在不确定环境下的学习与规划问题的激励学习技术进行了综述.首先介绍了用于描述隐状态问题的部分可观测Markov决策理论(POMDPs),在简单回顾其它POMDP求解技术后,重点讨论环境模型事先未知的激励学习技术,包括两类:一类为基于状态的值函数学习;一类为策略空间的直接搜索.最后分析了这些方法尚存在的问题,并指出了未来可能的研究方向.
关键词：	激励学习部分可观测Markov决策过程机器学习人工智能
文章编号：	1006-7140(2002)02-0023-05
修稿时间：	2002年4月10日
A Survey on Reinforcement Learning under Partially Observable Markov Environment

Abstract:

Keywords:
本文献已被万方数据等数据库收录！