基于观测的POMDP 优化算法及其仿真 An Observation-based Optimization Algorithm for POMDP and Its Simulation期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

基于观测的POMDP 优化算法及其仿真

引用本文：	黄静,殷保群,李俊. 基于观测的POMDP 优化算法及其仿真[J]. 信息与控制, 2008, 37(3): 1-1

作者姓名：	黄静殷保群李俊

作者单位：	中国科学技术大学网络传播系统与控制联合实验室,安徽,合肥,230027

基金项目：	国家自然科学基金 , 国家高技术研究发展计划(863计划) , 安徽省自然科学基金 , 中国科学院自动化所和中国科学技术大学智能科学与技术联合实验室种子基金

摘要：	在分析马尔可夫决策过程（Markov Decision Process, MDP）性能灵敏度的基础上，讨论了部分可观测马尔可夫决策过程（Partially Observable Markov Decision Process, POMDP）的性能优化问题．给出了POMDP性能灵敏度分析公式，并以此为基础提出了两种基于观测的POMDP 优化算法：策略梯度优化算法和策略迭代优化算法．最后以准许控制问题为仿真实例，验证了这两个算法的有效性．
关键词：	部分可观测马尔可夫决策过程（POMDP）灵敏度分析优化仿真
文章编号：	1002-0411(2008)03-0346-06
修稿时间：	2007-04-06
An Observation-based Optimization Algorithm for POMDP and Its Simulation

HUANG Jing,YIN Bao-qun,LI Jun. An Observation-based Optimization Algorithm for POMDP and Its Simulation[J]. Information and Control, 2008, 37(3): 1-1

Authors:	HUANG Jing YIN Bao-qun LI Jun

Affiliation:	HUANG Jing YIN Bao-qun LI Jun (Joint Lab of Network Communication System , Control,University of Science , Technology of China,Hefei 230027,China)

Abstract:	The problem of performance optimization for partially observable Markov decision process(POMDP)is addressed based on the sensitivity analysis of Markov decision process(MDP).The sensitivity analysis formulas are given. Based on these results,two observation-based optimization algorithms,i.e.,policy-gradient and policy-iteration algorithms are developed for POMDP.To verify these algorithms,a simulation based on the problem of admission control is also presented.

Keywords:	partially observable Markov decision process(POMDP) sensitivity analysis optimization simulation
本文献已被 CNKI 维普万方数据等数据库收录！
	点击此处可从《信息与控制》浏览原始摘要信息
	点击此处可从《信息与控制》下载全文

设为首页 | 免责声明 | 关于勤云 | 加入收藏