首页 | 本学科首页   官方微博 | 高级检索  
     

基于观测的POMDP 优化算法及其仿真
引用本文:黄静,殷保群,李俊. 基于观测的POMDP 优化算法及其仿真[J]. 信息与控制, 2008, 37(3): 1-1
作者姓名:黄静  殷保群  李俊
作者单位:中国科学技术大学网络传播系统与控制联合实验室,安徽,合肥,230027
基金项目:国家自然科学基金 , 国家高技术研究发展计划(863计划) , 安徽省自然科学基金 , 中国科学院自动化所和中国科学技术大学智能科学与技术联合实验室种子基金
摘    要:在分析马尔可夫决策过程(Markov Decision Process, MDP)性能灵敏度的基础上,讨论了部分可观测马尔可夫决策过程(Partially Observable Markov Decision Process, POMDP)的性能优化问题.给出了POMDP性能灵敏度分析公式,并以此为基础提出了两种基于观测的POMDP 优化算法:策略梯度优化算法和策略迭代优化算法.最后以准许控制问题为仿真实例,验证了这两个算法的有效性.

关 键 词:部分可观测马尔可夫决策过程(POMDP)  灵敏度分析  优化  仿真
文章编号:1002-0411(2008)03-0346-06
修稿时间:2007-04-06

An Observation-based Optimization Algorithm for POMDP and Its Simulation
HUANG Jing,YIN Bao-qun,LI Jun. An Observation-based Optimization Algorithm for POMDP and Its Simulation[J]. Information and Control, 2008, 37(3): 1-1
Authors:HUANG Jing  YIN Bao-qun  LI Jun
Affiliation:HUANG Jing YIN Bao-qun LI Jun (Joint Lab of Network Communication System , Control,University of Science , Technology of China,Hefei 230027,China)
Abstract:The problem of performance optimization for partially observable Markov decision process(POMDP)is addressed based on the sensitivity analysis of Markov decision process(MDP).The sensitivity analysis formulas are given. Based on these results,two observation-based optimization algorithms,i.e.,policy-gradient and policy-iteration algorithms are developed for POMDP.To verify these algorithms,a simulation based on the problem of admission control is also presented.
Keywords:partially observable Markov decision process(POMDP)  sensitivity analysis  optimization  simulation  
本文献已被 CNKI 维普 万方数据 等数据库收录!
点击此处可从《信息与控制》浏览原始摘要信息
点击此处可从《信息与控制》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号