首页 | 本学科首页   官方微博 | 高级检索  
     

基于一阶信念点的一阶POMDP值迭代算法研究
作者姓名:陈丽娜  黄宏斌  邓苏
作者单位:国防科技大学 信息系统工程重点实验室,长沙 410073
基金项目:国家自然科学基金(No.71071160)
摘    要:主要研究一阶部分可观测马尔可夫决策过程的近似求解方法。给出了一阶信念、一阶信念粒度、流关键度的概念;提出了基于流关键度的粒度归结方法,统一一阶信念粒度;提出了一阶信念粒度距离度量方法,提出FO-PBVI方法,将PBVI提升到抽象层面。通过Tiger和Tag实验对方法进行了验证分析,通过实验可见FO-PBVI方法能够很好地适应问题规模的变化,能够求解较大规模的规划问题。

关 键 词:一阶部分可观测马尔可夫决策过程(POMDP)  一阶信念状态  粒度归结  值迭代  
本文献已被 CNKI 维普 万方数据 等数据库收录!
点击此处可从《计算机工程与应用》浏览原始摘要信息
点击此处可从《计算机工程与应用》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号