实时动态规划的最优行动判据及算法改进 |
| |
作者姓名: | 范长杰 陈小平 |
| |
作者单位: | 中国科学技术大学,计算机科学与技术系,安徽,合肥,230027;中国科学技术大学,计算机科学与技术系,安徽,合肥,230027 |
| |
基金项目: | the National Natural Science Foundation of China under Grant No.60745002,the National Basic Research Program of China under No.2003CB317002(国家重点基础研究发展计划 |
| |
摘 要: | 主要以提高求解马尔可夫决策问题的实时动态规划(real-time dynamic programming,简称RTDP)算法的效率为目的.对几类典型的实时动态规划算法所使用的收敛判据进行了对比分析,并利用值函数上界、下界给出了称为最优行动判据的收敛判据,以及一个更适合实时算法的分支选择策略.最优行动判据可以更早地标定当前状态满足精度要求的最优行动供立即执行,而新的分支选择策略可以加快这一判据的满足.据此设计了一种有界增量实时动态规划(bounded incremental RTDP,简称BI-RTDP)算法.在两种典型仿真实时环境的实验中,BI-RTDP均显示出优于现有相关算法的实时性能.
|
关 键 词: | 马尔可夫决策过程 实时动态规划 收敛判据 增量求解 启发式搜索 |
收稿时间: | 2007-10-10 |
修稿时间: | 2008-02-04 |
本文献已被 CNKI 维普 万方数据 等数据库收录! |
| 点击此处可从《软件学报》浏览原始摘要信息 |
|
点击此处可从《软件学报》下载免费的PDF全文 |
|