实时动态规划的最优行动判据及算法改进期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

实时动态规划的最优行动判据及算法改进

作者姓名：	范长杰陈小平

作者单位：	中国科学技术大学,计算机科学与技术系,安徽,合肥,230027;中国科学技术大学,计算机科学与技术系,安徽,合肥,230027

基金项目：	the National Natural Science Foundation of China under Grant No.60745002,the National Basic Research Program of China under No.2003CB317002(国家重点基础研究发展计划

摘要：	主要以提高求解马尔可夫决策问题的实时动态规划(real-time dynamic programming,简称RTDP)算法的效率为目的.对几类典型的实时动态规划算法所使用的收敛判据进行了对比分析,并利用值函数上界、下界给出了称为最优行动判据的收敛判据,以及一个更适合实时算法的分支选择策略.最优行动判据可以更早地标定当前状态满足精度要求的最优行动供立即执行,而新的分支选择策略可以加快这一判据的满足.据此设计了一种有界增量实时动态规划(bounded incremental RTDP,简称BI-RTDP)算法.在两种典型仿真实时环境的实验中,BI-RTDP均显示出优于现有相关算法的实时性能.
关键词：	马尔可夫决策过程实时动态规划收敛判据增量求解启发式搜索
收稿时间：	2007-10-10
修稿时间：	2008-02-04
本文献已被 CNKI 维普万方数据等数据库收录！
	点击此处可从《软件学报》浏览原始摘要信息
	点击此处可从《软件学报》下载免费的PDF全文

设为首页 | 免责声明 | 关于勤云 | 加入收藏