首页 | 本学科首页   官方微博 | 高级检索  
     

MDP中模型的转换—平均模型
作者姓名:胡奇英
作者单位:西安电子科技大学管理工程与情报工程系
摘    要:本文讨论状态可数的平均报酬马氏决策规划(Markov Decision Programming,简记为MDP),通过模型的转换,文中将半马氏决策规划和连续时间MDP分别转换为离散时间MDP.转换保持模型间的最优方程等价,后一转换甚至保持平均目标函数等价。因此,离散时间MDP申的大部分结论可轻易地推广到另两类MDP中去。最后本文讨论了π_0~∞为最优策略与最优方程的关系。

关 键 词:模型转换 平均模型 MDP 模型
本文献已被 CNKI 维普 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号