MDP中模型的转换—平均模型 |
| |
作者姓名: | 胡奇英 |
| |
作者单位: | 西安电子科技大学管理工程与情报工程系 |
| |
摘 要: | 本文讨论状态可数的平均报酬马氏决策规划(Markov Decision Programming,简记为MDP),通过模型的转换,文中将半马氏决策规划和连续时间MDP分别转换为离散时间MDP.转换保持模型间的最优方程等价,后一转换甚至保持平均目标函数等价。因此,离散时间MDP申的大部分结论可轻易地推广到另两类MDP中去。最后本文讨论了π_0~∞为最优策略与最优方程的关系。
|
关 键 词: | 模型转换 平均模型 MDP 模型 |
本文献已被 CNKI 维普 等数据库收录! |
|