首页 | 本学科首页   官方微博 | 高级检索  
     

MDP 中非时齐折扣模型向时齐折扣模型的转化问题
引用本文:张继红,谭兴华,王跃宏.MDP 中非时齐折扣模型向时齐折扣模型的转化问题[J].昆明理工大学学报(理工版),1997(6).
作者姓名:张继红  谭兴华  王跃宏
作者单位:昆明理工大学基础部(张继红),新疆有色金属工业学校(谭兴华),云南工业大学(王跃宏)
摘    要:在状态和行动集均可数,报酬函数有界条件下,建立起非时齐折扣MDP的对应时齐折扣MDP模型,并证明两者等价从而把非时齐折扣MDP问题转化为一个与之等价的时齐折扣MDP问题,使时齐折扣MDP的结果对非时齐情况也成立鉴于时齐折扣模型的讨论比较充分,这就带来了非时齐折扣模型的完满结论,并且这一转化过程揭示了非时齐与时齐折扣模型的内在联系

关 键 词:非时齐折扣MDP  时齐折扣MDP  模型转化  (S_t,ε)最优策略  最优策略  ε最优策略

Transformation from Nonstationary Discounted Markov Decision Processes to Stationary Discounted Markov Decision Processes
Zhang Jihong,Tao Xihua,Wang Yaohong.Transformation from Nonstationary Discounted Markov Decision Processes to Stationary Discounted Markov Decision Processes[J].Journal of Kunming University of Science and Technology(Natural Science Edition),1997(6).
Authors:Zhang Jihong  Tao Xihua  Wang Yaohong
Abstract:
Keywords:
本文献已被 CNKI 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号