排序方式: 共有22条查询结果,搜索用时 62 毫秒
21.
杨春巍 《土木建筑与环境工程》1988,10(2)
本文研究马尔科夫决策规划(MDP){S,(A_(i),i∈S),q,Γ,V}的求值运算。为了保证用长期总期望报酬∑ E_π{R_1|y_0=i}作为目标函数具有收敛性,引进一个折扣因子β(0<β<1)使折扣目标函数V_β(π·)达到最优。为了使求值运算程序化,提出了策略迭代法求最优策略f_n~∞和最优报酬函数V_β(f)。本文并给出了策略迭代法的运算框图及数值计算的例子。 相似文献
22.