共查询到10条相似文献,搜索用时 15 毫秒
1.
2.
基于性能势理论和等价Markov过程方法,研究了一类半Markov决策过程(SMDP)在参数化随机平稳策略下的仿真优化算法,并简要分析了算法的收敛性.通过SMDP的等价Markov过程,定义了一个一致化Markov链,然后根据该一致化Markov链的单个样本轨道来估计SMDP的平均代价性能指标关于策略参数的梯度,以寻找最优(或次优)策略.文中给出的算法是利用神经元网络来逼近参数化随机平稳策略,以节省计算机内存,避免了“维数灾”问题,适合于解决大状态空间系统的性能优化问题.最后给出了一个仿真实例来说明算法的应用. 相似文献
3.
4.
5.
6.
7.
8.
Markov控制过程基于单个样本轨道的在线优化算法 总被引:3,自引:1,他引:3
在Markov性能势理论基础上, 研究了Markov控制过程的性能优化算法. 不同于传统的基于计算的方法, 文中的算法是根据单个样本轨道的仿真来估计性能指标关于策略参数的梯度, 以寻找最优 (或次优 )随机平稳策略. 由于可根据不同实际系统的特征来选择适当的算法参数, 因此它能满足不同实际工程系统在线优化的需要. 最后简要分析了这些算法在一个无限长的样本轨道上以概率 1的收敛性, 并给出了一个三 状态受控Markov过程的数值实例. 相似文献
9.
本文以随机逼近的形式,提出了一些用于求解平均奖赏Markov决策过程系统方程的在策略无模型激励学习算法,这些算法与广泛且成功应用于折扣奖赏MDP的SARSA(λ)类算法相似,为比较这些新算法的性能,本文还给出了一些初步的实验结果。 相似文献
10.
分层刻画是传统的互模拟概念研究中的一个重要内容,它为一些互模拟判定算法提供了理论基石。(η,α)-互模拟是一种带折扣的近似互模拟概念,其定义蕴涵着一种折扣思想:在比较系统差异时,越晚出现的差异越不重要。为(η,α)-互模拟建立分层刻画,将清晰地揭示这种折扣思想。此外,由于(η,α)-互模拟一般不是等价关系,所以传统的互模拟判定算法中常用的最粗划分方法不适用于(η,α)-互模拟的判定,基于(η,α)-互模拟的分层刻画给出一种该互模拟的判定算法。还提供一个简单的例子用于说明(η,α)-互模拟及其判定算法在描述实现与规范之间关系时的应用。 相似文献