期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

殷保群李衍杰周亚平奚宏生《控制与决策》2006,21(8):933-936

讨论一类可数半Markov决策过程（CSMDP）在折扣代价准则下的性能优化问题,运用等价Markov过程方法,定义了折Poisson方程,并由该方程定义了α-势,基于α-势,导出了由最优平稳策略所满足的最优性方程．较为详细地讨论了最优性方程解的存在性问题,并给出了其解存在的一些充分条件。相似文献

2.

随机平稳策略下半Markov决策过程的仿真优化算法

代桂平唐昊奚宏生《控制理论与应用》2006,23(4):547-551

基于性能势理论和等价Markov过程方法,研究了一类半Markov决策过程(SMDP)在参数化随机平稳策略下的仿真优化算法,并简要分析了算法的收敛性．通过SMDP的等价Markov过程,定义了一个一致化Markov链,然后根据该一致化Markov链的单个样本轨道来估计SMDP的平均代价性能指标关于策略参数的梯度,以寻找最优(或次优)策略．文中给出的算法是利用神经元网络来逼近参数化随机平稳策略,以节省计算机内存,避免了“维数灾”问题,适合于解决大状态空间系统的性能优化问题．最后给出了一个仿真实例来说明算法的应用．相似文献

3.

一类可数Markov控制过程的最优平稳策略

殷保群李衍杰奚宏生周亚平《控制理论与应用》2005,22(1):43-46

研究了一类具有可数状态空间的Markov控制过程在无限水平平均代价准则下的最优平稳策略问题.对此类过程,引入了折扣Poisson方程,运用无穷小矩阵和性能势的基本性质,导出了平均代价模型在紧致行动集上的最优性方程,并证明了其解的一个存在性定理. 相似文献

4.

半Markov决策过程折扣模型与平均模型之间的关系

殷保群李衍杰唐昊代桂平奚宏生《控制理论与应用》2006,23(1):65-68

首先分别在折扣代价与平均代价性能准则下,讨论了一类半M arkov决策问题.基于性能势方法,导出了由最优平稳策略所满足的最优性方程.然后讨论了两种模型之间的关系,表明了平均模型的有关结论,可以通过对折扣模型相应结论取折扣因子趋于零时的极限来得到. 相似文献

5.

Markov 控制过程在紧致行动集上的迭代优化算法 总被引：5，自引：0，他引：5

下载免费PDF全文

唐昊奚宏生殷保群《控制与决策》2003,18(3):267-271

研究一类连续时间Markov控制过程(CTMCP)在紧致行动集上关于平均代价性能准则的优化算法。根据CTMCP的性能势公式和平均代价最优性方程，导出了求解最优或次最优平稳控制策略的策略迭代算法和数值迭代算法，在无需假设迭代算子是sp—压缩的条件下，给出了这两种算法的收敛性证明。最后通过分析一个受控排队网络的例子说明了这种方法的优越性。相似文献

6.

一类受控闭排队网络基于性能势的最优性方程 总被引：1，自引：0，他引：1

周亚平奚宏生殷保群孙德敏《控制理论与应用》2002,19(4):521-526

研究一类受控闭排队网络系统的性能优化问题. 文章引进了两个基本概念: 折扣代价α 性能势和平均代价性能势, 并且讨论了这两个性能势之间的一个关系式. 在一般的假设条件下, 我们应用性能势的基本性质直接建立了无限时间水平平均代价模型的最优性方程, 并且证明了在紧致集上最优解的存在性. 最后给出了一个策略优化的迭代算法并通过一个实际算例以说明该算法的效果. 相似文献

7.

CTMDP基于随机平稳策略的仿真优化算法 总被引：2，自引：2，他引：2

唐昊奚宏生殷保群《自动化学报》2004,30(2):229-234

基于Markov性能势理论和神经元动态规划(NDP)方法,研究一类连续时间Markov决策过程(MDP)在随机平稳策略下的仿真优化问题,给出的算法是把一个连续时间过程转换成其一致化Markov链,然后通过其单个样本轨道来估计平均代价性能指标关于策略参数的梯度,以寻找次优策略,该方法适合于解决大状态空间系统的性能优化问题.并给出了一个受控Markov 过程的数值实例. 相似文献

8.

Markov控制过程基于单个样本轨道的在线优化算法 总被引：3，自引：1，他引：3

唐昊奚宏生殷保群《控制理论与应用》2002,19(6):865-871

在Markov性能势理论基础上, 研究了Markov控制过程的性能优化算法. 不同于传统的基于计算的方法, 文中的算法是根据单个样本轨道的仿真来估计性能指标关于策略参数的梯度, 以寻找最优 (或次优 )随机平稳策略. 由于可根据不同实际系统的特征来选择适当的算法参数, 因此它能满足不同实际工程系统在线优化的需要. 最后简要分析了这些算法在一个无限长的样本轨道上以概率 1的收敛性, 并给出了一个三状态受控Markov过程的数值实例. 相似文献

9.

平均奖赏MDP的在策略无模型激励学习算法

下载免费PDF全文

陈焕文谢丽娟《计算机工程与科学》2001,23(2):66-69

本文以随机逼近的形式,提出了一些用于求解平均奖赏Markov决策过程系统方程的在策略无模型激励学习算法,这些算法与广泛且成功应用于折扣奖赏MDP的SARSA（λ）类算法相似,为比较这些新算法的性能,本文还给出了一些初步的实验结果。相似文献

10.

(η,α)-互模拟的分层及判定算法

下载免费PDF全文

张晋津张严朱朝晖《计算机工程与科学》2015,37(3):547-552

分层刻画是传统的互模拟概念研究中的一个重要内容,它为一些互模拟判定算法提供了理论基石。(η,α)-互模拟是一种带折扣的近似互模拟概念,其定义蕴涵着一种折扣思想:在比较系统差异时,越晚出现的差异越不重要。为(η,α)-互模拟建立分层刻画,将清晰地揭示这种折扣思想。此外,由于(η,α)-互模拟一般不是等价关系,所以传统的互模拟判定算法中常用的最粗划分方法不适用于(η,α)-互模拟的判定,基于(η,α)-互模拟的分层刻画给出一种该互模拟的判定算法。还提供一个简单的例子用于说明(η,α)-互模拟及其判定算法在描述实现与规范之间关系时的应用。相似文献