期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

殷保群李衍杰周亚平奚宏生《控制与决策》2004,19(6):691-694

讨论一类半Markov控制过程(SMCP)的折扣代价性能优化问题．通过引入一个矩阵，该矩阵可作为一个Markov过程的无穷小矩阵，对一个SMCP定义了折扣Poisson方程，并由这个方程定义了α-势．基于α-势，给出了由最优平稳策略所满足的最优性方程．最后给出一个求解最优平稳策略的迭代算法，并提供一个数值例子以表明该算法的应用．相似文献

2.

半Markov决策过程折扣模型与平均模型之间的关系

殷保群李衍杰唐昊代桂平奚宏生《控制理论与应用》2006,23(1):65-68

首先分别在折扣代价与平均代价性能准则下,讨论了一类半M arkov决策问题.基于性能势方法,导出了由最优平稳策略所满足的最优性方程.然后讨论了两种模型之间的关系,表明了平均模型的有关结论,可以通过对折扣模型相应结论取折扣因子趋于零时的极限来得到. 相似文献

3.

半Markov过程基于性能势的灵敏度分析和性能优化

下载免费PDF全文

李衍杰殷保群奚宏生周亚平代桂平《控制理论与应用》2004,21(6):1032-1035

基于性能势的方法 ,研究了一类半Markov过程 (SMP)的性能灵敏度分析和平均费用下的性能优化问题 .将SMP转化为与之等价的离散时间Markov链 (DTMC) ,利用DTMC的性能势 ,对SMP进行灵敏度分析和性能优化 ,得到了SMP基于DTMC性能势的灵敏度分析公式和最优性方程 .最后给出了一个数值例子以表明该方法的应用 . 相似文献

4.

一类可数Markov控制过程的最优平稳策略

殷保群李衍杰奚宏生周亚平《控制理论与应用》2005,22(1):43-46

研究了一类具有可数状态空间的Markov控制过程在无限水平平均代价准则下的最优平稳策略问题.对此类过程,引入了折扣Poisson方程,运用无穷小矩阵和性能势的基本性质,导出了平均代价模型在紧致行动集上的最优性方程,并证明了其解的一个存在性定理. 相似文献

5.

可数状态空间的平均成本马氏决策过程

张俊玉吴怡婷夏俐曹希仁《控制理论与应用》2021,38(11):1707-1716

具有可数状态空间的马尔可夫决策过程(Markov decision process, MDP)在平均准则下, 最优(平稳)策略不一定存在. 本文研究平均准则可数状态MDP中满足最优不等式的最优策略. 不同于消去折扣(因子)方法, 利用离散的 Dynkin公式推导本文的主要结果. 首先给出遍历马氏链的泊松方程和两个零常返马氏链的例子, 证明了满足两个方向相反的最优不等式的最优策略存在性. 其次, 通过两个比较引理和性能差分公式, 证明了正常返链和多链最优策略的存在性, 并进一步推广到其他情形. 特别地, 本文通过几个应用举例, 说明平均准则性能敏感的本质. 本文的结果完善了可数状态MDP在平均准则下的最优不等式的理论. 相似文献

6.

连续时间Markov决策过程在呼叫接入控制中的应用

周亚平奚宏生等《控制与决策》2001,16(11):795-799

应用Markov决策过程与性能势相结合的方法,给出了呼叫接入控制的策略优化算法。所得到的最优策略是状态相关的策略,与基于节点已占用带宽决定行动的策略相比,状态相关策略具有更好的性能值,而且该算法具有很快的收敛速度。相似文献

7.

连续时间Markov决策过程在呼叫接入控制中的应用

周亚平奚宏生殷保群唐昊《控制与决策》2001,16(Z1):795-799

应用Markov决策过程与性能势相结合的方法,给出了呼叫接入控制的策略优化算法.所得到的最优策略是状态相关的策略,与基于节点已占用带宽决定行动的策略相比,状态相关策略具有更好的性能值,而且该算法具有很快的收敛速度. 相似文献

8.

Markov控制过程基于性能势的平均代价最优策略 总被引：2，自引：1，他引：2

周亚平奚宏生殷保群孙德敏《自动化学报》2002,28(6):904-910

研究了一类离散时间Markov控制过程平均代价性能最优控制决策问题.应用Markov性能势的基本性质,在很一般性的假设条件下,直接导出了无限时间平均代价模型在紧致行动集上的最优性方程及其解的存在性定理.提出了求解最优平稳控制策略的迭代算法,并讨论了这种算法的收敛性问题.最后通过分析一个实例来说明这种算法的应用. 相似文献

9.

Markov控制过程基于单个样本轨道的在线优化算法 总被引：3，自引：1，他引：3

唐昊奚宏生殷保群《控制理论与应用》2002,19(6):865-871

在Markov性能势理论基础上, 研究了Markov控制过程的性能优化算法. 不同于传统的基于计算的方法, 文中的算法是根据单个样本轨道的仿真来估计性能指标关于策略参数的梯度, 以寻找最优 (或次优 )随机平稳策略. 由于可根据不同实际系统的特征来选择适当的算法参数, 因此它能满足不同实际工程系统在线优化的需要. 最后简要分析了这些算法在一个无限长的样本轨道上以概率 1的收敛性, 并给出了一个三状态受控Markov过程的数值实例. 相似文献

10.

随机平稳策略下半Markov决策过程的仿真优化算法

代桂平唐昊奚宏生《控制理论与应用》2006,23(4):547-551

基于性能势理论和等价Markov过程方法,研究了一类半Markov决策过程(SMDP)在参数化随机平稳策略下的仿真优化算法,并简要分析了算法的收敛性．通过SMDP的等价Markov过程,定义了一个一致化Markov链,然后根据该一致化Markov链的单个样本轨道来估计SMDP的平均代价性能指标关于策略参数的梯度,以寻找最优(或次优)策略．文中给出的算法是利用神经元网络来逼近参数化随机平稳策略,以节省计算机内存,避免了“维数灾”问题,适合于解决大状态空间系统的性能优化问题．最后给出了一个仿真实例来说明算法的应用．相似文献

11.

基于半Markov决策过程的劣化系统检测与维修优化模型

程志君郭波《自动化学报》2007,33(10):1101-1104

针对系统劣化阶段持续时间、检测间隔时间和维修时间都服从一般分布的情况, 提出了一类基于半马氏决策过程的劣化系统检测与维修优化模型. 利用位相型分布近似一般分布简化了求解过程, 并提出了相应的改进值迭代算法. 最后通过算例验证了模型与迭代算法的可行性. 相似文献

12.

Partially Observable Markov Decision Processes and Performance Sensitivity Analysis

《IEEE transactions on systems, man, and cybernetics. Part B, Cybernetics》2008,38(6):1645-1651

The sensitivity-based optimization of Markov systems has become an increasingly important area. From the perspective of performance sensitivity analysis, policy-iteration algorithms and gradient estimation methods can be directly obtained for Markov decision processes (MDPs). In this correspondence, the sensitivity-based optimization is extended to average reward partially observable MDPs (POMDPs). We derive the performance-difference and performance-derivative formulas of POMDPs. On the basis of the performance-derivative formula, we present a new method to estimate the performance gradients. From the performance-difference formula, we obtain a sufficient optimality condition without the discounted reward formulation. We also propose a policy-iteration algorithm to obtain a nearly optimal finite-state-controller policy. 相似文献

13.

Simulation of Generalised Semi-Markov Processes based on Graph Transformation Systems

Piotr Kosiuczenko Georgios Lajios 《Electronic Notes in Theoretical Computer Science》2007,175(4):73

Stochastic Graph Transformation combines graphical modelling of various software artefacts with stochastic analysis techniques. Existing approaches are restricted to processes with exponential time distribution. Such processes are sufficient for modelling a significant class of stochastic systems, however there are interesting systems which cannot be specified appropriately in such a framework. In several cases one needs to consider non-exponential time distributions. This paper proposes a stochastic model based on graph transformation with general probability distributions. This model is well suited to represent concurrency and performance aspects of architecture reconfiguration. It is also possible to apply Monte Carlo simulation techniques in order to analyse behaviour of complex stochastic systems. The new model is implemented and used to simulate simple networks. 相似文献

14.

Continuous Stochastic Optimization with Semi-Markov Switchings in the Diffusion Approximation Scheme

V. R. Kukurba Ya. M. Chabanyuk 《Cybernetics and Systems Analysis》2013,49(6):882-889

We consider the continuous stochastic optimization procedure with semi-Markov switching in the diffusion approximation scheme with the balance conditions imposed on singular perturbation of the regression function. The sufficient convergence conditions are established for the regression function, which depends on the uniform ergodic semi-Markov process, by using the properties of extended compensating operator of the Markov renewal of the procedure and its asymptotic representation of perturbed Lyapunov function. 相似文献

15.

Optimal Policies for Quantum Markov Decision Processes

Ying Ming-Sheng Feng Yuan Ying Sheng-Gang 《国际自动化与计算杂志》2021,18(3):410-421

Machine Intelligence Research - Markov decision process (MDP) offers a general framework for modelling sequential decision making where outcomes are random. In particular, it serves as a... 相似文献

16.

逻辑马尔可夫决策编程和关系马尔可夫决策编程若干最新进展

王蓁蓁邢汉承张志政倪庆剑《计算机科学》2007,34(10):1-7

逻辑马尔可夫决策过程和关系马尔可夫决策过程的引入,使得人们可能简洁地、陈述地表达复杂的马尔可夫决策过程。本文首先介绍有关逻辑马尔可夫决策过程和关系马尔可夫决策过程的概念,然后重点介绍它们与普通的马尔可夫决策过程根本不同的一些算法：①依赖于基本状态空间RL的转换法;②把Bellman方程推广到抽象状态空间的方法;③利用策略偏置空间寻求近似最优策略方法。最后对它们的研究现状进行总结及其对它们发展的一些展望。相似文献

17.

Interactive visualization for testing Markov Decision Processes: MDPVIS

《Journal of Visual Languages and Computing》2017

Markov Decision Processes (MDPs) are a formulation for optimization problems in sequential decision making. Solving MDPs often requires implementing a simulator for optimization algorithms to invoke when updating decision making rules known as policies. The combination of simulator and optimizer are subject to failures of specification, implementation, integration, and optimization that may produce invalid policies. We present these failures as queries for a visual analytic system (MDPVIS). MDPVIS addresses three visualization research gaps. First, the data acquisition gap is addressed through a general simulator-visualization interface. Second, the data analysis gap is addressed through a generalized MDP information visualization. Finally, the cognition gap is addressed by exposing model components to the user. MDPVIS generalizes a visualization for wildfire management. We use that problem to illustrate MDPVIS and show the visualization's generality by connecting it to two reinforcement learning frameworks that implement many different MDPs of interest in the research community. 相似文献

18.

双马尔可夫决策过程联合模型

王蓁蓁邢汉承《计算机科学》2009,36(9):161-166

人类在处理问题中往往分为两个层次,首先在整体上把握问题,即提出大体方案,然后再具体实施.也就是说人类就是具有多分辨率智能系统的极好例子,他能够在多个层次上从底向上泛化(即看问题角度粒度变"粗",它类似于抽象),并且又能从顶向下进行实例化(即看问题角度变"细",它类似于具体化).由此构造了由在双层(理想空间即泛化和实际空间即实例化)上各自运行的马尔可夫决策过程组成的半马尔可夫决策过程,称之为双马尔可夫决策过程联合模型.然后讨论该联合模型的最优策略算法,最后给出一个实例说明双马尔可夫决策联合模型能够经济地节约"思想",是运算有效性和可行性的一个很好的折中. 相似文献

19.

Semi-Markov model for loaded duplication

V. N. Kuznetsov 《Cybernetics and Systems Analysis》1980,16(4):558-567

相似文献

20.

多源决策信息系统的决策规则性能评价

林国平梁吉业李进金《模式识别与人工智能》2015,(7)

多粒度粗糙集理论为多源决策信息系统的规则提取提供一种有效的方法,而如何对决策规则集进行评价是利用规则进行合理准确的决策和对未知样本进行可靠预测的关键问题之一。针对已有规则性能评价指标的不足,提出整体确定性、整体协调性、整体支持度的3类整体决策性能评价指标。这些评价指标将为更多的决策问题求解提供一定的理论依据。相似文献