期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

Markov控制过程基于性能势的平均代价最优策略 总被引：2，自引：1，他引：2

周亚平奚宏生殷保群孙德敏《自动化学报》2002,28(6):904-910

研究了一类离散时间Markov控制过程平均代价性能最优控制决策问题.应用Markov性能势的基本性质,在很一般性的假设条件下,直接导出了无限时间平均代价模型在紧致行动集上的最优性方程及其解的存在性定理.提出了求解最优平稳控制策略的迭代算法,并讨论了这种算法的收敛性问题.最后通过分析一个实例来说明这种算法的应用. 相似文献

2.

半Markov 控制过程在折扣代价准则下的最优平稳策略

殷保群李衍杰周亚平奚宏生《控制与决策》2004,19(6):691-694

讨论一类半Markov控制过程(SMCP)的折扣代价性能优化问题．通过引入一个矩阵，该矩阵可作为一个Markov过程的无穷小矩阵，对一个SMCP定义了折扣Poisson方程，并由这个方程定义了α-势．基于α-势，给出了由最优平稳策略所满足的最优性方程．最后给出一个求解最优平稳策略的迭代算法，并提供一个数值例子以表明该算法的应用．相似文献

3.

Markov 控制过程在紧致行动集上的迭代优化算法 总被引：5，自引：0，他引：5

下载免费PDF全文

唐昊奚宏生殷保群《控制与决策》2003,18(3):267-271

研究一类连续时间Markov控制过程(CTMCP)在紧致行动集上关于平均代价性能准则的优化算法。根据CTMCP的性能势公式和平均代价最优性方程，导出了求解最优或次最优平稳控制策略的策略迭代算法和数值迭代算法，在无需假设迭代算子是sp—压缩的条件下，给出了这两种算法的收敛性证明。最后通过分析一个受控排队网络的例子说明了这种方法的优越性。相似文献

4.

连续时间MCP在紧致行动集上的最优策略 总被引：8，自引：2，他引：8

奚宏生唐昊殷保群《自动化学报》2003,29(2):206-211

文中研究了一类连续时间Markov控制过程(CTMCP)无穷水平平均代价性能的最优控制决策问题.文章采用无穷小生成元和性能势的基本性质,直接导出了平均代价模型在紧致行动集上的最优性方程及其解的存在性定理,提出了求解ε-最优平稳控制策略的数值迭代算法,并给出了这种算法的收敛性证明.最后通过分析一个数值例子来说明这种方法的应用. 相似文献

5.

Markov控制过程基于单个样本轨道的在线优化算法 总被引：3，自引：1，他引：3

唐昊奚宏生殷保群《控制理论与应用》2002,19(6):865-871

在Markov性能势理论基础上, 研究了Markov控制过程的性能优化算法. 不同于传统的基于计算的方法, 文中的算法是根据单个样本轨道的仿真来估计性能指标关于策略参数的梯度, 以寻找最优 (或次优 )随机平稳策略. 由于可根据不同实际系统的特征来选择适当的算法参数, 因此它能满足不同实际工程系统在线优化的需要. 最后简要分析了这些算法在一个无限长的样本轨道上以概率 1的收敛性, 并给出了一个三状态受控Markov过程的数值实例. 相似文献

6.

可数半Markov决策过程折扣代价性能优化

殷保群李衍杰周亚平奚宏生《控制与决策》2006,21(8):933-936

讨论一类可数半Markov决策过程（CSMDP）在折扣代价准则下的性能优化问题,运用等价Markov过程方法,定义了折Poisson方程,并由该方程定义了α-势,基于α-势,导出了由最优平稳策略所满足的最优性方程．较为详细地讨论了最优性方程解的存在性问题,并给出了其解存在的一些充分条件。相似文献

7.

连续时间Markov决策过程在呼叫接入控制中的应用

周亚平奚宏生等《控制与决策》2001,16(11):795-799

应用Markov决策过程与性能势相结合的方法,给出了呼叫接入控制的策略优化算法。所得到的最优策略是状态相关的策略,与基于节点已占用带宽决定行动的策略相比,状态相关策略具有更好的性能值,而且该算法具有很快的收敛速度。相似文献

8.

连续时间Markov决策过程在呼叫接入控制中的应用

周亚平奚宏生殷保群唐昊《控制与决策》2001,16(Z1):795-799

应用Markov决策过程与性能势相结合的方法,给出了呼叫接入控制的策略优化算法.所得到的最优策略是状态相关的策略,与基于节点已占用带宽决定行动的策略相比,状态相关策略具有更好的性能值,而且该算法具有很快的收敛速度. 相似文献

9.

随机平稳策略下半Markov决策过程的仿真优化算法

代桂平唐昊奚宏生《控制理论与应用》2006,23(4):547-551

基于性能势理论和等价Markov过程方法,研究了一类半Markov决策过程(SMDP)在参数化随机平稳策略下的仿真优化算法,并简要分析了算法的收敛性．通过SMDP的等价Markov过程,定义了一个一致化Markov链,然后根据该一致化Markov链的单个样本轨道来估计SMDP的平均代价性能指标关于策略参数的梯度,以寻找最优(或次优)策略．文中给出的算法是利用神经元网络来逼近参数化随机平稳策略,以节省计算机内存,避免了“维数灾”问题,适合于解决大状态空间系统的性能优化问题．最后给出了一个仿真实例来说明算法的应用．相似文献

10.

半Markov决策过程折扣模型与平均模型之间的关系

殷保群李衍杰唐昊代桂平奚宏生《控制理论与应用》2006,23(1):65-68

首先分别在折扣代价与平均代价性能准则下,讨论了一类半M arkov决策问题.基于性能势方法,导出了由最优平稳策略所满足的最优性方程.然后讨论了两种模型之间的关系,表明了平均模型的有关结论,可以通过对折扣模型相应结论取折扣因子趋于零时的极限来得到. 相似文献

11.

Average cost optimal policies for Markov control processes with Borel state space and unbounded costs

Onsimo Hernndez-Lerma 《Systems & Control Letters》1990,15(4)

We show the existence of average cost optimal stationary policies for Markov control processes with Borel state space and unbounded costs per stage, under a set of assumptions recently introduced by L.I. Sennott (1989) for control processes with countable state space and finite control sets. 相似文献

12.

一类不稳定时滞过程的最优控制

王建国顾廷权曹广益朱新坚唐成龙陈培林《控制理论与应用》2009,26(5):567-569

本文对控制能量存在约束条件下一类不稳定时滞过程的最优控制问题进行了探讨. 首先基于不稳定过程的互质分解, 由敏感度函数和控制敏感度函数定义了一个包含跟踪误差和控制能量在内的性能指标, 然后应用谱分解最小化该性能指标, 从而为一类不稳定时滞过程导出了一种最优的控制器设计方法, 可使系统在控制能量存在约束时获得最优的控制性能. 仿真研究进一步说明了该方法的有效性. 相似文献

13.

Markov decision processes with a target set for minimum criteria

Yoshio Ohtsubo 《International Transactions in Operational Research》2007,14(6):509-520

We consider Markov decisions processes with a target set, where criterion function is an expectation of minimum function. We formulate the problem as an infinite horizon case with a recurrent class. We show under some conditions that an optimal value function is a unique solution to an optimality equation and there exists a stationary optimal policy. Also we give a policy improvement method. 相似文献

14.

基于马氏决策过程的概率离散事件系统最优控制

王飞冯祖仁胡奇英《控制理论与应用》2007,24(6):895-901

使用马氏决策过程研究了概率离散事件系统的最优控制问题.首先,通过引入费用函数、目标函数以及最优函数的定义,建立了可以确定最优监控器的最优方程.之后,又通过此最优方程获得了给定语言的极大可控、∈-包含闭语言.最后给出了获得最优费用与最优监控器的算法. 相似文献

15.

The average cost optimality equation for Markov control processes on Borel spaces

Raúl Montes-de-Oca 《Systems & Control Letters》1994,22(5)

This paper deals with discrete-time Markov control processes with Borel state space, allowing unbounded costs and noncompact control sets. For these models, the existence of average optimal stationary policies has been recently established under very general assumptions, using an optimality inequality. Here we give a condition, which is a strengtened version of a variant of the ‘vanishing discount factor’ approach, for the optimality equation to hold. 相似文献

16.

“Super-overtaking” optimal policies for Markov control processes

Evgueni Gordienko 《Systems & Control Letters》1997,31(1):59

In this paper we study the average cost optimization problem for discrete-time Markov control processes on Borel space with possibly unbounded costs. Under proper ergodicity assumptions we show the existence of stationary policies for which asymptotic (as N → ∞) behavior of some functions of N-horizon costs can be better than for overtaking optimal policies. 相似文献

17.

一类离散时间非齐次马尔可夫跳跃系统最优控制

张高生朱进谢宛青奚宏生《控制理论与应用》2016,33(1):128-132

本文研究了一类离散时间非齐次马尔可夫跳跃线性系统的线型二次高斯(linear quadratic Gaussian,LQG)问题,其中系统模态转移概率矩阵随时间随机变化,其变化特性由一高阶马尔可夫链描述.对于该系统的LQG问题,文中首先给出了线性最优滤波器,得到最优状态估计;其次,验证分离定理成立,并利用利用动态规划方法设计了系统最优控制器;最后,数值仿真结果验证了所设计控制器的有效性. 相似文献