期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

左燕薛安克王建中《控制理论与应用》2010,27(12):1793-1797

具有到达时间约束、目标为最小化加权完工时间之和的单机调度问题是一个典型的NP-hard问题,采用时间下标建模的线性规划松弛方法可提供一个很强的下界,但优化求解存在维数困难.为此,本文提出了一种对偶集结优化策略,通过选择一个衰减集结矩阵集结对偶乘子变量,利用对偶理论获得模型的约束集结,从而降低计算复杂度.同时分析了集结模型的结构特性,并提出一种迭代算法来改善下界.仿真结果表明对偶集结迭代算法能够减少计算时间,同时改善下界性能,适用于大规模调度问题. 相似文献

2.

迭代扩张状态观测器及其在迭代学习控制中的应用

李向阳《控制与决策》2015,30(3):473-478

针对一类迭代学习控制(ILC)系统的不确定项,根据时域中扩张状态观测器的思想,提出迭代域中线性迭代扩张状态观测器(LIESO),该线性迭代扩张状态观测器可以利用迭代过程的跟踪误差给出迭代学习控制系统的不确定项的显式估计。给出了基于该估计的迭代学习控制算法,并应用类Lyapunov方法证明其收敛性。仿真结果表明,所提出的迭代学习控制算法是有效的,应用迭代扩张状态观测器可以大幅度提高迭代学习效率。相似文献

3.

改进的迭代收缩阈值算法及其在量子状态估计中的应用

丛爽丁娇张坤《控制理论与应用》2020,37(7):1667-1672

本文将含有稀疏干扰的量子状态估计问题,转化为考虑量子状态的约束条件下,分别求解密度矩阵的核范数,以及稀疏干扰l1范数的两个子问题的优化问题.针对迭代收缩阈值算法(ISTA)所存在的收敛速度慢的问题,通过在两个子问题的迭代估计中,引入一个加速算子,对当前值与前一次值之差进行进一步的补偿,来提高算法的迭代速度(FISTA).并将FISTA算法应用于求解含有稀疏干扰的量子状态估计中.针对5个量子位的状态估计的仿真实验,将FISTA分别与ISTA、交替方向乘子法(ADMM)、不动点方程的ADMM算法(FP–ADMM),以及非精确的ADMM算法(I–ADMM)4种优化算法进行性能对比.实验结果表明, FISTA算法具有更加优越的收敛速度,并且能够得到更小的量子状态估计误差. 相似文献

4.

随机迭代算法的概率分布模型及应用

章立亮《电脑与信息技术》2006,14(5):11-13,41

针对带概率的迭代函数系统，伴随概率在吸引子图像控制中的影响作用，文章提出了几种不同的概率分布模型，应用该模型可以对吸引子图像实现局部细节和整体形状的控制，并以树木的模拟为实例，通过计算机数值实验展示了所给模型的控制效果。此方法用于计算机模拟自然景物，计算简单，易于操作，效果较好。相似文献

5.

基于萤火虫算法的矩阵信息集结方法研究

张垒《控制工程》2019,26(10)

相似文献

6.

基于迭代扩张状态观测器的数据驱动最优迭代学习控制

惠宇池荣虎《控制理论与应用》2018,35(11):1672-1679

针对一类带扰动有限时间内重复运行的离散时间非线性非仿射不确定系统,本文提出了一种基于迭代扩张状态观测器的数据驱动最优迭代学习控制方法.首先,提出了改进的迭代动态线性化方法,将被控系统线性化为与控制输入有关的仿射形式,并将不确定性合并到一个非线性项中;然后,设计了迭代扩张状态观测器对非线性不确定项进行估计,作为对扰动的补偿;最后,设计了性能指标函数,通过最优技术,提出了参数迭代更新律和最优学习控制律.本文通过数学分析,证明了跟踪误差的有界收敛性.仿真结果验证了方法的有效性.所提出的新型迭代动态线性化方法可很大程度上降低线性化后的控制增益的动态复杂性,使其易于估计.所提出的迭代扩张状态观测器可以在重复中学习,对非重复扰动可进行有效的估计.此外,本文控制器的设计与分析是数据驱动的控制方法,除了被控系统的输入输出数据以外,不需要任何其他模型信息. 相似文献

7.

基于LMI方法的保性能迭代学习算法设计 总被引：4，自引：0，他引：4

杨胜跃樊晓平年晓红瞿志华罗安黄深喜《自动化学报》2006,32(4):578-585

研究基于性能的迭代学习算法设计与优化问题.首先定义了迭代域二次型性能函数,然后针对线性离散系统给出了迭代域最优迭代学习算法;基于线性矩阵不等式(LMI)方法,针对不确定线性离散系统给出了保性能迭代学习算法及其优化方法.对于这两类迭代学习算法,只要调整性能函数中的权系数矩阵,便可很好地调整迭代学习收敛速度.另外,保性能迭代学习算法设计及优化过程,可利用MATLAB工具箱很方便地求解. 相似文献

8.

非线性系统高阶迭代学习算法 总被引：3，自引：1，他引：2

孙明轩万伯任《控制与决策》1994,(3)

结合迭代学习控制算法中的开环和闭环方案，本文针对更一般的非线性系统，讨论高阶算法的广泛适用性。理论和仿真结果表明了高阶算法在输出跟踪和干扰抑制方面的有效性。相似文献

9.

基于扩张状态观测器的鲁棒迭代学习控制

谭程元王晶《控制理论与应用》2018,35(11):1680-1686

针对一类包含模型不确定和外界干扰等非重复扰动的线性离散系统,本文通过将迭代学习控制与自抗扰技术相结合,提出一种新的基于扩张观测器的鲁棒迭代学习控制方法.本文以时间轴和迭代轴两个方向同时出发考虑系统的非重复扰动估计和稳定收敛问题.将与时间和迭代轴同时相关的模型不确定及外界干扰等因素归纳为系统总扰动,针对其非重复变化特性给出了扩张观测器的设计,保证在批次内快速、准确地估计系统总扰动;基于上述扰动估计,设计新型的迭代学习控制律,利用线性矩阵不等式方法证明了整个鲁棒迭代学习系统的稳定性和收敛性,并给出合理的控制器参数估计条件.此外,讨论了迭代学习控制中第一批次的控制律设计问题,给出合理的自抗扰控制器设计.最后通过仿真对比实验验证了本文方法的可行性和有效性. 相似文献

10.

基于集结策略的非线性稳定预测控制器 总被引：1，自引：0，他引：1

刘斌席裕庚《控制与决策》2004,19(11):1232-1236

针对有约束非线性系统预测控制在线计算量大的问题，引入集结策略降低其在线计算量并重点讨论了系统的稳定性问题．指出当控制器的终端状态处于某集合内且集结衰减系数的上界满足一定条件时，其最优目标函数递减．进而提出了一个双模控制律，可使系统渐近稳定．最后，通过仿真对该结论进行了验证．相似文献

11.

基于最小最大逼近强化学习的误差分析

吴沧浦刘念泉《控制与决策》2000,15(2):193-196

在基于动态规划的强化学习中,利用状态集结方法可以减小状态空间的大小,从而在一定程度上克服了维数灾的困难,同时还可以加快学习速度。但状态集结是一种逼近方法,由此产生的问题是,状态集结后的Ｑ－ｈａｔ强化学习收敛所得的最优Ｑ值函数与集结前相应的最优Ｑ值函数会有多大的误差。为此提出了基于最小最大逼近强化学习的误差估计。相似文献

12.

Multi-class,multi-resource advance scheduling with no-shows,cancellations and overbooking

《Computers & Operations Research》2016

We investigate a class of scheduling problems where dynamically and stochastically arriving appointment requests are either rejected or booked for future slots. A customer may cancel an appointment. A customer who does not cancel may fail to show up. The planner may overbook appointments to mitigate the detrimental effects of cancellations and no-shows. A customer needs multiple renewable resources. The system receives a reward for providing service; and incurs costs for rejecting requests, appointment delays, and overtime. Customers are heterogeneous in all problem parameters. We provide a Markov decision process (MDP) formulation of these problems. Exact solution of this MDP is intractable. We show that this MDP has a weakly coupled structure that enables us to apply an approximate dynamic programming method rooted in Lagrangian relaxation, affine value function approximation, and constraint generation. We compare this method with a myopic scheduling heuristic on eighteen hundred problem instances. Our experiments show that there is a statistically significant difference in the performance of the two methods in 77% of these instances. Of these statistically significant instances, the Lagrangian method outperforms the myopic method in 97% of the instances. 相似文献

13.

基于LACP协议的链路聚合状态机模块的实现 总被引：2，自引：0，他引：2

郑涛郭裕顺《计算机系统应用》2010,19(5):104-108

首先介绍了链路聚合技术的背景和基本概念,接着说明了LACP协议（Link Aggregation Control Protoc01）的内容和原理,其中LACP状态机模块控制着整个LACP协议的运转,是保证基于LACP协议的链路聚合可以有效工作的核心和关键模块。最后以802．3ad的LACP协议为基础,利用有限状态机的设计方法,实现并优化了LACP协议状态机模块的功能。经测试,该模块功能运行正常,能够正确处理协议运行的各种情况。相似文献

14.

平均奖赏强化学习算法研究 总被引：7，自引：0，他引：7

高阳周如益王皓曹志新《计算机学报》2007,30(8):1372-1378

顺序决策问题常用马尔可夫决策过程(MDP)建模.当决策行为执行从时刻点扩展到连续时间上时,经典的马尔可夫决策过程模型也扩展到半马尔可夫决策过程模型(SMDP).当系统参数未知时,强化学习技术被用来学习最优策略.文中基于性能势理论,证明了平均奖赏强化学习的逼近定理.通过逼近相对参考状态的性能势值函数,研究一个新的平均奖赏强化学习算法--G-学习算法.G-学习算法既可以用于MDP,也可以用于SMDP.不同于经典的R-学习算法,G-学习算法采用相对参考状态的性能势值函数替代相对平均奖赏和的相对值函数.在顾客访问控制和生产库存仿真实验中,G-学习算法表现出优于R-学习算法和SMART算法的性能. 相似文献

15.

Value set iteration for Markov decision processes

Hyeong Soo Chang 《Automatica》2014

This communique presents an algorithm called “value set iteration” (VSI) for solving infinite horizon discounted Markov decision processes with finite state and action spaces as a simple generalization of value iteration (VI) and as a counterpart to Chang’s policy set iteration. A sequence of value functions is generated by VSI based on manipulating a set of value functions at each iteration and it converges to the optimal value function. VSI preserves convergence properties of VI while converging no slower than VI and in particular, if the set used in VSI contains the value functions of independently generated sample-policies from a given distribution and a properly defined policy switching policy, a probabilistic exponential convergence rate of VSI can be established. Because the set used in VSI can contain the value functions of any policies generated by other existing algorithms, VSI is also a general framework of combining multiple solution methods. 相似文献

16.

SHP-VI:一种基于最短哈密顿通路的POMDP值迭代算法

冯奇周雪忠黄厚宽张小平《计算机研究与发展》2011,(12)

基于试探(trial-based)的值迭代算法是求解部分可观察Markov决策过程(partially observable Markov decision process,POMDP)模型的一类有效算法,其中FSVI算法是目前最快的算法之一.然而对于较大规模的POMDP问题,FSVI计算MDP值函数的时间是不容忽视的.提出一种基于最短哈密顿通路(shortest Hamiltonian path)的值迭代算法(shortest Hamiltonian path-based value iteration,SHP-VI).该方法用求解最短哈密顿通路问题的蚁群算法计算一条最优信念状态轨迹,然后在这些信念状态上反向更新值函数.通过与FSVI算法的实验比较,结果表明SHP-VI算法很大程度地提高了基于试探的算法计算信念状态轨迹的效率. 相似文献

17.

NDPS：一种无线多媒体网络分组调度算法

下载免费PDF全文

余荣贾志鹏梅顺良《计算机工程》2008,34(12):70-72

分组调度是实现未来无线多媒体网络的关键技术之一。解决该技术的主要困难在于无线链路的高差错率、业务类型的多样性和分组到达模型的未知性。该文引入马尔可夫决策过程对分组调度过程进行建模,运用神经动态规划方法求解相应的马尔可夫决策过程问题。提出一种无线多媒体网络分组调度算法(NDPS)可以同时实现3个性能目标：对不同业务类型提供差分服务,最大化无线带宽的利用率和保证服务公平性。仿真实验结果证明,NDPS算法比两种流行的调度算法具有更好的性能。相似文献

18.

A Reinforcement Learning Algorithm Based on Policy Iteration for Average Reward: Empirical Results with Yield Management and Convergence Analysis 总被引：2，自引：0，他引：2

Abhijit Gosavi 《Machine Learning》2004,55(1):5-29

We present a Reinforcement Learning (RL) algorithm based on policy iteration for solving average reward Markov and semi-Markov decision problems. In the literature on discounted reward RL, algorithms based on policy iteration and actor-critic algorithms have appeared. Our algorithm is an asynchronous, model-free algorithm (which can be used on large-scale problems) that hinges on the idea of computing the value function of a given policy and searching over policy space. In the applied operations research community, RL has been used to derive good solutions to problems previously considered intractable. Hence in this paper, we have tested the proposed algorithm on a commercially significant case study related to a real-world problem from the airline industry. It focuses on yield management, which has been hailed as the key factor for generating profits in the airline industry. In the experiments conducted, we use our algorithm with a nearest-neighbor approach to tackle a large state space. We also present a convergence analysis of the algorithm via an ordinary differential equation method. 相似文献

19.

针对层次化名字路由的聚合机制

许志伟陈波张玉军《软件学报》2019,30(2):381-398

为了从根本上解决现有互联网存在的可扩展性、移动性和安全性等方面的问题,全新的未来互联网体系结构得到了广泛研究.其中,命名数据网络（named data networking,简称NDN）利用网内缓存和多路转发实现了基于层次化名字的高效数据传输,从根本上解决了现有互联网所面临的问题.内容的层次化名字具有数量庞大、结构复杂等特点,现有的基于IP的路由转发机制无法直接应用于NDN网络,需要有针对性地研究高效的层次化名字路由机制,保证海量网络内容的正常路由转发.路由聚合是缩减网络路由规模的主要措施.不同于现有的面向本地NDN路由表查表过程的优化,路由聚合需要全网协同处理,在不同网络节点上不断对聚合路由进行聚合.这对聚合路由标识和聚合路由可用性评估提出了诸多要求.为此,研究并提出了针对层次化名字路由的聚合机制,包括两个方面的工作：（1）构建了一种全新的计数布隆过滤器——堆叠布隆过滤器,该过滤器支持多过滤器合并,用于压缩表示被聚合路由名字;（2）给出了一种动态路由聚合机制,在保证NDN网络路由转发准确性的同时,缩小全网路由规模,最大程度地优化了路由转发效率.在真实网络拓扑上构建了仿真平台,经过实验验证,该路由聚合机制以可控的少量冗余转发为代价,有效地压缩了全网路由规模,提升了全网路由转发效率,保证了海量在线内容的高效路由转发,为NDN网络投入实际部署提供了前提. 相似文献

20.

基于状态指标的更新决策方法研究

刘鑫贾云献林国语田霞《计算机测量与控制》2015,23(4)

针对设备在实际运行和执行任务时经常涉及到维修、更新报废等管理活动缺乏定量模型支撑的问题,提出了利用典型部件的预测寿命和非典型部件的历史寿命对设备系统级的健康状态进行综合评估的方法,建立了一种以状态指标为决策序列的动态规划更新决策方法;该方法能综合考虑维修费用和更新费用,确定最优更新决策,降低保障费用,有效地提高了设备的经济效益;最后经过案例分析证明了该方法的有效性,对于提高设备的保障能力和经济效益提供了理论支撑和方法指导. 相似文献