首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 78 毫秒
1.
本文研究了异构多智能体系统的最优输出调节问题.通信网络拓扑含有向生成树.首先,设计了外部系统状态补偿器和状态反馈控制器,应用图论和Lyapunov稳定性理论证明了所设计的补偿器和控制器可以解决一般输出调节问题.然后,通过最小化预定义的成本方程,解决最优输出调节问题.结合最优控制理论和强化学习技术,提出了两种求解最优控制器的算法,即基于模型的策略迭代算法和无模型off-policy算法.利用无模型算法获取最优控制器的过程既不需要求解输出调节方程也不需要使用系统动态信息.最后,通过数值仿真验证了本文所提出的算法的有效性.  相似文献   

2.
针对同时具有线性外部干扰与非线性不确定性下的离散时间部分线性系统的最优输出调节问题, 提出了仅利用在线数据的基于强化学习的数据驱动控制方法. 首先, 该问题可拆分为一个受约束的静态优化问题和一个动态规划问题, 第一个问题可以解出调节器方程的解. 第二个问题可以确定出控制器的最优反馈增益. 然后, 运用小增益定理证明了存在非线性不确定性离散时间部分线性系统的最优输出调节问题的稳定性. 针对传统的控制方法需要准确的系统模型参数用来解决这两个优化问题, 提出了一种数据驱动离线策略更新算法, 该算法仅使用在线数据找到动态规划问题的解. 然后, 基于动态规划问题的解, 利用在线数据为静态优化问题提供了最优解. 最后, 仿真结果验证了该方法的有效性.  相似文献   

3.
针对具有外部系统扰动的线性离散时间系统的输出调节问题, 提出了可保证收敛速率的数据驱动最优输出调节方法, 包括状态可在线测量系统的基于状态反馈的算法, 与状态不可在线测量系统的基于输出反馈的算法. 首先, 该问题被分解为输出调节方程求解问题与反馈控制律设计问题, 基于输出调节方程的解, 通过引入收敛速率参数, 建立了可保证收敛速率的最优控制问题, 通过求解该问题得到具有保证收敛速率的输出调节器. 之后, 利用强化学习的方法, 设计基于值迭代的数据驱动状态反馈控制器, 学习得到基于状态反馈的最优输出调节器. 对于状态无法在线测量的被控对象, 利用历史输入输出数据对状态进行重构, 并以此为基础设计基于值迭代的数据驱动输出反馈控制器. 仿真结果验证了所提方法的有效性.  相似文献   

4.
吴倩  范家璐  姜艺  柴天佑 《自动化学报》2019,45(6):1122-1135
无线网络环境下赤铁矿混合选别浓密过程控制问题是以底流矿浆泵频率为内环输入,以底流矿浆流量为内环输出外环输入,以底流矿浆浓度为外环输出的非线性串级工业过程控制问题.其外环反馈回路存在丢包,且模型参数难以辨识,故本文利用工业运行过程的在线数据,设计不依赖模型参数的跟踪控制器.首先,利用浓密过程运行在工作点附近的特点进行线性化,对流量过程设计Q-学习控制器,保证流量过程能够跟踪给定的流量设定值;然后采用提升技术,得到统一时间尺度的以底流矿浆流量设定值为输入,以底流矿浆浓度为输出的被控对象;最后,考虑到在无线网络环境下浓度过程存在反馈丢包,当前的状态可能无法获得,故采用史密斯预估器的思想,利用历史的数据估计系统当前的状态,设计丢包Q-学习设定值控制器为流量过程提供最优设定值.通过仿真实验验证所提算法的有效性.  相似文献   

5.
研究一类具有未知初始跟踪条件的非线性系统预设性能最优安全跟踪控制问题.首先,开发一个基于可变障碍函数的性能约束控制设计的新方法,并基于已有的安全边界保护法(SBPM)提出一个新的安全边界自调整规律(SBSAL),使其不仅可以处理实际输出约束发生突变的情况,而且还可以解决突变解除后系统输出不能快速准确跟踪原期望轨迹的问题,使得安全跟踪控制策略更为完善.然后,采用演员-评论家神经网络(ACNNs)强化学习(RL)算法优化系统的控制输入,减少控制的能量消耗.所设计预设性能最优安全跟踪控制器可保证系统在初始跟踪条件未知情况下的安全跟踪控制,且系统输出具有预设有限时间控制性能.最后,通过仿真验证所提出方法的有效性.  相似文献   

6.
自主水下航行器(AUV)是海洋探索和开发的重要工具之一。当AUV执行海洋任务时,由于其本体水动力参数的不确定性和未知海流、内波等外在因素的干扰,AUV的精确定位控制具有很大的挑战性。针对欠驱动AUV环境最优艏向定位控制问题,提出了一种基于强化学习补偿的滑模控制方法。首先,利用固定坐标系与AUV体坐标系间的转移关系,建立了考虑海流流速作用的三自由度欠驱动AUV数学模型。其次,根据环境最优艏向控制原理,设计了AUV的位置滑模控制器和姿态滑模控制器。为了克服AUV模型存在的不确定性和海流流速不确定性,采用深度确定性策略梯度(DDPG)算法设计了强化学习神经网络,对上述两种不确定性在滑模控制中造成的严重干扰进行自适应估计补偿。最后,在海流情况下进行模拟仿真,结果表明,所提出的方法能有效实现AUV环境最优定位控制,并对外界扰动具有良好的鲁棒性,精度明显优于经典滑模控制。  相似文献   

7.
针对离散时间多智能体系统的协同最优输出调节问题,在不依赖多智能体系统矩阵精确信息的条件下提出分布式数据驱动自适应控制策略.基于自适应动态规划和分布式自适应内模,通过引入值迭代和策略迭代两种强化学习算法,利用在线数据学习最优控制器,实现多智能体系统的协同输出调节.考虑到跟随者只能访问领导者的估计值进行在线学习,对闭环系统的稳定性和学习算法的收敛性进行严格的理论分析,证明所学习的控制增益可以收敛到最优控制增益.仿真结果验证了所提控制方法的有效性.  相似文献   

8.
刘玉忠  赵军 《控制与决策》2001,16(11):815-817
研究了带扰动线性开关系统的输出调节问题,在开关系统的一个凸组合系统输出调节问题可解的条件下,设计每个子系统的控制器及开关系统的切换规律,从而给出开关系统输出调节问题的控制策略。  相似文献   

9.
高伟男  杨涛  柴天佑 《控制与决策》2023,38(8):2425-2432
当设计前馈-反馈控制器来实现连续时间线性系统的自适应最优输出调节时,往往需要依赖调节器方程的解,然而在系统动态不确定的前提下,获得这个方程的解一般非常困难.现有的自适应最优输出调节方法从选取调节方程解的基矩阵出发,通过在线数据学习每个基矩阵所对应的权重.但是,当被控对象或外部系统阶数过高时,这种方法的计算复杂度亦非常高.对此,提出一种新的无模型方法来实现闭环系统的自适应最优输出调节,调节器方程的解由梯度下降法逼近.需要指出的是,该方法通过在线数据而不是模型信息来获得梯度.仿真结果验证了所提出方法的有效性.  相似文献   

10.
考虑了量化通信下多智能体系统的协同最优输出调节问题. 为降低通信负担, 利用取整量化器将智能体之间传输的浮点数数据转化为整数, 从而减少通信信道中传输数据的比特数. 通过将量化器引入编码−解码方案中, 设计分布式量化观测器, 保证在量化通信下, 每个跟随者对外部系统状态的估计误差渐近收敛至零. 在此基础上, 在多智能体系统动态未知的情况下, 提出基于自适应动态规划的数据驱动算法, 在线学习次优控制策略, 解决协同最优输出调节问题, 保证每个跟随者的输出信号渐近跟踪参考信号, 并抑制由外部系统产生的干扰信号. 最后, 在智能车联网自适应巡航控制系统上进行仿真实验并验证了所提方法的有效性. 结果表明与精确通信相比, 量化通信下比特数降低了58.33%.  相似文献   

11.
李金娜  尹子轩 《控制与决策》2019,34(11):2343-2349
针对具有数据包丢失的网络化控制系统跟踪控制问题,提出一种非策略Q-学习方法,完全利用可测数据,在系统模型参数未知并且网络通信存在数据丢失的情况下,实现系统以近似最优的方式跟踪目标.首先,刻画具有数据包丢失的网络控制系统,提出线性离散网络控制系统跟踪控制问题;然后,设计一个Smith预测器补偿数据包丢失对网络控制系统性能的影响,构建具有数据包丢失补偿的网络控制系统最优跟踪控制问题;最后,融合动态规划和强化学习方法,提出一种非策略Q-学习算法.算法的优点是:不要求系统模型参数已知,利用网络控制系统可测数据,学习基于预测器状态反馈的最优跟踪控制策略;并且该算法能够保证基于Q-函数的迭代Bellman方程解的无偏性.通过仿真验证所提方法的有效性.  相似文献   

12.
    
In this paper, a data-driven control approach is developed by reinforcement learning (RL) to solve the global robust optimal output regulation problem (GROORP) of partially linear systems with both static uncertainties and nonlinear dynamic uncertainties. By developing a proper feedforward controller, the GROORP is converted into a global robust optimal stabilization problem. A robust optimal feedback controller is designed which is able to stabilize the system in the presence of dynamic uncertainties. The closed-loop system is ensured to be input-to-output stable regarding the static uncertainty as the external input. This robust optimal controller is numerically approximated via RL. Nonlinear small-gain theory is applied to show the input-to-output stability for the closed-loop system and thus solves the original GROORP. Simulation results validates the efficacy of the proposed methodology.   相似文献   

13.
沈伟  胡立生  邵惠鹤 《计算机工程》2002,28(7):135-136,280
在高速通信网络中,传播时延对基于速率的流量控制具有很大的不利影响,Smith预估补偿是克服时延影响的一种较好的控制方案,但其对预估值的误差十分敏感,文章将改进型Smith预估补偿应用于ATM网络的流量控制,理论分析表明该方案对传播时延等参数的变化有较强的适应性,控制系统的鲁棒稳定性的动态品质均优于单纯的Smith预估补偿控制,并得到了仿真结果的验证。  相似文献   

14.
How to improve the control of batch processes is not an easy task because of modeling errors and time delays. In this work, novel iterative learning control (ILC) strategies, which can fully use previous batch control information and are attached to the existing control systems to improve tracking performance through repetition, are proposed for SISO processes which have uncertainties in modeling and time delays. The dynamics of the process are represented by transfer function plus pure time delay. The stability properties of the proposed strategies for batch processes in the presence of uncertainties in modeling and/or time delays are analyzed in the frequency domain. Sufficient conditions guaranteeing convergence of tracking error are stated and proven. Simulation and experimental examples demonstrating these methods are presented.  相似文献   

15.
一种基于Smith预估器的温度控制系统   总被引:7,自引:0,他引:7  
针对温控系统的大纯滞后特性,提出了基于Smith预估器温控系统的设计方法。该方法能有铲克服大纯滞后对控制系统稳定性的影响,且实现简单、可靠性好。  相似文献   

16.
最近,强化学习序列推荐系统受到研究者们的广泛关注,这得益于它能更好地联合建模用户感兴趣的内动态和外倾向。然而,现有方法面临同策略评估方法数据利用率低导致模型依赖大量的专家标注数据和启发式价值激励函数设计依赖反复人工调试两个主要挑战。因此,提出了一种新颖的异策略模仿-强化学习的序列推荐算法COG4Rec,以提高数据利用效率和实现可学习的价值函数。首先,它通过异策略方式更新分布匹配目标函数,来避免同策略更新密集在线交互限制;其次,COG4Rec采用可学习的价值函数设计,通过对数衰减状态分布比模仿用户外倾向的价值激励函数;最后,为了避免模仿学习分布漂移问题,COG4Rec通过累积衰减分布比强化用户行为记录中高价值轨迹片段重组推荐策略。一系列基准数据集上的性能对比实验和消融实验结果表明:COG4Rec比自回归模型提升了17.60%,它比启发式强化学习方法提升了3.25%。这证明了所提模型结构和优化算法的有效性。这也证明可学习的价值函数是可行的,并且异策略方式能有效提高数据利用效率。  相似文献   

17.
模糊Smith智能温度控制器的设计与仿真   总被引:9,自引:0,他引:9  
陈以  杨启伟 《控制工程》2007,14(4):422-426
结合模糊PID控制与模糊自适应Smith预估控制的优点,提出了模糊Smith智能控制方法。用模糊控制方法设计了改进型Smith预估器的滤波时间常数,并制定了其整定规则和参数的模糊自适应调整机构。仿真研究表明,模糊Smith智能控制能改善参数时变的纯滞后系统的控制性能,提高系统控制时的鲁棒性与自适应性。  相似文献   

18.
The Smith predictor has been used to improve the closed-loop performance for systems with time delays. This paper proposes a frequency-domain method to design an iterative learning control to further improve the performance of Smith predictor controller. For a time-invariant plant with multiplicative perturbations and a Smith predictor controller, we derive a sufficient and necessary condition (which has the same form as that of a general robust performance design problem) for the iterative process to converge for all admissible plant uncertainties. In addition, the iterative learning controller under plant uncertainty is designed. An illustrative example demonstrating the main result is presented.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号