共查询到18条相似文献,搜索用时 62 毫秒
1.
针对同时具有线性外部干扰与非线性不确定性下的离散时间部分线性系统的最优输出调节问题, 提出了仅利用在线数据的基于强化学习的数据驱动控制方法. 首先, 该问题可拆分为一个受约束的静态优化问题和一个动态规划问题, 第一个问题可以解出调节器方程的解. 第二个问题可以确定出控制器的最优反馈增益. 然后, 运用小增益定理证明了存在非线性不确定性离散时间部分线性系统的最优输出调节问题的稳定性. 针对传统的控制方法需要准确的系统模型参数用来解决这两个优化问题, 提出了一种数据驱动离线策略更新算法, 该算法仅使用在线数据找到动态规划问题的解. 然后, 基于动态规划问题的解, 利用在线数据为静态优化问题提供了最优解. 最后, 仿真结果验证了该方法的有效性. 相似文献
2.
针对具有外部系统扰动的线性离散时间系统的输出调节问题, 提出了可保证收敛速率的数据驱动最优输出调节方法, 包括状态可在线测量系统的基于状态反馈的算法, 与状态不可在线测量系统的基于输出反馈的算法. 首先, 该问题被分解为输出调节方程求解问题与反馈控制律设计问题, 基于输出调节方程的解, 通过引入收敛速率参数, 建立了可保证收敛速率的最优控制问题, 通过求解该问题得到具有保证收敛速率的输出调节器. 之后, 利用强化学习的方法, 设计基于值迭代的数据驱动状态反馈控制器, 学习得到基于状态反馈的最优输出调节器. 对于状态无法在线测量的被控对象, 利用历史输入输出数据对状态进行重构, 并以此为基础设计基于值迭代的数据驱动输出反馈控制器. 仿真结果验证了所提方法的有效性. 相似文献
3.
无线网络环境下赤铁矿混合选别浓密过程控制问题是以底流矿浆泵频率为内环输入,以底流矿浆流量为内环输出外环输入,以底流矿浆浓度为外环输出的非线性串级工业过程控制问题.其外环反馈回路存在丢包,且模型参数难以辨识,故本文利用工业运行过程的在线数据,设计不依赖模型参数的跟踪控制器.首先,利用浓密过程运行在工作点附近的特点进行线性化,对流量过程设计Q-学习控制器,保证流量过程能够跟踪给定的流量设定值;然后采用提升技术,得到统一时间尺度的以底流矿浆流量设定值为输入,以底流矿浆浓度为输出的被控对象;最后,考虑到在无线网络环境下浓度过程存在反馈丢包,当前的状态可能无法获得,故采用史密斯预估器的思想,利用历史的数据估计系统当前的状态,设计丢包Q-学习设定值控制器为流量过程提供最优设定值.通过仿真实验验证所提算法的有效性. 相似文献
4.
研究一类具有未知初始跟踪条件的非线性系统预设性能最优安全跟踪控制问题. 首先, 开发一个基于可变障碍函数的性能约束控制设计的新方法, 并基于已有的安全边界保护法(SBPM)提出一个新的安全边界自调整规律(SBSAL), 使其不仅可以处理实际输出约束发生突变的情况, 而且还可以解决突变解除后系统输出不能快速准确跟踪原期望轨迹的问题, 使得安全跟踪控制策略更为完善. 然后, 采用演员-评论家神经网络(ACNNs)强化学习(RL)算法优化系统的控制输入, 减少控制的能量消耗. 所设计预设性能最优安全跟踪控制器可保证系统在初始跟踪条件未知情况下的安全跟踪控制, 且系统输出具有预设有限时间控制性能. 最后, 通过仿真验证所提出方法的有效性. 相似文献
5.
研究了带扰动线性开关系统的输出调节问题,在开关系统的一个凸组合系统输出调节问题可解的条件下,设计每个子系统的控制器及开关系统的切换规律,从而给出开关系统输出调节问题的控制策略。 相似文献
6.
当设计前馈-反馈控制器来实现连续时间线性系统的自适应最优输出调节时,往往需要依赖调节器方程的解,然而在系统动态不确定的前提下,获得这个方程的解一般非常困难.现有的自适应最优输出调节方法从选取调节方程解的基矩阵出发,通过在线数据学习每个基矩阵所对应的权重.但是,当被控对象或外部系统阶数过高时,这种方法的计算复杂度亦非常高.对此,提出一种新的无模型方法来实现闭环系统的自适应最优输出调节,调节器方程的解由梯度下降法逼近.需要指出的是,该方法通过在线数据而不是模型信息来获得梯度.仿真结果验证了所提出方法的有效性. 相似文献
7.
针对计算机视觉领域的目标跟踪问题,提出基于强化学习的目标框偏移决策跟踪方法。近年来目标跟踪主要研究趋势是基于孪生网络或相关滤波的跟踪方法。与现有跟踪方法不同,提出的方法通过将目标跟踪视为动作序贯决策问题,设计动作决策网络,使得该网络可以用于预测目标边框的偏移,连续移动目标框实现目标跟踪。动作决策网络基于强化学习方式训练,使得该决策网络能使用标注不全的数据集训练。实验表明,提出的跟踪方法在视觉目标跟踪(Visual object tracking, VOT)数据集上表现优异,能有效应对多种复杂场景,具备较高的跟踪精度。 相似文献
8.
无线网络中基于误码丢包的TCP速率调节策略 总被引:10,自引:1,他引:9
考虑到TCP直接应用于无线环境的局限性,人们提出了多种TCP拥塞控制的改进机制,这些方案一般没有考虑误码丢包对数据发送速率的影响,不过,链路误码率较高时,TCP发送端若不降低其数据发送速率,势必会引起更多的数据因误码而丢失,降低了数据发送的可靠性,从而增国了移动主机不必要的能源消耗和系统不必要的开锁,为此,该文详细讨论了3种基于误码丢包的TCP速率调节机制,它们实现简单,系统额外开销小,既能有效提高数据发送的可靠性,又不会过多降低系统吞吐量和加大系统时延,并且,为进一步研究TCP在无线网络中的应用提供了良好的参考。 相似文献
9.
强化学习系统及其基于可靠度最优的学习算法 总被引:3,自引:0,他引:3
归纳了强化学习的主要理论方法,提出了一个区分主客观因素的强化学习系统描述,引入了任务域的概念,针对以往强化学习采用的期望最优准则描述任务域能力的不足,考虑了目标水平准则下的首达时间可靠度优准则模型,分别结合随机逼近理论和时间差分理论,提出了基于概率估计的J-学习和无需建增量R-学习。 相似文献
10.
二级倒立摆是一个典型的欠驱动非线性系统,其控制问题具有一定的挑战性.为了解决时变参考信号下二级倒立摆的起摆和跟踪控制问题,本文提出了一种基于能量控制与近似输出调节方法的起摆和三阶控制器设计方案.首先,采用能量控制方法将第1级摆杆从下垂位置摆起到倒立位置附近;其次,采用滑模控制方法将第1级摆杆稳定在倒立位置,同时,采用等效小车与能量控制相结合的方法将第2级摆杆摆起到倒立位置附近;最后,采用基于近似输出调节理论的多项式近似方法设计三阶控制器实现二级倒立摆的位置跟踪控制.仿真和实验结果均验证了该控制方案的有效性. 相似文献
11.
针对具有数据包丢失的网络化控制系统跟踪控制问题,提出一种非策略Q-学习方法,完全利用可测数据,在系统模型参数未知并且网络通信存在数据丢失的情况下,实现系统以近似最优的方式跟踪目标.首先,刻画具有数据包丢失的网络控制系统,提出线性离散网络控制系统跟踪控制问题;然后,设计一个Smith预测器补偿数据包丢失对网络控制系统性能的影响,构建具有数据包丢失补偿的网络控制系统最优跟踪控制问题;最后,融合动态规划和强化学习方法,提出一种非策略Q-学习算法.算法的优点是:不要求系统模型参数已知,利用网络控制系统可测数据,学习基于预测器状态反馈的最优跟踪控制策略;并且该算法能够保证基于Q-函数的迭代Bellman方程解的无偏性.通过仿真验证所提方法的有效性. 相似文献
12.
In this paper, a data-driven control approach is developed by reinforcement learning (RL) to solve the global robust optimal output regulation problem (GROORP) of partially linear systems with both static uncertainties and nonlinear dynamic uncertainties. By developing a proper feedforward controller, the GROORP is converted into a global robust optimal stabilization problem. A robust optimal feedback controller is designed which is able to stabilize the system in the presence of dynamic uncertainties. The closed-loop system is ensured to be input-to-output stable regarding the static uncertainty as the external input. This robust optimal controller is numerically approximated via RL. Nonlinear small-gain theory is applied to show the input-to-output stability for the closed-loop system and thus solves the original GROORP. Simulation results validates the efficacy of the proposed methodology. 相似文献
13.
最近,强化学习序列推荐系统受到研究者们的广泛关注,这得益于它能更好地联合建模用户感兴趣的内动态和外倾向。然而,现有方法面临同策略评估方法数据利用率低导致模型依赖大量的专家标注数据和启发式价值激励函数设计依赖反复人工调试两个主要挑战。因此,提出了一种新颖的异策略模仿-强化学习的序列推荐算法COG4Rec,以提高数据利用效率和实现可学习的价值函数。首先,它通过异策略方式更新分布匹配目标函数,来避免同策略更新密集在线交互限制;其次,COG4Rec采用可学习的价值函数设计,通过对数衰减状态分布比模仿用户外倾向的价值激励函数;最后,为了避免模仿学习分布漂移问题,COG4Rec通过累积衰减分布比强化用户行为记录中高价值轨迹片段重组推荐策略。一系列基准数据集上的性能对比实验和消融实验结果表明:COG4Rec比自回归模型提升了17.60%,它比启发式强化学习方法提升了3.25%。这证明了所提模型结构和优化算法的有效性。这也证明可学习的价值函数是可行的,并且异策略方式能有效提高数据利用效率。 相似文献
14.
15.
How to improve the control of batch processes is not an easy task because of modeling errors and time delays. In this work, novel iterative learning control (ILC) strategies, which can fully use previous batch control information and are attached to the existing control systems to improve tracking performance through repetition, are proposed for SISO processes which have uncertainties in modeling and time delays. The dynamics of the process are represented by transfer function plus pure time delay. The stability properties of the proposed strategies for batch processes in the presence of uncertainties in modeling and/or time delays are analyzed in the frequency domain. Sufficient conditions guaranteeing convergence of tracking error are stated and proven. Simulation and experimental examples demonstrating these methods are presented. 相似文献
16.
一种基于Smith预估器的温度控制系统 总被引:7,自引:0,他引:7
针对温控系统的大纯滞后特性,提出了基于Smith预估器温控系统的设计方法。该方法能有铲克服大纯滞后对控制系统稳定性的影响,且实现简单、可靠性好。 相似文献
17.
模糊Smith智能温度控制器的设计与仿真 总被引:9,自引:0,他引:9
结合模糊PID控制与模糊自适应Smith预估控制的优点,提出了模糊Smith智能控制方法。用模糊控制方法设计了改进型Smith预估器的滤波时间常数,并制定了其整定规则和参数的模糊自适应调整机构。仿真研究表明,模糊Smith智能控制能改善参数时变的纯滞后系统的控制性能,提高系统控制时的鲁棒性与自适应性。 相似文献
18.
The Smith predictor has been used to improve the closed-loop performance for systems with time delays. This paper proposes a frequency-domain method to design an iterative learning control to further improve the performance of Smith predictor controller. For a time-invariant plant with multiplicative perturbations and a Smith predictor controller, we derive a sufficient and necessary condition (which has the same form as that of a general robust performance design problem) for the iterative process to converge for all admissible plant uncertainties. In addition, the iterative learning controller under plant uncertainty is designed. An illustrative example demonstrating the main result is presented. 相似文献