首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 250 毫秒
1.
徐琰恺  陈曦 《控制与决策》2008,23(12):1359-1362
研究离散时间跳变线性二次(JLQ)模型的直接自适应最优控制问题.将强化学习的理论和方法应用于JLQ模型,设计基于Q函数的策略迭代算法,以优化系统性能.在系统参数以及模态跳变概率未知的情况下,Q函数对应的参数矩阵,可通过观察给定策略下系统行为,应用递归最小二乘算法在线估计.基于此参数矩阵,可构造出新的策略使得系统性能更优.该算法可收敛到最优策略.  相似文献   

2.
针对一类状态和控制变量均带有时滞的非线性系统的带有二次性能指标函数最优控制问题, 本文提出了一种基于新的迭代自适应动态规划算法的最优控制方案. 通过引进时滞矩阵函数, 应用动态规划理论, 本文获得了最优控制的显式表达式, 然后通过自适应评判技术获得最优控制量. 本文给出了收敛性证明以保证性能指标函数收敛到最优. 为了实现所提出的算法, 本文采用神经网络近似性能指标函数、计算最优控制策略、求解时滞矩阵函数、以及给非线性系统建模. 最后本文给出了两个仿真例子说明所提出的最优策略的有效性.  相似文献   

3.
针对传统相关积分优化方法,当系统扰动与调优变量相关时,在迭代优化的过程中,目标函数难以收敛到最优值的问题,提出了一种改进的相关积分优化方法用于稳态操作调优.基于数据驱动稳态模型,构造了自适应扰动估计器用来估计扰动均值,对最小二乘方法计算得到的调优变量梯度均值进行补偿,并修正调优变量,确保目标函数在调优的过程中收敛于最优值.仿真对比及工业应用结果证实了所提方法的可行性和有效性.  相似文献   

4.
本文针对一类在有限时间内执行重复任务的不确定非线性系统状态跟踪问题,提出一种自适应滑模迭代学习控制方法,在存在初始偏移的情况下也能实现对参考轨迹的完全收敛.本文通过设计全饱和自适应迭代学习更新律,估计参数和非参数不确定性以及未知期望控制输入,并将估计值限制在指定界内,避免估计值的正向累加.文章设计的自适应滑模迭代学习控制方法对系统模型的信息需求少,在对系统非参数不确定性的上界估计时不需要Lipschitz界函数已知.本文给出严格的理论分析,证明闭环系统所有信号的一致有界性以及跟踪误差的一致收敛性,并通过仿真验证所提控制方法的有效性.  相似文献   

5.
黄英博  吕永峰  赵刚  那靖  赵军 《控制与决策》2022,37(12):3197-3206
针对非线性主动悬架系统多性能指标综合优化问题,提出一类自适应最优控制方法.首先,通过引入一阶低通滤波操作,利用系统输入输出构建结构简单且调节参数少的一类未知非线性动态估计器,在线估计系统未知非线性动态;其次,构建包含乘驾舒适度、悬架行程空间及输入能耗的性能指标函数,采用单层神经网络对最优性能指标函数进行在线逼近,并得到新的哈密尔顿函数;为实现在线求解,构建一类新的基于参数估计误差信息的自适应律,在线更新神经网络权值并计算最优控制律;最后,理论分析闭环系统稳定性和收敛性,并通过专业软件Carsim与Matlab/Simulink搭建的联合仿真平台给出的对比仿真结果,验证所提出方法可有效解决主动悬架系统多目标性能优化控制问题,提升主动悬架系统综合性能.  相似文献   

6.
陈学松  刘富春 《控制与决策》2013,28(12):1889-1893

提出一类非线性不确定动态系统基于强化学习的最优控制方法. 该方法利用欧拉强化学习算法估计对象的未知非线性函数, 给出了强化学习中回报函数和策略函数迭代的在线学习规则. 通过采用向前欧拉差分迭代公式对学习过程中的时序误差进行离散化, 实现了对值函数的估计和控制策略的改进. 基于值函数的梯度值和时序误差指标值, 给出了该算法的步骤和误差估计定理. 小车爬山问题的仿真结果表明了所提出方法的有效性.

  相似文献   

7.
基于数据自适应评判的离散2-D系统零和博弈最优控制   总被引:1,自引:1,他引:0  
提出了基于一种迭代自适应评判设计(ACD)算法解决一类离散时间Roesser型2-D系统的二人零和对策问题. 文章主要思想是采用自适应评判技术迭代的获得最优控制对使得性能指标函数达到零和对策的鞍点. 所提出的ACD可以通过输入输出数据进行实现而不需要系统的模型. 为了实现迭代ACD算法, 神经网络分别用来近似性能指标函数和计算最优控制率. 最后最优控制策略将应用到空气干燥过程控制中以证明其有效性.  相似文献   

8.
在求解离散非线性零和博弈问题时,为了在有效降低网络通讯和控制器执行次数的同时保证良好的控制效果,本文提出了一种基于事件驱动机制的最优控制方案.首先,设计了一个采用新型事件驱动阈值的事件驱动条件,并根据贝尔曼最优性原理获得了最优控制对的表达式.为了求解该表达式中的最优值函数,提出了一种单网络值迭代算法.利用一个神经网络构建评价网.设计了新的评价网权值更新规则.通过在评价网、控制策略及扰动策略之间不断迭代,最终获得零和博弈问题的最优值函数和最优控制对.然后,利用Lyapunov稳定性理论证明了闭环系统的稳定性.最后,将该事件驱动最优控制方案应用到了两个仿真例子中,验证了所提方法的有效性.  相似文献   

9.
任意初值非线性不确定系统的迭代学习控制   总被引:1,自引:0,他引:1  
为解决任意初态下的轨迹跟踪问题, 针对一类含参数和非参数不确定性的非线性系统, 提出基于滤波误差初始修正的自适应迭代学习控制方法. 利用修正滤波误差信号设计学习控制器, 并以Lyapunov方法进行收敛性能分析. 依据类Lipschitz条件处理非参数不确定性, 对于处理过程中出现的未知时变参数向量, 利用自适应迭代学习机制进行估计. 经过足够多次迭代后, 藉由修正滤波误差在整个作业区间收敛于零, 实现滤波误差本身在预设的作业区间也收敛于零. 仿真结果表明了本文所提控制方法的有效性.  相似文献   

10.
应用一种新的自适应动态最优化方法(ADP),在线实现对非线性连续系统的最优控制。首先应用汉密尔顿函数(Hamilton-Jacobi-Bellman, HJB)求解系统的最优控制,并应用神经网络BP算法对汉密尔顿函数中的性能指标进行估计,进而得到非线性连续系统的最优控制。同时引进一种新的自适应算法,基于参数误差,在线实现对系统进行动态最优求解,而且通过李亚普诺夫方法对参数收敛情况也进行详细的分析。最后,用仿真结果来验证所提出的方法的可行性。  相似文献   

11.
In the application of moving horizon estimation (MHE) algorithm, the window length will affect the estimation accuracy and the computing efficiency. For this kind of problem, a method of parameter optimization is proposed to obtain suitable window length. Firstly, in order to facilitate online solution, the optimization problem involved in the algorithm is transformed into a quadratic programming (QP) problem in matrix form. Secondly, for the time index and the estimated residual index that measure different properties, the normalization idea is adopted to incorporate them into the same dimension to design the fitness function, and a genetic optimization algorithm based on simulated annealing mechanism is given to search for the optimal window length. Finally, the proposed parameter optimization method is verified by two cases. The results show that the parameter optimization method has the advantages of excellent local search ability and sufficient convergence, and the window length obtained by this method can better take into account the two performance indexes of the MHE algorithm and improve the estimation performance.  相似文献   

12.
Aimed at infinite horizon optimal control problems of discrete time-varying nonlinear systems, in this paper, a new iterative adaptive dynamic programming algorithm, which is the discrete-time time-varying policy iteration (DTTV) algorithm, is developed. The iterative control law is designed to update the iterative value function which approximates the index function of optimal performance. The admissibility of the iterative control law is analyzed. The results show that the iterative value function is non-increasingly convergent to the Bellman-equation optimal solution. To implement the algorithm, neural networks are employed and a new implementation structure is established, which avoids solving the generalized Bellman equation in each iteration. Finally, the optimal control laws for torsional pendulum and inverted pendulum systems are obtained by using the DTTV policy iteration algorithm, where the mass and pendulum bar length are permitted to be time-varying parameters. The effectiveness of the developed method is illustrated by numerical results and comparisons.   相似文献   

13.
在非均匀杂波环境下的合成孔径雷达(synthetic aperture radar,SAR)图像背景建模问题中,针对非参量建模算法Parzen窗估计严重依赖于窗宽设置及最优核函数选择的问题,提出一种基于K近邻优化的概率密度函数估计算法,解决因固定近邻数而导致估计不准确甚至不能估计的问题.该算法不需要图像的任何先验知识,且无需考虑窗宽的设置及最优核函数的选择问题.与Parzen窗估计、K分布和$G^0$分布的对比实验表明,所提出的K近邻优化估计算法可以实现对单峰、多峰甚至不规则图像数据的准确建模,优于K分布和$G^0$分布;同时,对图像首尾数据的处理优于Parzen窗估计.实验结果验证了所提出方法对SAR图像杂波建模的精确性、鲁棒性和简便性,以及全局恒虚警率目标检测的有效性.  相似文献   

14.
Markov 控制过程在紧致行动集上的迭代优化算法   总被引:5,自引:0,他引:5       下载免费PDF全文
研究一类连续时间Markov控制过程(CTMCP)在紧致行动集上关于平均代价性能准则的优化算法。根据CTMCP的性能势公式和平均代价最优性方程,导出了求解最优或次最优平稳控制策略的策略迭代算法和数值迭代算法,在无需假设迭代算子是sp—压缩的条件下,给出了这两种算法的收敛性证明。最后通过分析一个受控排队网络的例子说明了这种方法的优越性。  相似文献   

15.
辊道窑烧结过程的温度是决定锂离子电池正极材料产品质量的关键. 然而, 根据炉内有限个测温点的温度 建立起描述整个温度场的模型往往非常困难, 导致无法优化控制烧结过程的温度分布; 而控制方法的设计一般需要 进行参数估计, 已有参数估计方法大多依赖于观测器/预测器的状态误差信息, 无法直接反映待估计参数的变化特 征且方法的准确性取决于观测器/预测器的性能. 为此, 本文提出一种基于参数估计误差的温度场自适应动态规划 (adaptive dynamic programming, ADP)优化控制方法. 首先, 基于传热机理建立二维多孔介质能量守恒方程, 构建包 含角系数的边界条件以反映热辐射作用; 考虑到竖直方向温度变化较大, 通过转换边界条件建立起辊道窑一维温 度场模型, 并根据正极材料的特性获得模型参数. 然后, 采用ADP中的策略迭代(policy iteration, PI) 优化设计温度场 控制器, 神经网络(neural network, NN)用于PI中的评价网络以逼近代价函数; 基于权值参数的估计值与真实值之差 构建参数估计误差, 通过将估计误差的信息融入到评价NN参数更新过程, 提出基于参数估计误差的NN权值更新算 法, 以提高参数估计误差的收敛性, 实现有限时间内NN权值的快速收敛. 最后, 通过仿真验证所提建模和控制方法 的有效性.  相似文献   

16.
综采工作面矿压预测对保障煤矿安全开采具有重要意义。深度学习领域的长短时记忆网络已被证实可以提高综采工作面矿压预测的精度。然而,时间窗设置(包括历史数据长度和预测数据长度)直接影响长短时记忆网络模型的预测性能。为此研究时间窗设置对矿压预测精度的影响。首先,采用长短时记忆网络的深度学习方法对平煤股份八矿14160综采工作面矿压数据进行训练,建立矿压预测模型。其次,研究用于预测的历史数据长度对模型预测性能的影响,确定最佳历史数据长度。再者,研究在精度允许范围内的最长预测数据长度。最后,采用最佳时间窗设置,对模型的预测精度进行分析。实验结果表明,时间窗设置对预测结果有显著影响,通过优化时间窗设置可提高综采工作面矿压预测的精度。  相似文献   

17.
In this paper, a new iteration algorithm is proposed to solve the finite-horizon optimal control problem for a class of time-delay affine nonlinear systems with known system dynamic. First, we prove that the algorithm is convergent as the iteration step increases. Then, a theorem is presented to demonstrate that the limit of the iteration performance index function satisfies discrete-time Hamilton–Jacobi–Bellman (DTHJB) equation, and the finite-horizon iteration algorithm is presented with satisfactory accuracy error. At last, two neural networks are used to approximate the iteration performance index function and the corresponding control policy. In simulation part, an example is given to demonstrate the effectiveness of the proposed iteration algorithm.  相似文献   

18.
In this article, a novel iteration algorithm named two-stage approximate dynamic programming (TSADP) is proposed to seek the solution of nonlinear switched optimal control problem. At each iteration of TSADP, a multivariate optimal control problem is transformed to be a certain number of univariate optimal control problems. It is shown that the value function at each iteration can be characterised pointwisely by a set of smooth functions recursively obtained from TSADP, and the associated control policy, continuous control and switching control law included, is explicitly provided in a state-feedback form. Moreover, the convergence and optimality of TSADP is strictly proven. To implement this algorithm efficiently, neural networks, critic and action networks, are utilised to approximate the value function and continuous control law, respectively. Thus, the value function is expressed by the weights of critic networks pointwise. Besides, redundant weights are ruled out at each iteration to simplify the exponentially increasing computation burden. Finally, a simulation example is provided to demonstrate its effectiveness.  相似文献   

19.
In this paper, a new dual iterative adaptive dynamic programming (ADP) algorithm is developed to solve optimal control problems for a class of nonlinear systems with time-delays in state and control variables. The idea is to use the dynamic programming theory to solve the expressions of the optimal performance index function and control. Then, the dual iterative ADP algorithm is introduced to obtain the optimal solutions iteratively, where in each iteration, the performance index function and the system states are both updated. Convergence analysis is presented to prove the performance index function to reach the optimum by the proposed method. Neural networks are used to approximate the performance index function and compute the optimal control policy, respectively, for facilitating the implementation of the dual iterative ADP algorithm. Simulation examples are given to demonstrate the validity of the proposed optimal control scheme.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号