首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 187 毫秒
1.
刘德荣  李宏亮  王鼎 《自动化学报》2013,39(11):1858-1870
自适应动态规划(Adaptive dynamic programming, ADP)方法可以解决传统动态规划中的"维数灾"问题, 已经成为控制理论和计算智能领域最新的研究热点. ADP方法采用函数近似结构来估计系统性能指标函数, 然后依据最优性原理来获得近优的控制策略. ADP是一种具有学习和优化能力的智能控制方法, 在求解复杂非线性系统的最优控制问题中具有极大的潜力. 本文对ADP的理论研究、算法实现、相关应用等方面进行了全面的梳理, 涵盖了最新的研究进展, 并对ADP的未来发展趋势进行了分析和展望.  相似文献   

2.
基于自适应动态规划的导弹制导律研究综述   总被引:2,自引:0,他引:2  
孙景亮  刘春生 《自动化学报》2017,43(7):1101-1113
自适应动态规划(Adaptive dynamic programming,ADP)作为最优控制领域的近似优化方法,是求解复杂非线性系统最优控制问题的有力工具.近年来,已成为控制理论与计算智能领域的研究热点.本文着重介绍ADP算法的理论研究进展及其在航空航天领域的应用.分析了几种典型的制导律优化设计方法,以及ADP方法在导弹制导律设计中的应用现状和前景.  相似文献   

3.
针对非线性连续系统难以跟踪时变轨迹的问题,本文首先通过系统变换引入新的状态变量从而将非线性系统的最优跟踪问题转化为一般非线性时不变系统的最优控制问题,并基于近似动态规划算法(ADP)获得近似最优值函数与最优控制策略.为有效地实现该算法,本文利用评价网与执行网来估计值函数及相应的控制策略,并且在线更新二者.为了消除神经网络近似过程中产生的误差,本文在设计控制器时增加一个鲁棒项;并且通过Lyapunov稳定性定理来证明本文提出的控制策略可保证系统跟踪误差渐近收敛到零,同时也验证在较小的误差范围内,该控制策略能够接近于最优控制策略.最后给出两个时变跟踪轨迹实例来证明该方法的可行性与有效性.  相似文献   

4.
基于自适应最优控制的有限时间微分对策制导律   总被引:1,自引:0,他引:1  
针对固定末端时刻拦截机动目标的制导系统,本文首先构建了非线性有限时间微分对策框架,将导弹拦截非线性系统的最优问题转化为一般非线性系统的最优控制问题,并通过自适应动态规划算法(adaptive dynamic programming, ADP)获得近似最优值函数与最优控制策略.为了有效实现该算法,本文利用一个具有时变权值和激活函数的评价网络来逼近Hamilton-Jacobi-Isaacs(HJI)方程的解,并在线更新.通过李雅普诺夫法来证明本文提出的控制策略可保证闭环微分对策系统稳定性和评价网络权值近似误差的有界性.最后给出一个非线性导弹拦截目标系统的仿真例子验证了该方法的可行性和有效性.  相似文献   

5.
针对控制时滞及带饱和的一类离散时间非线性系统的最优控制问题,通过重构性能指标函数和对应的系统变换,处理了性能指标函数中的控制耦合项;继而引入一个合适的泛函,解决了控制带饱和问题.给出了一个新的性能指标函数,利用迭代自适应动态规划(ADP)算法获得最优控制.为实现该算法,采用神经网络逼近函数来求解最优控制问题.仿真结果验证了方法的有效性.  相似文献   

6.
崔黎黎  刘杰  张勇 《控制与决策》2013,28(9):1423-1426
针对一类未知的连续非线性系统,提出一个基于单网络近似动态规划(ADP)的近似最优控制方案。该方案通过设计一个新型的递归神经网络(RNN)辨识器放松了系统模型需已知或部分已知的要求,并利用一个神经网络(NN)近似系统的性能指标函数消除了常规ADP方法中的控制网络。通过Lyapunov理论分析严格证明了闭环系统内所有信号一致最终有界,并且所获得的性能指标函数和控制输入分别收敛到最优性能指标函数和最优控制输入的小邻域内。仿真结果验证了所提出控制方案的有效性。  相似文献   

7.
罗艳红  张化光  曹宁  陈兵 《自动化学报》2009,35(11):1436-1445
提出一种贪婪迭代DHP (Dual heuristic programming)算法, 解决了一类控制受约束非线性系统的近似最优镇定问题. 针对系统的控制约束, 首先引入一个非二次泛函把约束问题转换为无约束问题, 然后基于协状态函数提出一种贪婪迭代DHP算法以求解系统的HJB (Hamilton-Jacobi-Bellman)方程. 在算法的每个迭代步, 利用一个神经网络来近似系统的协状态函数, 而后根据协状态函数直接计算系统的最优控制策略, 从而消除了常规近似动态规划方法中的控制网络. 最后通过两个仿真例子证明了本文提出的最优控制方案的有效性和可行性.  相似文献   

8.
本文针对连续时间非线性系统的不对称约束多人非零和博弈问题, 建立了一种基于神经网络的自适应评判控制方法. 首先, 本文提出了一种新颖的非二次型函数来处理不对称约束问题, 并且推导出最优控制律和耦合Hamilton-Jacobi方程. 值得注意的是, 当系统状态为零时, 最优控制策略是不为零的, 这与以往不同. 然后, 通过构建单一评判网络来近似每个玩家的最优代价函数, 从而获得相关的近似最优控制策略. 同时, 在评判学习期间发展了一种新的权值更新规则. 此外, 通过利用Lyapunov理论证明了评判网络权值近似误差和闭环系统状态的稳定性. 最后, 仿真结果验证了本文所提方法的有效性  相似文献   

9.
基于数据自适应评判的离散2-D系统零和博弈最优控制   总被引:1,自引:1,他引:0  
提出了基于一种迭代自适应评判设计(ACD)算法解决一类离散时间Roesser型2-D系统的二人零和对策问题. 文章主要思想是采用自适应评判技术迭代的获得最优控制对使得性能指标函数达到零和对策的鞍点. 所提出的ACD可以通过输入输出数据进行实现而不需要系统的模型. 为了实现迭代ACD算法, 神经网络分别用来近似性能指标函数和计算最优控制率. 最后最优控制策略将应用到空气干燥过程控制中以证明其有效性.  相似文献   

10.
为了解决初始和终端确定的一类离散时间非线性系统有限时间优化控制,利用动态规划原理求解过程中遇到维数灾的问题,提出了基于神经网络的自适应动态规划近似优化控制.在分析动态规划求解遇到维数灾的基础上,进而给出了迭代ADP算法,并采用神经网络近似代价函数和控制律来实现迭代ADP算法,设计近似优化控制器.通过mat lab实验仿真结果表明,采用迭代ADP算法能够避免求解中遇到的维数灾,从而有效地实现了一类离散时间非线性系统的有限时间近似优化控制.  相似文献   

11.
针对一类带有执行器饱和的未知动态离散时间非线性系统, 提出了一种新的最优跟踪控制方案. 该方案基于迭代自适应动态规划算法, 为了实现最优控制, 首先建立了未知系统动态的数据辨识器. 通过引入M网络, 获得了稳态控制的精确表达式. 为了消除执行器饱和的影响, 提出了一个非二次的性能指标函数. 然后提出了一种迭代自适应动态规划算法获得最优跟踪控制的解, 并给出了收敛性分析. 为了实现最优控制方案, 神经网络被用来构建数据辨识器、计算性能指标函数、近似最优控制策略和求解稳态控制. 仿真结果验证了本文所提出的最优跟踪控制方法的有效性.  相似文献   

12.
In this paper,an adaptive dynamic programming(ADP)strategy is investigated for discrete-time nonlinear systems with unknown nonlinear dynamics subject to input saturation.To save the communication resources between the controller and the actuators,stochastic communication protocols(SCPs)are adopted to schedule the control signal,and therefore the closed-loop system is essentially a protocol-induced switching system.A neural network(NN)-based identifier with a robust term is exploited for approximating the unknown nonlinear system,and a set of switch-based updating rules with an additional tunable parameter of NN weights are developed with the help of the gradient descent.By virtue of a novel Lyapunov function,a sufficient condition is proposed to achieve the stability of both system identification errors and the update dynamics of NN weights.Then,a value iterative ADP algorithm in an offline way is proposed to solve the optimal control of protocol-induced switching systems with saturation constraints,and the convergence is profoundly discussed in light of mathematical induction.Furthermore,an actor-critic NN scheme is developed to approximate the control law and the proposed performance index function in the framework of ADP,and the stability of the closed-loop system is analyzed in view of the Lyapunov theory.Finally,the numerical simulation results are presented to demonstrate the effectiveness of the proposed control scheme.  相似文献   

13.
应用一种新的自适应动态最优化方法(ADP),在线实现对非线性连续系统的最优控制。首先应用汉密尔顿函数(Hamilton-Jacobi-Bellman, HJB)求解系统的最优控制,并应用神经网络BP算法对汉密尔顿函数中的性能指标进行估计,进而得到非线性连续系统的最优控制。同时引进一种新的自适应算法,基于参数误差,在线实现对系统进行动态最优求解,而且通过李亚普诺夫方法对参数收敛情况也进行详细的分析。最后,用仿真结果来验证所提出的方法的可行性。  相似文献   

14.
针对一类状态和控制变量均带有时滞的非线性系统的带有二次性能指标函数最优控制问题, 本文提出了一种基于新的迭代自适应动态规划算法的最优控制方案. 通过引进时滞矩阵函数, 应用动态规划理论, 本文获得了最优控制的显式表达式, 然后通过自适应评判技术获得最优控制量. 本文给出了收敛性证明以保证性能指标函数收敛到最优. 为了实现所提出的算法, 本文采用神经网络近似性能指标函数、计算最优控制策略、求解时滞矩阵函数、以及给非线性系统建模. 最后本文给出了两个仿真例子说明所提出的最优策略的有效性.  相似文献   

15.
This paper proposes a novel finite-time optimal control method based on input–output data for unknown nonlinear systems using adaptive dynamic programming (ADP) algorithm. In this method, the single-hidden layer feed-forward network (SLFN) with extreme learning machine (ELM) is used to construct the data-based identifier of the unknown system dynamics. Based on the data-based identifier, the finite-time optimal control method is established by ADP algorithm. Two other SLFNs with ELM are used in ADP method to facilitate the implementation of the iterative algorithm, which aim to approximate the performance index function and the optimal control law at each iteration, respectively. A simulation example is provided to demonstrate the effectiveness of the proposed control scheme.  相似文献   

16.
In this paper, an online optimal distributed learning algorithm is proposed to solve leader-synchronization problem of nonlinear multi-agent differential graphical games. Each player approximates its optimal control policy using a single-network approximate dynamic programming (ADP) where only one critic neural network (NN) is employed instead of typical actorcritic structure composed of two NNs. The proposed distributed weight tuning laws for critic NNs guarantee stability in the sense of uniform ultimate boundedness (UUB) and convergence of control policies to the Nash equilibrium. In this paper, by introducing novel distributed local operators in weight tuning laws, there is no more requirement for initial stabilizing control policies. Furthermore, the overall closed-loop system stability is guaranteed by Lyapunov stability analysis. Finally, Simulation results show the effectiveness of the proposed algorithm.   相似文献   

17.
Based on adaptive dynamic programming (ADP), the fixed-point tracking control problem is solved by a value iteration (Ⅵ) algorithm. First, a class of discrete-time (DT) nonlinear system with disturbance is considered. Second, the convergence of a Ⅵ algorithm is given. It is proven that the iterative cost function precisely converges to the optimal value, and the control input and disturbance input also converges to the optimal values. Third, a novel analysis pertaining to the range of the discount factor is presented, where the cost function serves as a Lyapunov function. Finally, neural networks (NNs) are employed to approximate the cost function, the control law, and the disturbance law. Simulation examples are given to illustrate the effective performance of the proposed method.   相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号