首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 187 毫秒
1.
强化学习是解决自适应问题的重要方法,被广泛地应用于连续状态下的学习控制,然而存在效率不高和收敛速度较慢的问题.在运用反向传播(back propagation,BP)神经网络基础上,结合资格迹方法提出一种算法,实现了强化学习过程的多步更新.解决了输出层的局部梯度向隐层节点的反向传播问题,从而实现了神经网络隐层权值的快速更新,并提供一个算法描述.提出了一种改进的残差法,在神经网络的训练过程中将各层权值进行线性优化加权,既获得了梯度下降法的学习速度又获得了残差梯度法的收敛性能,将其应用于神经网络隐层的权值更新,改善了值函数的收敛性能.通过一个倒立摆平衡系统仿真实验,对算法进行了验证和分析.结果显示,经过较短时间的学习,本方法能成功地控制倒立摆,显著提高了学习效率.  相似文献   

2.
基于Backstepping的倒立摆鲁棒跟踪控制   总被引:1,自引:0,他引:1  
针对内部参数不确定及存在外部干扰的非线性倒立摆系统,提出了基于Backstepping方法的滑模变结构控制律,并且采用RBF神经网络逼近系统不确定非线性函数,同时引入滑模误差对其神经网络权值进行在线自适应调整,使神经网络的逼近速度加快,改善了动态性能.该控制律能保证倒立撰轨迹跟踪误差的快速收敛性以及对外部扰动和内部参数不确定的不敏感性,最后给出的仿真实例证明了该理论分析结果的正确性,控制效果良好.  相似文献   

3.
提出了一种利用遗传算法来优化模糊神经网络的倒立摆智能控制,利用RBF神经网络与模糊推理过程具有函数等价性.设计了基于模糊系统的RBF网络结构。同时采用改进的遗传算法优化了神经网络的参数和权值。其中利用一种动态的交叉率和变异率.有效地加快了收敛的速度。最后,利用Matlab软件对倒立摆进行仿真.仿真结果表明.该控制具有较好的通用性和控制效果。  相似文献   

4.
基于内部回归神经网络的强化学习   总被引:1,自引:0,他引:1  
王瑞霞  孙亮  阮晓刚 《控制工程》2005,12(2):138-141
在强化学习和动态规划算法的基础上,提出一种不需要预测模型的改进的强化学习算法:该学习算法在模型未知和没有先验经验的条件下,能通过自身神经网络的在线学习,有效控制不稳定的非线性系统:该学习算法的网络结构采用内部回归神经网络,这样可以增强网络本身处理动态信息的能力,使其更适合复杂系统的稳定控制。应用到一级倒立摆物理实体的控制.实验结果表明了该学习算法在性能上优于其他同类强化学习算法.  相似文献   

5.
提出了一种利用遗传算法来优化模糊神经网络的倒立摆智能控制,利用RBF神经网络与模糊推理过程具有函数等价性,设计了基于模糊系统的RBF网络结构。同时采用改进的遗传算法优化了神经网络的参数和权值。其中利用一种动态的交叉率和变异率,有效地加快了收敛的速度。最后,利用Matlab软件对倒立摆进行防真,仿真结果表明,该控制具有较好的通用性和控制效果。  相似文献   

6.
对于倒立摆这样的强非线性系统,采用传统的BP算法存在着收敛速度慢、易陷入局部极小值的缺陷,而采用卡尔曼滤波方法则会带来很大的模型误差。为了解决上述问题,提出了基于粒子滤波优化神经网络的方法。首先建立了倒立摆神经网络控制器的物理模型并将模型粒子化,而后用粒子滤波算法对粒子进行优化估计,将估计结果作为网络的权值应用到倒立摆控制中,采用离线训练方式,仿真比较了卡尔曼滤波和粒子滤波两种方法控制效果,结果表明,新算法较卡尔曼滤波方法在控制性能上有明显提高。  相似文献   

7.
在模型未知和没有先验经验的条件下,采用一种改进的强化学习算法实现二级倒立摆系统的平衡控制。该学习算法不需要预测和辨识模型,能通过网络自身的联想和记忆,在线寻求最优策略。该学习算法采用基于神经网络的值函数逼近,并用直接梯度和适合度轨迹修正权值,有效实现对连续状态和行为空间任务的控制。计算机仿真证明了该强化学习算法在较短的时间内即可成功地学会控制直线二级倒立摆系统。  相似文献   

8.
进化神经网络在倒立摆控制中的应用   总被引:2,自引:1,他引:2  
谢宗安  张滔 《计算机仿真》2006,23(5):306-307
倒立摆作为典型的非线性系统,伴随着多变量、快速运动和绝对不稳定的特征,难于建立精确的数学模型,这就使得对倒立摆的控制变得异常困难和复杂。智能控制理论则是解决此问题的一个有效途径,该文针对倒立摆控制的传统神经网络算法(即BP算法)的缺点,将遗传算法与神经网络结合起来,提出了倒立摆的进化神经网络控制方法。控制器在结构上采用神经网络,利用遗传算法优化神经网络的连接权值。实验研究表明,该控制器不仅具有良好的动态和稳态控制性能,而且对于干扰也具有很强的抑制能力。同时还具备结构简单,易于实现的优点。  相似文献   

9.
张涛  吴汉生 《计算机仿真》2006,23(4):298-300,325
运用强化学习的方法来对连续的倒立摆系统实现平衡控制是一直以来有待解决的问题。该文将Q学习与神经网络中的BP网络、S激活函数相结合,利用神经网络的泛化性能,设计出一种新的学习控制策略,通过迭代和学习过程,不但能够解决倒立摆系统连续状态空间的输入问题,还成功解决了输出连续动作空间的问题。将此方法运用于连续倒立摆系统的平衡控制中,经过基于实际控制模型的Matlab软件仿真实验,结果显示了这个方法的可行性。该方法进一步提高了强化学习理论在实际控制系统中的应用价值。  相似文献   

10.
针对直线一级倒立摆的稳定控制问题,设计了分数阶比例积分(FOPI和FO[PI])控制器。首先,根据Newton力学方法建立了倒立摆系统的数学模型。然后,采用基于向量的增益鲁棒性分数阶控制器参数求解简化算法,设计了分数阶比例积分控制器。最后,在MATLAB环境下进行了分数阶比例积分控制器参数整定方法的有效性验证,并且对倒立摆系统分别采用分数阶比例积分控制器和整数阶PID(IOPID)控制器进行了稳定控制仿真实验,并将得到的摆杆角度响应曲线进行了对比分析。结果表明:分数阶比例积分控制器对系统的稳定控制效果优于IOPID控制器,且在分数阶比例积分控制器中,FO[PI]控制器对系统稳定控制最好,响应时间较快、振荡幅值较小且具有鲁棒性。  相似文献   

11.
针对连续空间下的强化学习控制问题,提出了一种基于自组织模糊RBF网络的Q学习方法.网络的输入为状态,输出为连续动作及其Q值,从而实现了“连续状态—连续动作”的映射关系.首先将连续动作空间离散化为确定数目的离散动作,采用完全贪婪策略选取具有最大Q值的离散动作作为每条模糊规则的局部获胜动作.然后采用命令融合机制对获胜的离散动作按其效用值进行加权,得到实际作用于系统的连续动作.另外,为简化网络结构和提高学习速度,采用改进的RAN算法和梯度下降法分别对网络的结构和参数进行在线自适应调整.倒立摆平衡控制的仿真结果验证了所提Q学习方法的有效性.  相似文献   

12.
基于模糊神经网络的模型参考自适应控制   总被引:11,自引:0,他引:11  
张乃尧  栾天 《自动化学报》1996,22(4):476-480
用模糊神经网络作为控制器,依靠参考模型产生理想的控制系统闭环响应,从而随时得 到控制系统的输出误差.用梯度法实时修正模糊控制器的输入和输出隶属度参数,得到一种 在线模糊自适应控制的新方法.通过倒立摆的仿真实验表明,该方法是可行的并能适应对象 特性的大范围变化.  相似文献   

13.
一种基于人工免疫原理的最优模糊神经网络控制器   总被引:1,自引:0,他引:1  
提出了一种基于人工免疫原理的最优RBF模糊神经网络控制器设计方案.首先给出了控制器结构,其次将免疫进化算法用于控制器参数的优化,设计了一种满足二次型性能指标的最优RBF模糊神经网络控制器.将该控制器用于控制实际倒立摆系统,并采用状态变量合成方法以大大减少模糊规则的数目,实验结果验证了该控制器的有效性.  相似文献   

14.
Many published papers show that a TSK-type fuzzy system provides more powerful representation than a Mamdani-type fuzzy system. Radial basis function (RBF) network has a similar feature to the fuzzy system. As this result, this article proposes a dynamic TSK-type RBF-based neural-fuzzy (DTRN) system, in which the learning algorithm not only online generates and prunes the fuzzy rules but also online adjusts the parameters. Then, a supervisory adaptive dynamic RBF-based neural-fuzzy control (SADRNC) system which is composed of a DTRN controller and a supervisory compensator is proposed. The DTRN controller is designed to online estimate an ideal controller based on the gradient descent method, and the supervisory compensator is designed to eliminate the effect of the approximation error introduced by the DTRN controller upon the system stability in the Lyapunov sense. Finally, the proposed SADRNC system is applied to control a chaotic system and an inverted pendulum to illustrate its effectiveness. The stability of the proposed SADRNC scheme is proved analytically and its effectiveness has been shown through some simulations.  相似文献   

15.
球杆系统是一种典型的高阶非线性不稳定系统,针对PID跟踪控制精度不高及BP神经网络控制训练时间较长的问题,本文提出一种带有低通滤波器的RBF神经网络控制器(RBFC)动态补偿PID控制的球杆控制方法,控制系统由RBF神经网络控制及PID控制器组成。为提高参数辨识速度和避免局部最小值,采用梯度下降法更新隐含层参数,采用带有遗忘因子的最小二乘法更新输出层权值。实验结果表明,该控制方案相比PID控制具有更高的控制精度,比BP神经网络具有更快的学习速度,低通滤波器保证了RBFC的辨识精度和稳定的控制输出,具有良好的动静态特性和控制性能。  相似文献   

16.
This study proposes an indirect adaptive self-organizing RBF neural control (IASRNC) system which is composed of a feedback controller, a neural identifier and a smooth compensator. The neural identifier which contains a self-organizing RBF (SORBF) network with structure and parameter learning is designed to online estimate a system dynamics using the gradient descent method. The SORBF network can add new hidden neurons and prune insignificant hidden neurons online. The smooth compensator is designed to dispel the effect of minimum approximation error introduced by the neural identifier in the Lyapunov stability theorem. In general, how to determine the learning rate of parameter adaptation laws usually requires some trial-and-error tuning procedures. This paper proposes a dynamical learning rate approach based on a discrete-type Lyapunov function to speed up the convergence of tracking error. Finally, the proposed IASRNC system is applied to control two chaotic systems. Simulation results verify that the proposed IASRNC scheme can achieve a favorable tracking performance.  相似文献   

17.
The paper presents a direct adaptive control architecture for a class of nonlinear dynamic systems, which are either ill defined or rather complex. The direct adaptive architecture employs radial basis function (RBF) neural network (NN) systems to reconstruct the ideal feedback linearization control. With the modified adaptation algorithm proposed herein, the on-line function approximation capability of the RBF NN a system is enhanced to remove the auxiliary control term and switching element in a conventional RBF-NN-based controller; simultaneously, the tracking performance is upgraded. Global asymptotic stability of the on-line algorithm is established in the Lyapunov sense to guarantee that the tracking error can converge to a small neighbourhood of the origin. Simulation validations for an inverted pendulum system are finally performed to verify the effectiveness of the proposed controller and the theoretical discussion.  相似文献   

18.
A direct adaptive neural control scheme for a class of nonlinear systems is presented in the paper. The proposed control scheme incorporates a neural controller and a sliding mode controller. The neural controller is constructed based on the approximation capability of the single-hidden layer feedforward network (SLFN). The sliding mode controller is built to compensate for the modeling error of SLFN and system uncertainties. In the designed neural controller, its hidden node parameters are modified using the recently proposed neural algorithm named extreme learning machine (ELM), where they are assigned random values. However, different from the original ELM algorithm, the output weight is updated based on the Lyapunov synthesis approach to guarantee the stability of the overall control system. The proposed adaptive neural controller is finally applied to control the inverted pendulum system with two different reference trajectories. The simulation results demonstrate good tracking performance of the proposed control scheme.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号