首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 93 毫秒
1.
张涛  吴汉生 《计算机仿真》2006,23(4):298-300,325
运用强化学习的方法来对连续的倒立摆系统实现平衡控制是一直以来有待解决的问题。该文将Q学习与神经网络中的BP网络、S激活函数相结合,利用神经网络的泛化性能,设计出一种新的学习控制策略,通过迭代和学习过程,不但能够解决倒立摆系统连续状态空间的输入问题,还成功解决了输出连续动作空间的问题。将此方法运用于连续倒立摆系统的平衡控制中,经过基于实际控制模型的Matlab软件仿真实验,结果显示了这个方法的可行性。该方法进一步提高了强化学习理论在实际控制系统中的应用价值。  相似文献   

2.
孙亮  谢艳辉 《控制工程》2007,14(5):485-487
构建了用于倒立摆平衡控制的神经网络学习模型。该模型利用可生长结构神经网络的优势,不需要预先规定网络的结构和规模,便可以在学习过程中根据需要生长。基于可生长结构的神经网络将监督与无监督学习结合,能够快速学习刺激与响应之间的潜在关系。该神经网络离线进行监督学习,训练后作为控制器作用于倒立摆系统,构成基于可生长结构的倒立摆控制模型。以Matlab为开发工具进行了仿真实验。仿真结果表明,该模型能够完成一级倒立摆平衡控制任务,并验证了其有效性和抗干扰能力:  相似文献   

3.
倒立摆系统是强化学习的一种重要的应用领域。首先分析指出在倒立摆系统中,常用的强化学习算法存在着极限环问题,算法无法正确收敛、控制策略不稳定。但是由于在简单的一级倒立摆系统中算法的控制策略不稳定的现象还不明显,因此极限环问题常常被忽视。针对强化学习算法中极限环问题,提出基于动作连续性准则的强化学习算法。算法采用修正强化信号和改进探索策略的方法克服极限环对倒立摆系统的影响。将提出的算法用于二级倒立摆的实际系统控制中,实验结果证明算法不仅能成功控制倒立摆,而且可以保持控制策略的稳定。  相似文献   

4.
自适应RBF网络Q学习控制   总被引:1,自引:0,他引:1  
利用RBF网络逼近连续空间的Q值函数,实现连续空间的Q学习.RBF网络输入为状态-动作对,输出为该状态-动作对的Q值.状态由系统的状态转移特性确定,动作由优化网络输出得到的贪婪动作与服从高斯分布的噪声干扰动作两部分叠加而成.利用RNA算法和梯度下降法自适应调整网络的结构和参数.倒立摆平衡控制的实验结果验证了该方法的有效性.  相似文献   

5.
提出一种基于模型(MBD)的倒立摆控制器设计方法.相对于传统软件设计流程,MBD具备代码生成和早期算法验证功能.首先运用Lagrange方程建立倒立摆仿真模型;然后设计基于LMI倒立摆滑模变结构控制器算法模型,在仿真环境下与被控模型结合形成控制综合系统并进行仿真实验;接着自动生成滑模变结构高效嵌入式代码,整合成倒立摆控...  相似文献   

6.
基于留优遗传算法的倒立摆最优LQR控制   总被引:5,自引:0,他引:5  
周文彬  朱学峰  陈华艳 《控制工程》2004,11(Z1):160-163
被控系统稳定性与LQR控制器权重矩阵Q和R的选择有关.针对选择适当的Q和R使系统在约束条件下达到稳定性最优的问题,提出了一种通过留优遗传算法实现二级倒立摆系统LQR控制器参数寻优的新方法.以被控系统的动能积分为性能指标来实现寻优,以能量为寻优性能指标,可使二级倒立摆系统各部分的稳定性以统一的量纲表示.可依据倒立摆系统的耦合性,从总体的角度考虑系统的稳定性.仿真的结果表明了该方法的有效性.  相似文献   

7.
X-Z倒立摆不仅具有普通倒立摆的最小相位和欠驱动特性, 同时具有更多的控制自由度.通过一定的状态变换, 发现了X-Z倒立摆与平面垂直起降飞行器模型之间的等价关系. 基于该等价关系,借鉴平面垂直起降飞行器的控制方法, 把饱和非线性控制方法应用于X-Z倒立摆的稳定控制. 通过与PID (Proportion integration differentiation)控制方法的仿真对比,证明了该稳定控制方法的有效性.  相似文献   

8.
针对直线一级倒立摆控制系统的非线性特性,采用RBF-ARX模型对倒立摆系统的全局非线性动态特性进行建模.讨论了RBF-ARX模型结构的选取,模型参数辨识,RBF参数优化等问题.并且分别比较了该倒立摆系统的RBF-ARX模型与全局线性ARX模型,以及将RBF-ARX在某一工作点局部线性化后的模型与局部线性ARX模型的预测输出和模型误差,验证了RBF-ARX模型在倒立摆系统建模和辨识中的有效性.  相似文献   

9.
一种生长型神经网络的倒立摆控制方案   总被引:1,自引:0,他引:1  
针对倒立摆系统,提出了在结构上可生长的神经网络控制方案.网络利用细胞生长结构算法,在工作域中实现对状态变量的模式分类,并通过新神经元的插入实现网络规模的生长演化.在输出域中针对倒立摆控制任务采用强化Hebb学习机制,实现不同的神经元以最佳方式响应不同性质的信号刺激.仿真表明,通过神经网络自身的发育,该方案有效控制了倒立摆系统.  相似文献   

10.
给出了一个组件化方法设计学习控制系统的一个实例.学习控制系统建立在两个BP组件——BP模型和BP控制器的基础上,通过双通道反向学习的方法在控制过程中进行自我调整,适应控制对象的变化以及模型和控制器本身的不同条件.首先介绍了BP组件的接口和功能规范.然后建立基于BP组件的学习控制系统的组件化框架.最后给出一个基于BP组件的学习控制系统在倒立摆控制上的应用.  相似文献   

11.
This work describes a novel algorithm that integrates an adaptive resonance method (ARM), i.e. an ART-based algorithm with a self-organized design, and a Q-learning algorithm. By dynamically adjusting the size of sensitivity regions of each neuron and adaptively eliminating one of the redundant neurons, ARM can preserve resources, i.e. available neurons, to accommodate additional categories. As a dynamic programming-based reinforcement learning method, Q-learning involves use of the learned action-value function, Q, which directly approximates Q, i.e. the optimal action-value function, which is independent of the policy followed. In the proposed algorithm, ARM functions as a cluster to classify input vectors from the outside world. Clustered results are then sent to the Q-learning design in order to learn how to implement the optimum actions to the outside world. Simulation results of the well-known control algorithm of balancing an inverted pendulum on a cart demonstrates the effectiveness of the proposed algorithm.  相似文献   

12.
Efficient Reinforcement Learning through Symbiotic Evolution   总被引:13,自引:0,他引:13  
This article presents a new reinforcement learning method called SANE (Symbiotic, Adaptive Neuro-Evolution), which evolves a population of neurons through genetic algorithms to form a neural network capable of performing a task. Symbiotic evolution promotes both cooperation and specialization, which results in a fast, efficient genetic search and discourages convergence to suboptimal solutions. In the inverted pendulum problem, SANE formed effective networks 9 to 16 times faster than the Adaptive Heuristic Critic and 2 times faster than Q-learning and the GENITOR neuro-evolution approach without loss of generalization. Such efficient learning, combined with few domain assumptions, make SANE a promising approach to a broad range of reinforcement learning problems, including many real-world applications.  相似文献   

13.
针对连续空间下的强化学习控制问题,提出了一种基于自组织模糊RBF网络的Q学习方法.网络的输入为状态,输出为连续动作及其Q值,从而实现了“连续状态—连续动作”的映射关系.首先将连续动作空间离散化为确定数目的离散动作,采用完全贪婪策略选取具有最大Q值的离散动作作为每条模糊规则的局部获胜动作.然后采用命令融合机制对获胜的离散动作按其效用值进行加权,得到实际作用于系统的连续动作.另外,为简化网络结构和提高学习速度,采用改进的RAN算法和梯度下降法分别对网络的结构和参数进行在线自适应调整.倒立摆平衡控制的仿真结果验证了所提Q学习方法的有效性.  相似文献   

14.
样本有限关联值递归Q学习算法及其收敛性证明   总被引:5,自引:0,他引:5  
一个激励学习Agent通过学习一个从状态到动作映射的最优策略来解决问题,求解最优决策一般有两种途径:一种是求最大奖赏方法,另一种最求最优费用方法,利用求解最优费用函数的方法给出了一种新的Q学习算法,Q学习算法是求解信息不完全Markov决策问题的一种有效激励学习方法。Watkins提出了Q学习的基本算法,尽管他证明了在满足一定条件下Q值学习的迭代公式的收敛性,但是在他给出的算法中,没有考虑到在迭代过程中初始状态与初始动作的选取对后继学习的影响,因此提出的关联值递归Q学习算法改进了原来的Q学习算法,并且这种算法有比较好的收敛性质,从求解最优费用函数的方法出发,给出了Q学习的关联值递归算法,这种方法的建立可以使得动态规划(DP)算法中的许多结论直接应用到Q学习的研究中来。  相似文献   

15.
Neural reinforcement learning for behaviour synthesis   总被引:5,自引:0,他引:5  
We present the results of a research aimed at improving the Q-learning method through the use of artificial neural networks. Neural implementations are interesting due to their generalisation ability. Two implementations are proposed: one with a competitive multilayer perceptron and the other with a self-organising map. Results obtained on a task of learning an obstacle avoidance behaviour for the mobile miniature robot Khepera show that this last implementation is very effective, learning more than 40 times faster than the basic Q-learning implementation. These neural implementations are also compared with several Q-learning enhancements, like the Q-learning with Hamming distance, Q-learning with statistical clustering and Dyna-Q.  相似文献   

16.
Online tuning of fuzzy inference systems using dynamic fuzzy Q-learning   总被引:1,自引:0,他引:1  
This paper presents a dynamic fuzzy Q-learning (DFQL) method that is capable of tuning fuzzy inference systems (FIS) online. A novel online self-organizing learning algorithm is developed so that structure and parameters identification are accomplished automatically and simultaneously based only on Q-learning. Self-organizing fuzzy inference is introduced to calculate actions and Q-functions so as to enable us to deal with continuous-valued states and actions. Fuzzy rules provide a natural mean of incorporating the bias components for rapid reinforcement learning. Experimental results and comparative studies with the fuzzy Q-learning (FQL) and continuous-action Q-learning in the wall-following task of mobile robots demonstrate that the proposed DFQL method is superior.  相似文献   

17.
Q学习算法在库存控制中的应用   总被引:9,自引:0,他引:9  
Q学习算法是Watkins提出的求解信息不完全马尔可夫决策问题的一种强化学习 方法.这里提出了一种新的探索策略,并将该策略和Q学习算法有效结合来求解一类典型的 有连续状态和决策空间的库存控制问题.仿真表明,该方法所求解的控制策略和用值迭代法 在模型已知的情况下所求得的最优策略非常逼近,从而证实了Q学习算法在一些系统模型 未知的工程控制问题中的应用潜力.  相似文献   

18.
Q学习算法是Watkins提出的求解信息不完全马尔可夫决策问题的一种强化学习方法.这里提出了一种新的探索策略,并将该策略和Q学习算法有效结合来求解一类典型的有连续状态和决策空间的库存控制问题.仿真表明,该方法所求解的控制策略和用值迭代法在模型已知的情况下所求得的最优策略非常逼近,从而证实了Q学习算法在一些系统模型未知的工程控制问题中的应用潜力.  相似文献   

19.
Q-learning算法及其在囚徒困境问题中的实现   总被引:5,自引:0,他引:5  
Q-learning是一种优良的强化学习算法。该文首先阐述了Q-learning的基本学习机制,然后以囚徒困境问题为背景,分析、对比T Q-learning算法与TFT算法,验证了 Q-learning算法的优良特性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号