首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 78 毫秒
1.
唐昊  杨羊  戴飞  谭琦 《控制与决策》2019,34(7):1456-1462
研究一类多品种工件到达的传送带给料加工站系统(CSPS)的前视距离(Look-ahead)优化控制问题,以提高系统的工作效率.在工件品种数增加的情况下,系统状态规模会呈现指数性增长,考虑传统$ Q $学习在面对大规模离散状态空间所面临的维数灾难,且难以直接处理前视距离为连续化变量的问题,引入了RBF网络来逼近$ Q $值函数,网络的输入为状态行动对,输出为该状态行动对的$ Q $值.给出RBF-$ Q $学习算法,并应用于多品种CSPS系统的优化控制中,实现了连续行动空间的$ Q $学习.针对不同的品种数情况进行仿真分析,仿真结果表明,RBF-$ Q $学习算法可以对多品种CSPS系统性能进行有效优化,并且提高学习速度.  相似文献   

2.
本文主要研究可变服务率模式下基于需求驱动的传送带给料加工站(CSPS)系统的优化控制问题,主要目标是对系统的随机优化控制问题进行建模和提供解决方案.论文以缓冲库和成品库剩余容量为联合状态,以站点前视距离和工件服务率为控制变量,将其最优控制问题描述为半马尔科夫决策过程(SMDP)模型.该模型为利用策略迭代等方法求解系统在平均准则或折扣准则下的最优控制策略提供了理论基础,特别地,据此可引入基于模拟退火思想的Q学习算法等优化方法来寻求近似解,以克服理论求解过程中的维数灾和建模难等困难.仿真结果说明了本文建立的数学模型及给出的优化方法的有效性.  相似文献   

3.
基于多Agent强化学习的多站点CSPS系统的协作Look-ahead控制   总被引:3,自引:0,他引:3  
研究多站点传送带给料生产加工站(Conveyor-serviced production station, CSPS)系统的最优控制问题, 其优化目标是通过合理选择每个CSPS的Look-ahead控制策略, 实现整个系统的工件处理率最大.本文首先根据多Agent系统的反应扩散思想, 对每个Agent的原始性能函数进行改进, 引入了具有扩散功能的局域信息交互项(原始项看作具有反应功能); 并运用性能势理论, 构建一种适用于平均和折扣两种性能准则的Wolf-PHC多Agent学习算法, 以求解决策时刻不同步的多站点的协作Look-ahead控制策略. 最后,论文通过仿真实验验证了该算法的有效性,学习结果表明, 通过性能函数的改进,各工作站的负载平衡性得到改善, 整个系统的工件处理率也明显提高.  相似文献   

4.
黄浩  唐昊  周雷  程文娟 《计算机应用》2015,35(7):2067-2072
研究了服务率不确定情况下的单站点传送带给料加工站(CSPS)系统的鲁棒优化控制问题。在仅知服务率区间的条件下,以CSPS系统的前视距离作为控制变量,将鲁棒优化控制问题建模成不确定参数的半马尔可夫决策过程(SMDP)的极大极小优化问题,在状态相关的情况下,给出全局优化算法进行鲁棒控制策略求解。首先,运用遗传算法求解固定策略下的最差性能值;其次,根据求解得到的最差性能值,运用模拟退火算法求解最优鲁棒控制策略。仿真结果表明,服务率不确定的CSPS系统的最优鲁棒性能代价与服务率固定为区间中值系统的最优性能代价相差不大,并且随着不确定区间的缩小,两者的差值越小,说明了全局优化算法的有效性。  相似文献   

5.
周雷  孔凤  唐昊  张建军 《控制理论与应用》2011,28(11):1665-1670
研究单站点传送带给料生产加工站(conveyor-serviced production station,CSPS)系统的前视(look-ahead)距离最优控制问题,以提高系统的工作效率.论文运用半Markov决策过程对CSPS优化控制问题进行建模.考虑传统Q学习难以直接处理CSPS系统前视距离为连续变量的优化控制问题,将小脑模型关节控制器网络的Q值函数逼近与在线学习技术相结合,给出了在线Q学习及模型无关的在线策略迭代算法.仿真结果表明,文中算法提高了学习速度和优化精度.  相似文献   

6.
Q学习算法在库存控制中的应用   总被引:9,自引:0,他引:9  
Q学习算法是Watkins提出的求解信息不完全马尔可夫决策问题的一种强化学习方法.这里提出了一种新的探索策略,并将该策略和Q学习算法有效结合来求解一类典型的有连续状态和决策空间的库存控制问题.仿真表明,该方法所求解的控制策略和用值迭代法在模型已知的情况下所求得的最优策略非常逼近,从而证实了Q学习算法在一些系统模型未知的工程控制问题中的应用潜力.  相似文献   

7.
平均奖赏强化学习算法研究   总被引:7,自引:0,他引:7  
高阳  周如益  王皓  曹志新 《计算机学报》2007,30(8):1372-1378
顺序决策问题常用马尔可夫决策过程(MDP)建模.当决策行为执行从时刻点扩展到连续时间上时,经典的马尔可夫决策过程模型也扩展到半马尔可夫决策过程模型(SMDP).当系统参数未知时,强化学习技术被用来学习最优策略.文中基于性能势理论,证明了平均奖赏强化学习的逼近定理.通过逼近相对参考状态的性能势值函数,研究一个新的平均奖赏强化学习算法--G-学习算法.G-学习算法既可以用于MDP,也可以用于SMDP.不同于经典的R-学习算法,G-学习算法采用相对参考状态的性能势值函数替代相对平均奖赏和的相对值函数.在顾客访问控制和生产库存仿真实验中,G-学习算法表现出优于R-学习算法和SMART算法的性能.  相似文献   

8.
Q学习的改进研究及其仿真实验   总被引:1,自引:0,他引:1  
张云  刘建平 《计算机仿真》2007,24(10):111-114
Q学习是一种重要的强化学习方法.针对Q学习的不足,进行了一些改进研究.首先引入轮盘赌的方法,通过概率的途径进行行为选择,避免了早期训练中高Q值的束缚,增加了随机性,更加符合Q学习的要求.其次针对复杂环境或是稀疏型回报函数的情况下计算量的指数增长,通过添加正负再励信号的方法进行改进,并通过大量的仿真实验进行反复验证,得出负的再励信号更加有效.理论和实验均证明,该方法具有较强的可行性,切实有效的加快了Q函数的收敛速度,提高了学习效率.  相似文献   

9.
搬运系统作业分配问题的小脑模型关节控制器Q学习算法   总被引:1,自引:1,他引:0  
研究两机器人高速搬运系统的作业分配问题. 在系统的Markov决策过程(MDP)模型中, 状态变量具有连续取值和离散取值的混杂性, 状态空间复杂且存在“维数灾”问题, 传统的数值优化难以进行. 根据小脑模型关节控制器(CMAC)具有收敛速度快和适应性强的特点, 运用该结构作为Q值函数的逼近器, 并与Q学习和性能势概念相结合, 给出了一种适用于平均或折扣性能准则的CMAC-Q学习优化算法. 仿真结果说明, 这种神经元动态规划方法比常规的Q学习算法具有节省存储空间, 优化精度高和优化速度快的优势.  相似文献   

10.
近来实时动态任务分配机制得到越来越多的研究.考虑多任务流并存时的任务分配问题,提出基于Q学习的分布式多任务流调度算法,不仅能适应自身任务流的到达过程,还充分兼顾其他任务流的到达及分配的影响,从而使得整个系统长期期望回报最大.分布式特性使得算法适用于开放的,局部可见的多Agent系统;强化学习的采用使得任务分配决策自适应系统环境隐藏的不确定性.实验表明此算法具有较高的任务吞吐量和任务完成效率.  相似文献   

11.
唐昊  裴荣  周雷  谭琦 《自动化学报》2014,40(5):901-908
单站点传送带给料加工站(Conveyor-serviced production station,CSPS)系统中,可运用强化学习对状态——行动空间进行有效探索,以搜索近似最优的前视距离控制策略.但是多站点CSPS系统的协同控制问题中,系统状态空间的大小会随着站点个数的增加和缓存库容量的增加而成指数形式(或几何级数)增长,从而导致维数灾,影响学习算法的收敛速度和优化效果.为此,本文在站点局域信息交互机制的基础上引入状态聚类的方法,以减小每个站点学习空间的大小和复杂性.首先,将多个站点看作相对独立的学习主体,且各自仅考虑邻近下游站点的缓存库的状态并纳入其性能值学习过程;其次,将原状态空间划分成多个不相交的子集,每个子集用一个抽象状态表示,然后,建立基于状态聚类的多站点反馈式Q学习算法.通过该方法,可在抽象状态空间上对各站点的前视距离策略进行优化学习,以寻求整个系统的生产率最大.仿真实验结果说明,与一般的多站点反馈式Q学习方法相比,基于状态聚类的多站点反馈式Q学习方法不仅具有收敛速度快的优点,而且还在一定程度上提高了系统生产率.  相似文献   

12.
在给定一个子集的条件下, 本文研究了在状态翻转控制下布尔控制网络的全局镇定问题. 对于节点集的给定子 集, 状态翻转控制可以将某些节点的值从1 (或0)变成0 (或1). 将翻转控制作为控制之一, 本文研究了状态翻转控制下的 布尔控制网络. 将控制输入和状态翻转控制结合, 提出了联合控制对和状态翻转转移矩阵的概念. 接着给出了状态翻转 控制下布尔控制网络全局稳定的充要条件. 镇定核是最小基数的翻转集合, 本文提出了一种寻找镇定核的算法. 利用可 达集的概念, 给出了一种判断全局镇定和寻找联合控制对序列的方法. 此外, 如果系统是一个大型网络, 则可以利用一 种名为Q学习算法的无模型强化学习方法寻找联合控制对序列. 最后给出了一个数值例子来说明本文的理论结果.  相似文献   

13.
This paper investigates a novel Q-learning algorithm based on action dependent dual heuristic programming (ADDHP) to solve the infinite-time domain linear quadratic tracker (LQT) for unknown linear discrete-time systems. The proposed method is conducted based on only system data without requiring the knowledge of the system matrices. After the reference system is determined, an augmented system composed of the original system and the reference system is constructed, and it is proved that the value function of LQT is quadratic concerning the state of the augmented system. Using the quadratic value function, the augmented algebraic Riccati equation (ARE) is derived to solve the LQT. Due to the difficulty of directly solving the augmented ARE, a Q-learning algorithm based on ADDHP structure is used to solve this problem. With unknown system matrices, a model neural network is developed to reconstruct system dynamics incorporating stability analysis. The estimated system matrices are employed to the proposed algorithm to calculate the optimal control by policy iteration. Moreover, the convergence of the algorithm is proved. Two simulation examples are used to validate the performance of the method, where all results have demonstrated the effectiveness of the proposed ADDHP-based Q-learning method without a priori knowledge of system matrices for LQT.  相似文献   

14.
针对FPS游戏UT2004中的NPC(Non-Player-Character,即非玩家角色)的行为决策不够灵活多变,不够智能等问题,结合行为树与Q-learning强化学习算法,提出了一种预处理与在线学习结合的方式优化NPC行为决策的方法。通过在行为树上的强化学习,NPC行为决策更为灵活、智能,即human-like。实验结果表明了该方法的有效性与可行性。  相似文献   

15.
针对含扩散项不可靠随机生产系统最优生产控制的优化命题, 采用数值解方法来求解该优化命题最优控制所满足的模态耦合的非线性偏微分HJB方程. 首先构造Markov链来近似生产系统状态演化, 并基于局部一致性原理, 把求解连续时间随机控制问题转化为求解离散时间的Markov决策过程问题, 然后采用数值迭代和策略迭代算法来实现最优控制数值求解过程. 文末仿真结果验证了该方法的正确性和有效性.  相似文献   

16.
根据铜板带生产流程的特点,考虑到铜板带生产调度的多目标性,建立基于遗传算法带加权系数的铜板带生产调度模型;然后应用遗传算法对该模型进行调度并获取近似最优解。该算法采用矩阵编码、混合选择策略和三个体交叉方法,使其在有限的步骤内,找出所有满足约束条件的最优或次优解。仿真结果表明该算法可以有效地解决铜板带生产调度问题,具有实用性。  相似文献   

17.

针对离散时间Itˆo 型马尔科夫跳变系统Lyapunov 方程的求解给出一种迭代算法. 经证明, 在误差允许的范围内, 该算法可以在确定的有限次数内收敛到系统的精确解, 收敛速度较快, 具有良好的数值稳定性, 并且该算法为显式迭代, 可避免迭代过程中求解其他矩阵方程对结果精度产生的影响. 最后通过一个数值算例对该算法的有效性进行了验证.

  相似文献   

18.
基于遗传算法的投资优化问题应用研究   总被引:2,自引:0,他引:2  
遗传算法是模拟自然界生物进化过程的计算模型,文中讨论了遗传算法在企业投资规划中的应用,给出了遗传算法解决投资规划问题的计算机仿真实例。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号