共查询到17条相似文献,搜索用时 46 毫秒
1.
研究一类多品种工件到达的传送带给料加工站系统(CSPS)的前视距离(Look-ahead)优化控制问题,以提高系统的工作效率.在工件品种数增加的情况下,系统状态规模会呈现指数性增长,考虑传统$ Q $学习在面对大规模离散状态空间所面临的维数灾难,且难以直接处理前视距离为连续化变量的问题,引入了RBF网络来逼近$ Q $值函数,网络的输入为状态行动对,输出为该状态行动对的$ Q $值.给出RBF-$ Q $学习算法,并应用于多品种CSPS系统的优化控制中,实现了连续行动空间的$ Q $学习.针对不同的品种数情况进行仿真分析,仿真结果表明,RBF-$ Q $学习算法可以对多品种CSPS系统性能进行有效优化,并且提高学习速度. 相似文献
2.
本文主要研究可变服务率模式下基于需求驱动的传送带给料加工站(CSPS)系统的优化控制问题,主要目标是对系统的随机优化控制问题进行建模和提供解决方案.论文以缓冲库和成品库剩余容量为联合状态,以站点前视距离和工件服务率为控制变量,将其最优控制问题描述为半马尔科夫决策过程(SMDP)模型.该模型为利用策略迭代等方法求解系统在平均准则或折扣准则下的最优控制策略提供了理论基础,特别地,据此可引入基于模拟退火思想的Q学习算法等优化方法来寻求近似解,以克服理论求解过程中的维数灾和建模难等困难.仿真结果说明了本文建立的数学模型及给出的优化方法的有效性. 相似文献
3.
研究多站点传送带给料生产加工站(Conveyor-serviced production station, CSPS)系统的最优控制问题, 其优化目标是通过合理选择每个CSPS的Look-ahead控制策略, 实现整个系统的工件处理率最大.本文首先根据多Agent系统的反应扩散思想, 对每个Agent的原始性能函数进行改进, 引入了具有扩散功能的局域信息交互项(原始项看作具有反应功能); 并运用性能势理论, 构建一种适用于平均和折扣两种性能准则的Wolf-PHC多Agent学习算法, 以求解决策时刻不同步的多站点的协作Look-ahead控制策略. 最后,论文通过仿真实验验证了该算法的有效性,学习结果表明, 通过性能函数的改进,各工作站的负载平衡性得到改善, 整个系统的工件处理率也明显提高. 相似文献
4.
研究了服务率不确定情况下的单站点传送带给料加工站(CSPS)系统的鲁棒优化控制问题。在仅知服务率区间的条件下,以CSPS系统的前视距离作为控制变量,将鲁棒优化控制问题建模成不确定参数的半马尔可夫决策过程(SMDP)的极大极小优化问题,在状态相关的情况下,给出全局优化算法进行鲁棒控制策略求解。首先,运用遗传算法求解固定策略下的最差性能值;其次,根据求解得到的最差性能值,运用模拟退火算法求解最优鲁棒控制策略。仿真结果表明,服务率不确定的CSPS系统的最优鲁棒性能代价与服务率固定为区间中值系统的最优性能代价相差不大,并且随着不确定区间的缩小,两者的差值越小,说明了全局优化算法的有效性。 相似文献
5.
研究单站点传送带给料生产加工站(conveyor-serviced production station,CSPS)系统的前视(look-ahead)距离最优控制问题,以提高系统的工作效率.论文运用半Markov决策过程对CSPS优化控制问题进行建模.考虑传统Q学习难以直接处理CSPS系统前视距离为连续变量的优化控制问题,将小脑模型关节控制器网络的Q值函数逼近与在线学习技术相结合,给出了在线Q学习及模型无关的在线策略迭代算法.仿真结果表明,文中算法提高了学习速度和优化精度. 相似文献
6.
7.
平均奖赏强化学习算法研究 总被引:7,自引:0,他引:7
顺序决策问题常用马尔可夫决策过程(MDP)建模.当决策行为执行从时刻点扩展到连续时间上时,经典的马尔可夫决策过程模型也扩展到半马尔可夫决策过程模型(SMDP).当系统参数未知时,强化学习技术被用来学习最优策略.文中基于性能势理论,证明了平均奖赏强化学习的逼近定理.通过逼近相对参考状态的性能势值函数,研究一个新的平均奖赏强化学习算法--G-学习算法.G-学习算法既可以用于MDP,也可以用于SMDP.不同于经典的R-学习算法,G-学习算法采用相对参考状态的性能势值函数替代相对平均奖赏和的相对值函数.在顾客访问控制和生产库存仿真实验中,G-学习算法表现出优于R-学习算法和SMART算法的性能. 相似文献
8.
Q学习的改进研究及其仿真实验 总被引:1,自引:0,他引:1
Q学习是一种重要的强化学习方法.针对Q学习的不足,进行了一些改进研究.首先引入轮盘赌的方法,通过概率的途径进行行为选择,避免了早期训练中高Q值的束缚,增加了随机性,更加符合Q学习的要求.其次针对复杂环境或是稀疏型回报函数的情况下计算量的指数增长,通过添加正负再励信号的方法进行改进,并通过大量的仿真实验进行反复验证,得出负的再励信号更加有效.理论和实验均证明,该方法具有较强的可行性,切实有效的加快了Q函数的收敛速度,提高了学习效率. 相似文献
9.
研究两机器人高速搬运系统的作业分配问题. 在系统的Markov决策过程(MDP)模型中, 状态变量具有连续取值和离散取值的混杂性, 状态空间复杂且存在“维数灾”问题, 传统的数值优化难以进行. 根据小脑模型关节控制器(CMAC)具有收敛速度快和适应性强的特点, 运用该结构作为Q值函数的逼近器, 并与Q学习和性能势概念相结合, 给出了一种适用于平均或折扣性能准则的CMAC-Q学习优化算法. 仿真结果说明, 这种神经元动态规划方法比常规的Q学习算法具有节省存储空间, 优化精度高和优化速度快的优势. 相似文献
10.
近来实时动态任务分配机制得到越来越多的研究.考虑多任务流并存时的任务分配问题,提出基于Q学习的分布式多任务流调度算法,不仅能适应自身任务流的到达过程,还充分兼顾其他任务流的到达及分配的影响,从而使得整个系统长期期望回报最大.分布式特性使得算法适用于开放的,局部可见的多Agent系统;强化学习的采用使得任务分配决策自适应系统环境隐藏的不确定性.实验表明此算法具有较高的任务吞吐量和任务完成效率. 相似文献
11.
单站点传送带给料加工站(Conveyor-serviced production station,CSPS)系统中,可运用强化学习对状态——行动空间进行有效探索,以搜索近似最优的前视距离控制策略.但是多站点CSPS系统的协同控制问题中,系统状态空间的大小会随着站点个数的增加和缓存库容量的增加而成指数形式(或几何级数)增长,从而导致维数灾,影响学习算法的收敛速度和优化效果.为此,本文在站点局域信息交互机制的基础上引入状态聚类的方法,以减小每个站点学习空间的大小和复杂性.首先,将多个站点看作相对独立的学习主体,且各自仅考虑邻近下游站点的缓存库的状态并纳入其性能值学习过程;其次,将原状态空间划分成多个不相交的子集,每个子集用一个抽象状态表示,然后,建立基于状态聚类的多站点反馈式Q学习算法.通过该方法,可在抽象状态空间上对各站点的前视距离策略进行优化学习,以寻求整个系统的生产率最大.仿真实验结果说明,与一般的多站点反馈式Q学习方法相比,基于状态聚类的多站点反馈式Q学习方法不仅具有收敛速度快的优点,而且还在一定程度上提高了系统生产率. 相似文献
12.
传统U-Tree算法对于部分观测马尔可夫决策过程POMDP问题的解决已取得较为显著的成效,但是由于边缘节点生长过于随意,所以仍存在树的规模庞大、内存需求比较大、计算复杂度过高的问题。在原U-Tree算法的基础上,通过得到下一步观测值,来划分同一个叶子节点中做相同动作的实例,提出了一种基于有效实例来扩展边缘节点的EIU-Tree算法,大大缩减了计算规模,以此来帮助智能体更好更快地学习,并且在4×3经典栅格问题中做了仿真实验,对比于原有的U-Tree算法,该算法运行效果更好。 相似文献
13.
We consider the look-ahead control of a conveyor-serviced production station (CSPS) in the context of semi-Markov decision process (SMDP) model, and our goal is to find an optimal control policy under either average- or discounted-cost criteria. Policy iteration (PI), combined with the concept of performance potential, can be applied to provide a unified optimisation framework for both criteria. However, a major difficulty arises in the exact solution scheme, that is, it requires not only the full knowledge of model parameters, but also a considerable amount of work to obtain and process the necessary system and performance matrices. To overcome this difficulty, we propose a potential-based online PI algorithm in this article. During implementation, by analysing and utilising the historic information of all the past operation of a practical CSPS system, the potentials and state-action values are learned on line through an effective exploration scheme. We finally illustrate the successful application of this learning-based technique in CSPS systems by an example. 相似文献
14.
Zhengxing HuangAuthor Vitae W.M.P. van der AalstAuthor VitaeXudong LuAuthor Vitae Huilong DuanAuthor Vitae 《Data & Knowledge Engineering》2011,70(1):127-145
Efficient resource allocation is a complex and dynamic task in business process management. Although a wide variety of mechanisms are emerging to support resource allocation in business process execution, these approaches do not consider performance optimization. This paper introduces a mechanism in which the resource allocation optimization problem is modeled as Markov decision processes and solved using reinforcement learning. The proposed mechanism observes its environment to learn appropriate policies which optimize resource allocation in business process execution. The experimental results indicate that the proposed approach outperforms well known heuristic or hand-coded strategies, and may improve the current state of business process management. 相似文献
15.
强化学习通过试错与环境交互获得策略的改进,其自学习和在线学习的特点使其成为机器学习研究的一个重要分支,该文首先介绍了强化学习的基本原理结构和各种算法;然后介绍了近年来强化学习的应用等热点问题。 相似文献
16.
The paper is devoted to the first order delayed linear system with relay output controlled by the proportional-integral (PI) regulator. The deterministic system exhibits stable oscillations, and, since the system itself is stable, it can be suitable to switch off the controller if there are no disturbances during a long time interval. In the present work, the random disturbances are modelled by a Poisson stream of impulses, and the goal is to determine the instants of switching on (off) of the PI controller. After several assumptions and quantization of the time axis, we construct the new optimal control problem which is successfully solved with the help of the dynamic programming approach. 相似文献
17.
5G的发展带来了终端设备爆炸式增长的现象,使得频谱资源紧缺的问题越加严峻,认知无线网(cognitive radio,CR)的提出,被认为是提高频谱利用率的有效途径。认知无线网,融合了当代无线电通信技术、计算机技术、微电子学技术、软件无线电技术和现代信号处理技术等多学科之长,通过感知周围的电磁环境、学习及理解等方式,自主为用户寻找到当前空闲的频谱,完成信息交互过程。针对频谱资源紧张的现状,为改善频谱分配,首先介绍了有关认知无线网络的概念及其特点,重点介绍了机器学习中遗传算法,强化学习和隐马尔可夫模型在认知无线网络中的应用,并展望了其在认知无线网络中的发展前景。机器学习算法的引入,实现了高效的频谱资源管理,有效地解决了无线频谱资源紧张的问题。 相似文献