共查询到18条相似文献,搜索用时 119 毫秒
1.
本文针对动态流水车间调度问题(DFSP), 以最小化最大完工时间为优化目标, 提出一种自适应深度强化学习算法(ADRLA)进行求解. 首先, 将DFSP的新工件动态到达过程模拟为泊松过程, 进而采用马尔科夫决策过程(MDP)对DFSP的求解过程进行描述, 将DFSP转化为可由强化学习求解的序贯决策问题. 然后, 根据DFSP的排序模型特点, 设计具有较好状态特征区分度和泛化性的状态特征向量, 并依此提出5种特定动作(即调度规则)来选择当前需加工的工件, 同时构造基于问题特性的奖励函数以获取动作执行效果的评价值(即奖励值), 从而确定ADRLA的3类基本要素. 进而, 以深度双Q网络(DDQN) 作为ADRLA中的智能体, 用于进行调度决策. 该智能体采用由少量小规模DFSP确定的数据集(即3类基本要素在不同问题上的数据)训练后, 可较准确刻画不同规模DFSP的状态特征向量与Q值向量(由各动作的Q值组成)间的非线性关系, 从而能对各种规模DFSP进行自适应实时调度. 最后, 通过在不同测试问题上的仿真实验和与算法比较, 验证了所提ADRLA求解DFSP的有效性和实时性. 相似文献
2.
针对具有模糊加工时间和模糊交货期的作业车间调度问题,以最小化最大完工时间为目标,以近端策略优化(PPO)算法为基本优化框架,提出一种LSTM-PPO(proximal policy optimization with Long short-term memory)算法进行求解.首先,设计一种新的状态特征对调度问题进行建模,并且依据建模后的状态特征直接对工件工序进行选取,更加贴近实际环境下的调度决策过程;其次,将长短期记忆(LSTM)网络应用于PPO算法的行动者-评论者框架中,以解决传统模型在问题规模发生变化时难以扩展的问题,使智能体能够在工件、工序、机器数目发生变化时,仍然能够获得最终的调度解.在所选取的模糊作业车间调度的问题集上,通过实验验证了该算法能够取得更好的性能. 相似文献
3.
由于传统车间调度方法实时响应能力有限,难以在复杂调度环境中取得良好效果,提出一种基于深度Q网络的深度强化学习算法。该方法结合了深度神经网络的学习能力与强化学习的决策能力,将车间调度问题视作序列决策问题,用深度神经网络拟合价值函数,将调度状态表示为矩阵形式进行输入,使用多个调度规则作为动作空间,并设置基于机器利用率的奖励函数,不断与环境交互,获得每个决策点的最佳调度规则。通过与智能优化算法、调度规则在标准问题集上的测试对比证明了算法有效性。 相似文献
4.
面对日益增长的大规模调度问题,新型算法的开发越显重要.针对置换流水车间调度问题,提出了一种基于强化学习Q-Learning调度算法.通过引入状态变量和行为变量,将组合优化的排序问题转换成序贯决策问题,来解决置换流水车间调度问题.采用所提算法对OR-Library提供Flow-shop国际标准算例进行测试,并与已有的一些算法对比,结果表明算法的有效性. 相似文献
5.
流水车间调度是应用背景最为广泛的调度问题,其智能算法研究具有重要的学术意义和应用价值.以最小化最大完工时间为目标,提出求解流水车间调度的一种基于深度强化学习与迭代贪婪算法的框架.首先,设计一种新的编码网络对问题进行建模,解决了传统模型受问题规模影响而难以扩展的缺陷,井利用强化学习训练模型以获取优良输出结果;然后,提出一... 相似文献
6.
近年来,使用深度强化学习解决作业车间调度问题的研究主要集中于构造法,通过将作业车间调度问题视为顺序决策问题,逐步选择调度节点从而得到完整的解。尽管这种算法思想已经取得了不小的成果,但仍面临奖励构造困难、解决方案质量不高的问题,因此这一方法的发展受到制约。针对这些问题,设计了一种基于图神经网络和近端策略优化算法的强化学习构造框架。同时,针对因训练与测试数据分布不一致而带来的次优解问题,还设计了一种修正交换算子,以保证解的质量。最后,为了证明算法的有效性,在公开数据集和生成的数据集上进行了实验。实验结果表明,所提算法在中小规模实例上的结果优于目前最好的强化学习框架,不仅充分发挥了构造式强化学习框架求解迅速的优势,还通过修正机制有效缓解了次优选择问题,缩短了实例的最大完成时间。 相似文献
7.
8.
9.
基于DBR理论的柔性流水车间动态调度 总被引:2,自引:1,他引:1
针对柔性流水车间动态调度求解困难的问题,首先分析调度问题的特征,构建问题模型;然后运用DBR(鼓-缓冲器-绳子)理论对问题进行分解简化,并采用混合重调度策略和启发式算法进行动态调度;最后建立瓶颈和非瓶颈资源调度的协调机制,实现问题求解.仿真实例表明,所提出的算法是可行而有效的. 相似文献
10.
针对作业车间中自动引导运输车(automated guided vehicle, AGV)与机器联合调度问题,以完工时间最小化为目标,提出一种基于卷积神经网络和深度强化学习的集成算法框架.首先,对含AGV的作业车间调度析取图进行分析,将问题转化为一个序列决策问题,并将其表述为马尔可夫决策过程.接着,针对问题的求解特点,设计一种基于析取图的空间状态与5个直接状态特征;在动作空间的设置上,设计包含工序选择和AGV指派的二维动作空间;根据作业车间中加工时间与有效运输时间为定值这一特点,构造奖励函数来引导智能体进行学习.最后,设计针对二维动作空间的2D-PPO算法进行训练和学习,以快速响应AGV与机器的联合调度决策.通过实例验证,基于2D-PPO算法的调度算法具有较好的学习性能和可扩展性效果. 相似文献
11.
并行流程车间调度问题及其概率学习进化算法 总被引:1,自引:0,他引:1
并行Flowshop调度问题兼有并行机器和流程车间调度问题的特点,是一类新型的调度问题.针对最小化最大完工时间目标函数,建立了一般并行Flowshop调度问题的整数规划模型.鉴于问题的求解复杂性,设计了基于概率学习的求解算法.对随机生成的测试问题进行求解,实验结果显示出该算法求解并行Flowshop调度问题的良好潜能. 相似文献
12.
机械制造中的产线分拣作业具有问题与数据的双重复杂性,为了对分拣操作进行优化以提高生产效率,设计了一套分拣作业的数据表示方法与一种基于种群优化的演化式算法,同时整理并公开了一个真实的工业数据集。数据表示方法通过借鉴词袋模型对原始作业数据进行抽象表示;演化式算法使用深度强化学习初始化遗传算法中的种群,同时引入了精英保留策略以提高算法的优化能力。最后,将提出的算法与其他算法在真实的工业数据集与旅行商问题数据集上进行了对比。结果表明,该算法能找到更优的分拣顺序与访问路径,验证了算法的有效性。 相似文献
13.
单人负责多台机器的单一工序作业车间场景中,工人由于重复操作机器而产生学习效应.针对考虑依赖工件位置学习效应的单人单工序作业车间最小化最大完工时间的调度问题,建立一种混合整数规划模型.为解决该问题,设计一个考虑学习效应的贪婪算子,利用该算子构造两种贪婪算法,并提出一种基于贪婪的模拟退火算法.为衡量混合整数规划模型、贪婪算法和基于贪婪的模拟退火算法的性能,设计两种规模问题的数据实验.通过实验得出:现代混合整数规划模型求解器可以解决机器数量和工件总数量乘积小于75的小规模问题;基于贪婪的模拟退火算法求解此问题具有有效性,适用于各种规模的问题;间隔插入贪婪算法解决此问题速度较快,效果良好,可以应用于需要快速求解的场景. 相似文献
14.
15.
放宽了对于生产调度问题的一些假设,首先根据任务的优先级安排生产,其次令一批工件的某道工序可以由多台设备组合加工;利用图论理论,建立了基于设备组合的数学模型;基于蚁群算法的思想,给出了求解方法。最后通过实例进行了验证。 相似文献
16.
交叉算子是遗传算法中最主要的遗传算子,对种群的搜索性能起着重要的作用。基于操作编码的遗传算法多采用两点交叉算子,研究发现这种交叉算子收敛速度慢,容易陷入局部最优解,为此设计了一种基于工件位置的交叉算子,通过试验仿真验证了该算子在收敛速度和求全局最优解上有显著优势。 相似文献
17.