期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

胡振涛崔南方胡雪君雷晓琪《控制理论与应用》2024,41(3):502-511

多技能项目调度存在组合爆炸的现象, 其问题复杂度远超传统的单技能项目调度, 启发式算法和元启发式算法在求解多技能项目调度问题时也各有缺陷. 为此, 根据项目调度的特点和强化学习的算法逻辑, 本文设计了基于强化学习的多技能项目调度算法. 首先, 将多技能项目调度过程建模为符合马尔科夫性质的序贯决策过程, 并依据决策过程设计了双智能体机制. 而后, 通过状态整合和行动分解, 降低了价值函数的学习难度. 最后, 为进一步提高算法性能, 针对资源的多技能特性, 设计了技能归并法, 显著降低了资源分配算法的时间复杂度. 与启发式算法的对比实验显示, 本文所设计的强化学习算法求解性能更高, 与元启发式算法的对比实验表明, 该算法稳定性更强, 且求解速度更快. 相似文献

2.

基于强化学习的智能车间调度策略研究综述

王无双骆淑云《计算机应用研究》2022,39(6)

智能制造是我国制造业发展的必然趋势,而智能车间调度是制造业升级和深化“两化融合”的关键技术。主要研究强化学习算法在车间调度问题中的应用,为后续的研究奠定基础。其中车间调度主要包括静态调度和动态调度;强化学习算法主要包括基于值函数和AC（Actor-Critic）网络。首先,从总体上阐述了强化学习方法在作业车间调度和流水车间调度这两大问题上的研究现状;其次,对车间调度问题的数学模型以及强化学习算法中最关键的马尔可夫模型建立规则进行分类讨论;最后,根据研究现状和当前工业数字化转型需求,对智能车间调度技术的未来研究方向进行了展望。相似文献

3.

基于深度强化学习的深圳市急救车调度算法

吴仍裕周强于海龙王亚沙《计算机工程》2022,48(9):298-304

在院前急救领域中,急救反应时间是指患者拨打急救电话后,急救车到达现场的时间。传统急救车调度算法未全面考虑急救环境的动态性和复杂性因素,导致模型优化的急救反应时间与实际情况存在偏差。将急救车调度问题建模成马尔科夫决策过程,构建基于深度强化学习的急救车调度算法。以多层感知机作为评分网络结构,通过将急救站的动态信息映射为各个急救站的得分,确定急救车被调往各急救站的概率。同时,结合急救车调度的动态决策特点,利用强化学习中演员-评论家框架下的近端策略优化算法改进评分网络参数。在深圳市急救中心真实急救数据集上的实验结果表明,相比Fixed、DSM、MEXCLP等算法,该算法在每个急救事件中的急救反应时间平均缩短约80 s,并且在10 min内急救车的平均到达比例为36.5%,能够实时地将急救车调度到合适的急救站。相似文献

4.

一种基于修正机制和强化学习的作业车间调度问题的优化算法

苗宽李崇寿《计算机科学》2023,(6):274-282

近年来,使用深度强化学习解决作业车间调度问题的研究主要集中于构造法,通过将作业车间调度问题视为顺序决策问题,逐步选择调度节点从而得到完整的解。尽管这种算法思想已经取得了不小的成果,但仍面临奖励构造困难、解决方案质量不高的问题,因此这一方法的发展受到制约。针对这些问题,设计了一种基于图神经网络和近端策略优化算法的强化学习构造框架。同时,针对因训练与测试数据分布不一致而带来的次优解问题,还设计了一种修正交换算子,以保证解的质量。最后,为了证明算法的有效性,在公开数据集和生成的数据集上进行了实验。实验结果表明,所提算法在中小规模实例上的结果优于目前最好的强化学习框架,不仅充分发挥了构造式强化学习框架求解迅速的优势,还通过修正机制有效缓解了次优选择问题,缩短了实例的最大完成时间。相似文献

5.

基于强化学习的卫星网络路由方法

胡越杨梦龙《信息与电脑》2023,(2):215-217

卫星网络的无线信号全球覆盖,已经成为现代通信技术的重要部分。低轨卫星网络因其覆盖范围广、传播时延低等特点受到广泛关注,卫星网络不受地面地理环境因素的限制,对于海洋环境和偏远地区的网络覆盖服务具有不可替代的重要地位,路由在其中至关重要。文章基于OPNET的仿真软件,进行了强化学习路由方法的设计,并且测试得到结果。结果表明,强化学习的路由方法也能同样实现和传统路由路径计算方法的一致效果,并且在输入数据的灵活度上更有优势。相似文献

6.

基于深度强化学习的随机资源受限多项目动态调度策略

郭晓剑胡方勇《计算机应用研究》2022,39(9)

目前对于随机工期的分布式资源受限多项目调度问题（SDRCMPSP）的研究较少且大多数为静态调度方案,无法针对环境的变化实时地对策略进行调整优化,及时响应频繁发生的动态因素。为此建立了最小化总拖期成本为目标的随机资源受限多项目动态调度DRL模型,设计了相应的智能体交互环境,采用强化学习中的DDDQN算法对模型进行求解。实验首先对算法的超参数进行灵敏度分析,其次将最优组合在活动工期可变和到达时间不确定两种不同条件下对模型进行训练及测试,结果表明深度强化学习算法能够得到优于任意单一规则的调度结果,有效减少随机资源受限多项目期望总拖期成本,多项目调度决策优化提供良好的依据。相似文献

7.

基于强化学习的多机群网格资源调度模型

陈庆奎《计算机科学》2007,34(11):67-70

在由多个计算机集群构成的多机群网格环境下,为了解决数据并行型计算（DPC）与计算资源的有效匹配问题,提出了一个基于强化学习机制的网格资源调度模型;给出了由多个计算机机群组成的多机群网格、逻辑计算机机群、数据并行型计算和一系列Agent的定义;利用多Agent的协作做竞争机制、基于强化学习的匹配知识库的修正方法,研究了逻辑计算机机群与DPC资源供需之间的有效匹配问题;描述了网格的资源调度模型。理论分析和实践表明,该模型有效地解决了多机群网格环境之下数据并行型计算所需的资源优化使用问题。该模型适合于基于多机群网格的数据并行型计算。相似文献

8.

基于强化学习方法的访存调度算法

下载免费PDF全文

邱东黎施晶晶《计算机工程与应用》2018,54(2):62-67

在现代处理器中,存储控制器是处理器芯片对片外存储器进行访问的管理者和执行者,其中对访存过程的调度算法会对实际访存性能产生十分重要的影响。针对已有调度算法在不同负载特征下自适应性不足的问题,提出了一种基于强化学习方法的ALHS算法,通过对访存调度中页命中优先时的连续页命中上限次数进行自适应调整,习得最优策略。多种不同典型访存模式的模拟结果显示,相比传统的FR-FCFS,ALHS算法运行速度平均提升了10.98%,并且可以获得近似于最优策略的性能提升,表明该算法能够自主探索环境并自我优化。相似文献

9.

基于深度强化学习的模糊作业车间调度问题

下载免费PDF全文

朱家政张宏立王聪李新凯董颖超《控制与决策》2024,39(2):595-603

针对具有模糊加工时间和模糊交货期的作业车间调度问题,以最小化最大完工时间为目标,以近端策略优化(PPO)算法为基本优化框架,提出一种LSTM-PPO(proximal policy optimization with Long short-term memory)算法进行求解.首先,设计一种新的状态特征对调度问题进行建模,并且依据建模后的状态特征直接对工件工序进行选取,更加贴近实际环境下的调度决策过程;其次,将长短期记忆(LSTM)网络应用于PPO算法的行动者-评论者框架中,以解决传统模型在问题规模发生变化时难以扩展的问题,使智能体能够在工件、工序、机器数目发生变化时,仍然能够获得最终的调度解.在所选取的模糊作业车间调度的问题集上,通过实验验证了该算法能够取得更好的性能. 相似文献

10.

基于策略梯度强化学习的高铁列车动态调度方法

俞胜平韩忻辰袁志明崔东亮《控制与决策》2022,37(9):2407-2417

高速铁路以其运输能力大、速度快、全天候等优势,取得了飞速蓬勃的发展.而恶劣天气等突发事件会导致列车延误晚点,更甚者延误会沿着路网不断传播扩散,其带来的多米诺效应将造成大面积列车无法按计划运行图运行.目前依靠人工经验的动态调度方式难以满足快速优化调整的实际要求.因此,针对突发事件造成高铁列车延误晚点的动态调度问题,设定所有列车在各站到发时间晚点总和最小为优化目标,构建高铁列车可运行情况下的混合整数非线性规划模型,提出基于策略梯度强化学习的高铁列车动态调度方法,包括交互环境建立、智能体状态及动作集合定义、策略网络结构及动作选择方法和回报函数建立,并结合具体问题对策略梯度强化学习(REINFORCE)算法进行误差放大和阈值设定两种改进.最后对算法收敛性及算法改进后的性能提升进行仿真研究,并与Q-learning算法进行比较,结果表明所提出的方法可以有效地对高铁列车进行动态调度,将突发事件带来的延误影响降至最小,从而提高列车的运行效率. 相似文献

11.

A satellite network resource scheduling mechanism based on reinforcement learning

ZHOU Bi-ying WANG Ai-ping FEI Chang-jiang YU Wan-rong ZHAO Bao-kang 《计算机工程与科学》1990,41(12):2134

相似文献

12.

A reinforcement learning approach based on the fuzzy min-max neural network

Aristidis Likas Kostas Blekas 《Neural Processing Letters》1996,4(3):167-172

The fuzzy min-max neural network constitutes a neural architecture that is based on hyperbox fuzzy sets and can be incrementally trained by appropriately adjusting the number of hyperboxes and their corresponding volumes. Two versions have been proposed: for supervised and unsupervised learning. In this paper a modified approach is presented that is appropriate for reinforcement learning problems with discrete action space and is applied to the difficult task of autonomous vehicle navigation when no a priori knowledge of the enivronment is available. Experimental results indicate that the proposed reinforcement learning network exhibits superior learning behavior compared to conventional reinforcement schemes. 相似文献

13.

移动边缘计算中基于深度强化学习的计算卸载调度方法

詹文翰王瑾朱清新段翰聪叶娅兰《计算机应用研究》2021,38(1):241-245,263

针对移动边缘计算中具有依赖关系的任务的卸载决策问题,提出一种基于深度强化学习的任务卸载调度方法,以最小化应用程序的执行时间。任务调度的过程被描述为一个马尔可夫决策过程,其调度策略由所提出的序列到序列深度神经网络表示,并通过近端策略优化(proximal policy optimization)方法进行训练。仿真实验表明,所提出的算法具有良好的收敛能力,并且在不同环境下的表现均优于所对比的六个基线算法,证明了该方法的有效性和可靠性。相似文献

14.

基于深度强化学习种群优化的演化式分拣调度算法

曾德天曾增日詹俊《计算机应用研究》2022,39(3):739-743+757

机械制造中的产线分拣作业具有问题与数据的双重复杂性,为了对分拣操作进行优化以提高生产效率,设计了一套分拣作业的数据表示方法与一种基于种群优化的演化式算法,同时整理并公开了一个真实的工业数据集。数据表示方法通过借鉴词袋模型对原始作业数据进行抽象表示;演化式算法使用深度强化学习初始化遗传算法中的种群,同时引入了精英保留策略以提高算法的优化能力。最后,将提出的算法与其他算法在真实的工业数据集与旅行商问题数据集上进行了对比。结果表明,该算法能找到更优的分拣顺序与访问路径,验证了算法的有效性。相似文献

15.

基于改进式贪婪算法的5G网络切片动态资源调度策略

下载免费PDF全文

陈强刘彩霞李凌书《网络与信息安全学报》2018,4(7):60-68

为了解决移动通信网络中资源利用率和用户体验质量的瓶颈问题,5G 引入网络切片来应对用户的巨大资源需求。提出了一种基于改进式贪婪算法的网络切片动态资源调度策略,在切片调度和用户调度阶段,设计了一种两层模型,即切片?用户模型,并且结合改进式贪婪算法,使服务权重值最大的切片和优先级最高的用户组合,完成相应的服务。该方法是将全局资源最优问题简化为规模更小的子问题,通过每一次切片和用户的最佳组合,从而使整个系统的资源和用户的体验质量达到最优。Matlab的仿真结果表明,基于改进式贪婪算法的网络切片动态资源调度策略在系统剩余资源利用率、系统达到平均的QoE水平、系统吞吐量等方面都显优于现行的资源调度策略,能够更好地满足用户的需求。相似文献

16.

基于分布式深度强化学习的微电网实时优化调度

郭方洪何通吴祥董辉刘冰《控制理论与应用》2022,39(10):1881-1889

随着海量新能源接入到微电网中, 微电网系统模型的参数空间成倍增长, 其能量优化调度的计算难度不断上升. 同时, 新能源电源出力的不确定性也给微电网的优化调度带来巨大挑战. 针对上述问题, 本文提出了一种基于分布式深度强化学习的微电网实时优化调度策略. 首先, 在分布式的架构下, 将主电网和每个分布式电源看作独立智能体. 其次, 各智能体拥有一个本地学习模型, 并根据本地数据分别建立状态和动作空间, 设计一个包含发电成本、交易电价、电源使用寿命等多目标优化的奖励函数及其约束条件. 最后, 各智能体通过与环境交互来寻求本地最优策略, 同时智能体之间相互学习价值网络参数, 优化本地动作选择, 最终实现最小化微电网系统运行成本的目标. 仿真结果表明, 与深度确定性策略梯度算法(Deep Deterministic Policy Gradient, DDPG)相比, 本方法在保证系统稳定以及求解精度的前提下, 训练速度提高了17.6%, 成本函数值降低了67%, 实现了微电网实时优化调度. 相似文献

17.

基于强化学习的高可靠性多域虚拟网络映射算法

赵季红宋航曲桦雷智麟《计算机应用研究》2022,39(6)

现有的虚拟网络映射算法大多是依赖于人工规则对节点进行排序,决定节点先后映射的顺序,来优化节点映射从而提高虚拟网络请求的成功率。而在链路映射阶段普遍采用广度优先搜索算法,忽略了节点资源和链路资源具有强相关性的特点,从而只能取得局部最优的映射结果。针对上述问题,基于5G多域异构网络环境,从网络的可生存性的保护角度出发,提出一种使用双层强化学习的虚拟网络映射算法。将强化学习同时应用于网络映射的节点和链路两阶段,使用梯度策略和反向传播的方法对该网络模型进行训练,并使用此训练模型完成映射。仿真结果表明,与对比算法相比,该算法在优化节点映射的同时优化了链路映射,且在映射成功率、长期收益率、节点和链路的利用率等方面均取得较好结果。相似文献