期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

郭晓剑胡方勇《计算机应用研究》2022,39(9)

目前对于随机工期的分布式资源受限多项目调度问题（SDRCMPSP）的研究较少且大多数为静态调度方案,无法针对环境的变化实时地对策略进行调整优化,及时响应频繁发生的动态因素。为此建立了最小化总拖期成本为目标的随机资源受限多项目动态调度DRL模型,设计了相应的智能体交互环境,采用强化学习中的DDDQN算法对模型进行求解。实验首先对算法的超参数进行灵敏度分析,其次将最优组合在活动工期可变和到达时间不确定两种不同条件下对模型进行训练及测试,结果表明深度强化学习算法能够得到优于任意单一规则的调度结果,有效减少随机资源受限多项目期望总拖期成本,多项目调度决策优化提供良好的依据。相似文献

2.

深度强化学习算法求解作业车间调度问题

下载免费PDF全文

李宝帅叶春明《计算机工程与应用》2021,57(23):248-254

由于传统车间调度方法实时响应能力有限,难以在复杂调度环境中取得良好效果,提出一种基于深度Q网络的深度强化学习算法。该方法结合了深度神经网络的学习能力与强化学习的决策能力,将车间调度问题视作序列决策问题,用深度神经网络拟合价值函数,将调度状态表示为矩阵形式进行输入,使用多个调度规则作为动作空间,并设置基于机器利用率的奖励函数,不断与环境交互,获得每个决策点的最佳调度规则。通过与智能优化算法、调度规则在标准问题集上的测试对比证明了算法有效性。相似文献

3.

蚁群算法优化到达航班排序和调度问题的研究 总被引：1，自引：0，他引：1

李冠彬詹志辉张军《计算机工程与设计》2009,30(17)

为有效解决动态环境中的到达航班排序和调度问题,提出了基于移动域控制的动态蚁群优化算法,该算法将总时间划分成多个时间窗口,并将蚁群算法优化控制在一个移动域内进行,有效避免了算法的早熟,降低了算法的计算复杂度.实例仿真计算表明,该算法比标准的蚁群算法具有更高的求解质量和求解效率,适合于对终端区到达航班进行实时排序和调度. 相似文献

4.

基于强化学习的智能车间调度策略研究综述

王无双骆淑云《计算机应用研究》2022,39(6)

智能制造是我国制造业发展的必然趋势,而智能车间调度是制造业升级和深化“两化融合”的关键技术。主要研究强化学习算法在车间调度问题中的应用,为后续的研究奠定基础。其中车间调度主要包括静态调度和动态调度;强化学习算法主要包括基于值函数和AC（Actor-Critic）网络。首先,从总体上阐述了强化学习方法在作业车间调度和流水车间调度这两大问题上的研究现状;其次,对车间调度问题的数学模型以及强化学习算法中最关键的马尔可夫模型建立规则进行分类讨论;最后,根据研究现状和当前工业数字化转型需求,对智能车间调度技术的未来研究方向进行了展望。相似文献

5.

可重入生产系统的平均报酬型强化学习调度 总被引：4，自引：0，他引：4

柳长春沈志江于海斌《信息与控制》2004,33(2):145-150

在可重入生产系统中,一个重要的问题就是对调度策略进行优化,以提高系统平均输出率.本文采用了一种平均报酬型强化学习算法来解决该问题,直接从所关心的系统品质出发,自动获得具有自适应性的动态调度策略.仿真结果表明,其性能优于两种熟知的优先权调度策略. 相似文献

6.

支持重规划的战时保障动态调度研究

下载免费PDF全文

曾斌樊旭李厚朴《自动化学报》2023,(7):1519-1529

复杂多变的战场环境要求后装保障能够根据战场环境变化,预见性地做出决策.为此,提出基于强化学习的动态调度方法.为准确描述保障调度问题,提出支持抢占调度、重分配及重部署决策的马尔科夫决策过程(Markov decision process, MDP)模型,模型中综合考量了任务排队、保障优先级以及油料约束等诸多问题的影响;随后设计改进策略迭代算法,训练基于神经网络的保障调度模型;训练后的神经网络模型能够近似计算状态价值函数,从而求解出产生最大期望价值的优化调度策略.最后设计一个分布式战场保障仿真实验,通过与常规调度策略的对比,验证了动态调度算法具有良好的自适应性和自主学习能力,能够根据历史数据和当前态势预判后续变化,并重新规划和配置保障资源的调度方案. 相似文献

7.

基于强化学习的多技能项目调度算法

胡振涛崔南方胡雪君雷晓琪《控制理论与应用》2024,41(3):502-511

多技能项目调度存在组合爆炸的现象, 其问题复杂度远超传统的单技能项目调度, 启发式算法和元启发式算法在求解多技能项目调度问题时也各有缺陷. 为此, 根据项目调度的特点和强化学习的算法逻辑, 本文设计了基于强化学习的多技能项目调度算法. 首先, 将多技能项目调度过程建模为符合马尔科夫性质的序贯决策过程, 并依据决策过程设计了双智能体机制. 而后, 通过状态整合和行动分解, 降低了价值函数的学习难度. 最后, 为进一步提高算法性能, 针对资源的多技能特性, 设计了技能归并法, 显著降低了资源分配算法的时间复杂度. 与启发式算法的对比实验显示, 本文所设计的强化学习算法求解性能更高, 与元启发式算法的对比实验表明, 该算法稳定性更强, 且求解速度更快. 相似文献

8.

考虑源荷随机性的跨区互联电网直流联络线调度学习优化

张延唐昊王珂潘毅李怡瑾《控制理论与应用》2019,36(7):1047-1056

在跨区互联电网中,充分利用直流联络线调度能力可以有效地平衡电力资源的配置,促进新能源的消纳.本文针对源荷不确定性的跨区互联电网直流联络线调度问题,首先用连续马尔科夫过程模型描述互联电网中风电出力与负荷需求随机动态特性;然后在功率平衡及联络线日交易电量约束等实际运行要求前提下,将直流联络线调度优化问题建立成离散马尔科夫决策过程模型.在该模型下,调度机构根据互联电网系统各时段源荷的功率情况,动态调整联络线输电计划和配套的柔性负荷调节方案,以达到提升系统运行效益的优化目标;最后引入强化学习方法对调度策略进行优化求解.通过学习优化,系统平均日运行代价显著下降且最终收敛.实验结果表明考虑源荷随机性的直流联络线动态调整方法可有效地提高互联电网发输电系统的运行效益. 相似文献

9.

多智能体同时到达多目标点的协同强化学习算法

李瑞群王若冰田涛郑重张越《计算机应用与软件》2021,38(9):199-204

针对动态未知环境下多智能体多目标协同问题,为实现在动态未知环境下多个智能体能够同时到达所有目标点,设计函数式奖励函数,对强化学习算法进行改进.智能体与环境交互,不断重复"探索-学习-决策"过程,在与环境的交互中积累经验并优化策略,在未预先分配目标点的情况下,智能体通过协同决策,能够避开环境中的静态障碍物和动态障碍物,同时到达所有目标点.仿真结果表明,该算法相比现有多智能体协同方法的学习速度平均提高约42.86％,同时智能体能够获得更多的奖励,可以做到自主决策自主分配目标,并且实现同时到达所有目标点的目标. 相似文献

10.

动态规划-粒子群算法在水库优化调度中的应用

李顺新杜辉《计算机应用》2010,30(6):1550-1551

水库优化调度是一个典型的具有多约束条件的、动态的、非线性的优化问题。针对这些问题,利用动态规划-粒子群(DP-PSO)算法加以求解。利用动态规划中的多阶段最优策略原理,将水库优化调度问题转化为多阶段决策子问题,各个子问题采用粒子群算法优化求解。数值实验表明,在计算时段较多时,DP-PSO算法计算的可靠性明显优于一般的动态规划(DP)算法,在计算时间上,DP-PSO算法用时较动态规划-遗传算法(DP-GA)少。相似文献

11.

A novel hybrid method for improving ambulance dispatching response time through a simulation study

《Simulation Modelling Practice and Theory》2016

Response time is the most important factor in evaluating the performance of various Emergency Medical Services (EMS). In this paper, a novel hybrid method has been proposed to improve response time for ambulance dispatching. The proposed approach uses a linear hybrid metric based on network centrality measures, nearest neighbor method and first-in first-out (FIFO) policy. Other important parameters in ambulance dispatching such as the operating environment, rate of incoming emergency calls, available resources, hospitalization probability of the patients as well as distances and locations of units are all part of information used in this proposed approach. In line with the traditional metrics used in previous works, we have adopted a linear combined metric which is adjusted according to environment parameters. Results of extensive simulation experiments show reductions in response time by as much as 42% as compared to previous methods. 相似文献

12.

基于增强学习的网格化出租车调度方法

何胜学《计算机应用研究》2019,36(3)

高度信息化的网格化城市管理可以为出租车运营优化提供新的实时动态乘客需求信息和车辆位置信息。以此为契机,针对城市出租车空驶率高和司乘匹配率低的问题,提出了一种网格化的出租车实时动态调度的增强学习控制方法。通过为出租车提供空驶巡游的动态最佳路线,新的控制方法旨在提高出租车的服务效率,并降低乘客的等待时间。首先,以城市单元网格为基础,明确出租车调度的关键问题;其次,以空驶路线的动态调整为控制手段,建立调度的增强学习模型;最后,给出求解模型的Q学习算法,并通过算例验证新调度方法的有效性。研究表明新方法可以有效提高司乘匹配率、增加总的出租车运营收入、减少乘客平均等车时间和减少总的出租车空驶时间。相似文献

13.

基于调度规则和免疫算法的作业车间多目标调度

龙田王俊佳《信息与控制》2016,45(3):278-286

利用动态在线调度方法对动态环境下的作业车间进行研究,采用优先级调度规则对大量调度案例进行求解,针对7个调度目标,从备选调度规则集中选出了单个目标下性能最优的调度规则;为实现调度规则的动态选择以适应多目标调度,基于免疫系统中的独特型网络理论,设计了一种免疫调度算法．根据算法,定义了有效的抗体和抗原结构,并通过抗体间亲和力计算、抗体浓度计算、抗体选择等关键步骤,实现对调度规则的动态控制．仿真测试数据表明,所设计的免疫调度算法能根据不同的车间情况,快速选出不同的调度规则满足多个调度目标,有效解决了作业车间多目标调度问题．相似文献

14.

Online preference learning for adaptive dispatching of AGVs in an automated container terminal

《Applied Soft Computing》2016

This paper proposes an online preference learning algorithm named OnPL that can dynamically adapt the policy for dispatching AGVs to changing situations in an automated container terminal. The policy is based on a pairwise preference function that can be repeatedly applied to multiple candidate jobs to sort out the best one. An adaptation of the policy is therefore made by updating this preference function. After every dispatching decision, each of all the candidate jobs considered for the decision is evaluated by running a simulation of a short look-ahead horizon. The best job is then paired with each of the remaining jobs to make training examples of positive preferences, and the inversions of these pairs are each used to generate examples of negative preferences. These new training examples, together with some additional recent examples in the reserve pool, are used to relearn the preference function implemented by an artificial neural network. The experimental results show that OnPL can relearn its policy in real time, and can thus adapt to changing situations seamlessly. In comparison to OnPL, other methods cannot adapt well enough or are not applicable in real time owing to the very long computation time required. 相似文献

15.

考虑震后道路可靠性的多目标应急调度问题研究

李巧茹范忠国田晓勇王京京崔洪军《信息与控制》2019,48(3):372-379

针对重大自然灾害应急物资调度决策问题，提出一种考虑灾后道路可靠性的多目标优化应急调度模型，以最长车辆行驶时间最小、最小车辆行驶路径可靠度最大和系统物资未满足度最小为目标函数，采用第二代非支配排序遗传算法（NSGA-Ⅱ）和加权遗传算法（GA）进行求解，并对求解目标函数结果进行对比分析.以“汶川地震”为仿真算例，结果表明：在多目标应急调度问题上，NSGA-Ⅱ各目标最优解均优于加权GA算法且收敛速度更快，验证了该应急调度模型的有效性. 相似文献

16.

有色冶炼企业专用铁路运输智能调度系统研究

王雅琳马杰阳春华桂卫华《计算机工程与应用》2006,42(16):207-211

针对有色冶炼企业铁路运输的特点,设计了有色冶炼企业铁路运输智能调度系统,并对系统实现中的两个关键问题——调度优化和调度模拟进行了深入讨论。提出了基于混合策略的优化调度方法,把企业铁路运输调度优化问题分解成列车分组优化、列车解编优化、进路优化以及取送车优化四个子问题,并采用不同方法分别进行优化,以期得到全局满意解,文中着重论述了取送车排序的优化问题。从调度监控的需要出发,给出了企业铁路站场动静态实体信息描述方法,构建了站场静态网络模型,并定义了调车机车的状态矩阵和轨道状态矩阵,实现了调度计划模拟。文章所提方法在南方某有色冶炼企业的铁路运输调度中得到应用,验证了方法的可行性。相似文献

17.

智能化的应急指挥调度系统的建设与应用

冯月霞樊志强《广东电脑与电讯》2014,(8):63-65

从日常的应急工作出发探索建设智能化的应急指挥调度系统,探索应急工作涉及的监控能力、分析能力、调度能力,整合日常监控、重大节假日监控、重大通信保障等场景下的各种信息及相关手段;实现对网络、客户、业务异常状况发生时快速发现、准确定位和及时响应;实现应急人员与物资的集中管理,及时启动应急预案,实时监控移动通信状态、统计应急演练、保障情况,将繁琐的应急操作迁移到监控一线;实现对应急通信保障工作的可视、可控、可分析、可朔源、可扩展的新型管理模式。相似文献

18.

基于递阶强化学习的多智能体AGV 调度系统 总被引：3，自引：1，他引：3

李晓萌杨煜普许晓鸣《控制与决策》2002,17(3):292-296

递阶强化学习是解决状态空间庞大的复杂系统智能体决策的有效方法。具有离散动态特性的AGV调度系统需要实时动态的调度方法，而具有MaxQ递阶强化学习能力的多智能体通过高效的强化学习方法和协作，可以实现AGV的实时调度。仿真实验证明了这种方法的有效性。相似文献

19.

Where will the next emergency event occur? Predicting ambulance demand in emergency medical services using artificial intelligence

《Computers, Environment and Urban Systems》2019

Predicting demand in emergency medical services is crucial for saving people's lives. Most studies aggregate demand prediction within a zone, failing to offer insights at a more detailed level. This study aspires to fill this gap by introducing a novel, three-level, spatial-based approach that identifies the geographical location of expected emergency events. First, the proposed methodology introduces new concepts and notions to model emergency events, as sets of interconnected points in space, that create paths over time. Second, based on these paths, an artificial neural network, optimized using a new evolutionary algorithm, predicts the location of future demand (emergencies). Third, based on the predicted demand, a location-allocation model is applied to site ambulances prior to actual emergencies occurrence, enhancing thus location planning and decision making. This method is applied to a dataset comprising 2851 emergency events in Athens, Greece, and the outcomes are evaluated based on the actual emergency events occurred. Results show that the mean distance, between an actual emergency event and the nearest ambulance, located based on the expected demand as estimated by our approach, deviates by 110 m relative to the optimal solution. This deviation, adds only a few seconds of delay to the response time of an ambulance relative to the theoretically optimal solution (post hoc location). In addition, it improves the current solution (in which ambulances are waiting in a set of fixed location throughout the year), by >1 km, decreasing significantly response time. From a policy perspective, these results indicate that assessing expected emergency events through the proposed method, would allow medical services to optimally locate ambulances in advance, reducing response time and thus increasing survival rates and public safety. 相似文献

20.

基于用户激励的共享单车调度策略

石兵黄茜子宋兆翔徐建桥《计算机应用》2022,42(11):3395-3403

针对共享单车的调度问题,在考虑预算限制、用户最大步行距离限制、用户时空需求以及共享单车分布动态变化的情况下,提出一种用户激励下的共享单车调度策略,以达到提高共享单车平台长期用户服务率的目的。该调度策略包含任务生成算法、预算分配算法和任务分配算法。在任务生成算法中,使用长短期记忆（LSTM）网络预测用户未来的单车需求量;在预算分配算法中,采用深度策略梯度（DDPG）算法来设计预算分配策略;任务分配完预算后,需要将任务分配给用户执行,因此在任务分配算法中使用贪心匹配策略来进行任务分配。基于摩拜单车的数据集进行实验,并把所提策略分别与无预算限制的调度策略（即平台不受预算限制,可以使用任意金钱激励用户将车骑行至目标区域）、贪心的调度策略、卡车拖运下的调度策略以及未进行调度的情况进行对比。实验结果表明,与贪心调度策略和卡车托运下的调度策略相比,用户激励下的共享单车调度策略能有效提高共享单车系统中的用户服务率。相似文献