期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

朱家政张宏立王聪李新凯董颖超《控制与决策》2024,39(2):595-603

针对具有模糊加工时间和模糊交货期的作业车间调度问题,以最小化最大完工时间为目标,以近端策略优化(PPO)算法为基本优化框架,提出一种LSTM-PPO(proximal policy optimization with Long short-term memory)算法进行求解.首先,设计一种新的状态特征对调度问题进行建模,并且依据建模后的状态特征直接对工件工序进行选取,更加贴近实际环境下的调度决策过程;其次,将长短期记忆(LSTM)网络应用于PPO算法的行动者-评论者框架中,以解决传统模型在问题规模发生变化时难以扩展的问题,使智能体能够在工件、工序、机器数目发生变化时,仍然能够获得最终的调度解.在所选取的模糊作业车间调度的问题集上,通过实验验证了该算法能够取得更好的性能. 相似文献

2.

双伸位堆垛机系统调度的优化设计

下载免费PDF全文

黄杨波刘万军刘卉《计算机工程》2010,36(1):260-261

以某机务段段修配件自动化立体仓库(AS/RS)为例,通过分析影响双伸位堆垛机系统运作的重要因素,提出一种基于作业时间最短的优化设计,建立相应的数学模型,并采用分区平均搜索初始种群的遗传算法对其进行验证。结果证明该优化设计有利于提高双伸位堆垛机AS/RS系统的运作效率。相似文献

3.

双伸位堆垛机系统调度的优化设计

下载免费PDF全文

黄杨波刘万军刘卉《计算机工程》2010,36(1):260-261,

以某机务段段修配件自动化立体仓库(AS/RS)为例,通过分析影响双伸位堆垛机系统运作的重要因素,提出一种基于作业时间最短的优化设计,建立相应的数学模型,并采用分区平均搜索初始种群的遗传算法对其进行验证。结果证明该优化设计有利于提高双伸位堆垛机AS/RS系统的运作效率。相似文献

4.

基于深度强化学习求解作业车间机器与 AGV联合调度问题

下载免费PDF全文

孙爱红雷琦宋豫川杨云帆《控制与决策》2024,39(1):253-262

针对作业车间中自动引导运输车(automated guided vehicle, AGV)与机器联合调度问题,以完工时间最小化为目标,提出一种基于卷积神经网络和深度强化学习的集成算法框架.首先,对含AGV的作业车间调度析取图进行分析,将问题转化为一个序列决策问题,并将其表述为马尔可夫决策过程.接着,针对问题的求解特点,设计一种基于析取图的空间状态与5个直接状态特征;在动作空间的设置上,设计包含工序选择和AGV指派的二维动作空间;根据作业车间中加工时间与有效运输时间为定值这一特点,构造奖励函数来引导智能体进行学习.最后,设计针对二维动作空间的2D-PPO算法进行训练和学习,以快速响应AGV与机器的联合调度决策.通过实例验证,基于2D-PPO算法的调度算法具有较好的学习性能和可扩展性效果. 相似文献

5.

基于分布式深度强化学习的微电网实时优化调度

郭方洪何通吴祥董辉刘冰《控制理论与应用》2022,39(10):1881-1889

随着海量新能源接入到微电网中, 微电网系统模型的参数空间成倍增长, 其能量优化调度的计算难度不断上升. 同时, 新能源电源出力的不确定性也给微电网的优化调度带来巨大挑战. 针对上述问题, 本文提出了一种基于分布式深度强化学习的微电网实时优化调度策略. 首先, 在分布式的架构下, 将主电网和每个分布式电源看作独立智能体. 其次, 各智能体拥有一个本地学习模型, 并根据本地数据分别建立状态和动作空间, 设计一个包含发电成本、交易电价、电源使用寿命等多目标优化的奖励函数及其约束条件. 最后, 各智能体通过与环境交互来寻求本地最优策略, 同时智能体之间相互学习价值网络参数, 优化本地动作选择, 最终实现最小化微电网系统运行成本的目标. 仿真结果表明, 与深度确定性策略梯度算法(Deep Deterministic Policy Gradient, DDPG)相比, 本方法在保证系统稳定以及求解精度的前提下, 训练速度提高了17.6%, 成本函数值降低了67%, 实现了微电网实时优化调度. 相似文献

6.

基于着色赋时Petri网的堆垛机建模与调度研究 总被引：1，自引：0，他引：1

下载免费PDF全文

罗键程勇吴长庆《计算机工程与应用》2009,45(1):207-210

为了直观、简洁地研究AS/RS中的堆垛机运送系统,应用着色赋时Petri网（CTPN）建立了其动态模型。同时针对原有系统的不足,提出了基于双队列缓冲的堆垛机控制策略及双循环作业方式的路径优化策略,从而缓解了该系统中可能产生的阻塞现象,提高了堆垛机运送系统和出入库站台的效率,这对保证出入库的高效、正常、有序的进行有着重要的意义。相似文献

7.

基于深度强化学习种群优化的演化式分拣调度算法

曾德天曾增日詹俊《计算机应用研究》2022,39(3):739-743+757

机械制造中的产线分拣作业具有问题与数据的双重复杂性,为了对分拣操作进行优化以提高生产效率,设计了一套分拣作业的数据表示方法与一种基于种群优化的演化式算法,同时整理并公开了一个真实的工业数据集。数据表示方法通过借鉴词袋模型对原始作业数据进行抽象表示;演化式算法使用深度强化学习初始化遗传算法中的种群,同时引入了精英保留策略以提高算法的优化能力。最后,将提出的算法与其他算法在真实的工业数据集与旅行商问题数据集上进行了对比。结果表明,该算法能找到更优的分拣顺序与访问路径,验证了算法的有效性。相似文献

8.

基于多动作深度强化学习的纺机制造车间调度方法

纪志勇袁逸萍巴智勇樊盼盼田芳《计算机应用研究》2023,(11):3247-3253

纺机制造车间调度问题是一种具有复杂工艺约束和序列相关设置时间的柔性作业车间调度问题,为了保证调度方案的质量,提升企业的订单准时交付能力,提出了一种以最小化最大完工期为优化目标的多动作深度强化学习算法。首先,将调度问题建模为多马尔可夫决策过程。然后,针对纺机制造车间调度的工件选择和机器选择两个子问题,分别设计了用于定义工序选择策略和机器选择策略的两个编码器,以预测选择不同工序和机器的概率分布。其中,在工序选择编码器中,采用图神经网络对析取图进行编码,以降低问题规模对解的质量的影响。其次,提出了一种具有多动作空间的强化学习训练算法,用于学习两个子策略。最后,经某纺机制造企业的实际生产案例验证,该方法的性能受问题规模影响较小,与其他对比算法相比,能够获得较高质量的调度方案,训练的模型具有较好的泛化能力和稳定性。相似文献

9.

基于深度强化学习的三维路径规划算法

下载免费PDF全文

黄东晋蒋晨凤韩凯丽《计算机工程与应用》2020,56(15):30-36

合理的路线选择是智能体三维路径规划研究领域的难点。现有路径规划方法存在不能很好地适应未知地形,避障形式单一等问题。针对这些问题,提出了一种基于LSTM-PPO的智能体三维路径规划算法。利用虚拟射线探测仿真环境,并将收集到的状态空间和动作状态引入长短时记忆网络。通过额外的奖惩函数和好奇心驱动让智能体学会跳跃通过低矮障碍物,避开大型障碍物。利用PPO算法的截断项机制使得规划策略更新的幅度更加优化。实验结果表明,该算法是可行的,能够更加智能合理地选择路线,很好地适应存在多样障碍物的未知环境。相似文献

10.

深度强化学习算法求解作业车间调度问题

下载免费PDF全文

李宝帅叶春明《计算机工程与应用》2021,57(23):248-254

由于传统车间调度方法实时响应能力有限,难以在复杂调度环境中取得良好效果,提出一种基于深度Q网络的深度强化学习算法。该方法结合了深度神经网络的学习能力与强化学习的决策能力,将车间调度问题视作序列决策问题,用深度神经网络拟合价值函数,将调度状态表示为矩阵形式进行输入,使用多个调度规则作为动作空间,并设置基于机器利用率的奖励函数,不断与环境交互,获得每个决策点的最佳调度规则。通过与智能优化算法、调度规则在标准问题集上的测试对比证明了算法有效性。相似文献

11.

基于深度强化学习的多旋翼无人机空中目标自主跟踪

下载免费PDF全文

杨兴昊宋建梅佘浩平吴程杰杨钦宁付伟达《计算机测量与控制》2022,30(10):88-94

针对空中对接任务中的目标自主跟踪问题,提出了一种基于深度强化学习的端到端的目标跟踪方法。该方法采用近端策略优化算法,Actor网络与Critic网络共享前两层的网络参数,将无人机所拍摄图像作为卷积神经网络的输入,通过策略网络控制多旋翼无人机电机转速,实现端到端的目标跟踪,同时采用shaping方法以加速智能体训练。通过物理引擎Pybullet搭建仿真环境并进行训练验证,仿真结果表明该方法能够达到设定的目标跟踪要求且具有较好的鲁棒性。相似文献

12.

强化学习求解组合最优化问题的研究综述

王扬陈智斌吴兆蕊高远《计算机科学与探索》2022,(2):261-279

组合最优化问题(COP)的求解方法已经渗透到人工智能、运筹学等众多领域.随着数据规模的不断增大、问题更新速度的变快,运用传统方法求解COP问题在速度、精度、泛化能力等方面受到很大冲击.近年来,强化学习(RL)在无人驾驶、工业自动化等领域的广泛应用,显示出强大的决策力和学习能力,故而诸多研究者尝试使用RL求解COP问题,... 相似文献

13.

基于深度强化学习DDPG算法的投资组合管理

齐岳  黄硕华 《计算机与现代化》2018,(5):93

将深度强化学习技术应用于投资组合管理，采用深度强化学习中的深度确定性策略梯度DDPG（Deep Deterministic Policy Gradient）算法，通过限制单只股票的投资权重，分散风险，并采用丢弃算法（Dropout），即在训练模型时随机丢弃节点，解决过拟合问题。以中国股市为例，选取16只中证100指数成分股作为风险资产进行实验。结果表明，本文基于深度强化学习方法构建的投资组合，在实验期间的价值增幅显著高于对照组（等权重组合），2年达到65%，约为对照组的2.5倍，表明了本文方法的有效性。而且通过进一步实验，表明了当用于训练的数据离测试数据时间越近，则本文构建的投资组合表现越好。相似文献

14.

一种基于智能调度的可扩展并行强化学习方法

刘全傅启明杨旭东荆玲李瑾李娇《计算机研究与发展》2013,50(4):843-851

针对强化学习在大状态空间或连续状态空间中存在的“维数灾”问题,提出一种基于智能调度的可扩展并行强化学习方法——IS-SRL,并从理论上进行分析,证明其收敛性.该方法采用分而治之策略对大状态空间进行分块,使得每个分块能够调入内存独立学习.在每个分块学习了一个周期之后交换到外存上,调入下一个分块继续学习.分块之间在换入换出的过程中交换信息,以使整个学习任务收敛到最优解.同时针对各分块之间的学习顺序会显著影响学习效率的问题,提出了一种新颖的智能调度算法,该算法利用强化学习值函数更新顺序的分布特点,基于多种调度策略加权优先级的思想,把学习集中在能产生最大效益的子问题空间,保障了IS-SRL方法的学习效率.在上述调度算法中融入并行调度框架,利用多Agent同时学习,得到了IS-SRL方法的并行版本——IS-SPRL方法.实验结果表明,IS-SPRL方法具有较快的收敛速度和较好的扩展性能. 相似文献

15.

基于深度强化学习的WRSN动态时空充电调度

王艺均冯勇刘明刘念伯《软件学报》2024,35(3):1485-1501

高效的移动充电调度是构建长生命期、可持续运行的无线可充电传感器网络(WRSN)的关键之一.现有基于强化学习的充电策略只考虑了移动充电调度问题的一个维度,即移动充电器(MC)的路径规划,而忽略了充电调度问题中的另一维度,即充电时长调整,因而仍然存在性能限制.提出一种基于深度强化学习的WRSN动态时空充电调度方法(SCSD),建立充电序列调度和充电时长动态调整的深度强化学习模型.针对移动充电调度中离散的充电序列规划和连续的充电时长调整问题,使用DQN为待充电节点优化充电序列,并基于DDPG计算并动态调整序列中待充电节点的充电时长.通过分别从空间和时间两个维度的优化,在避免节点缺电失效的同时,所提出的SCSD可实现充电性能的有效提高.大量仿真实验结果表明,SCSD与现有的几种有代表性的充电方案相比,其充电性能具有明显的优势. 相似文献

16.

基于多任务学习的快件送达时间预测方法

王强林友芳万怀宇《计算机工程》2022,48(4):314-320

快件送货时间预测（即在任何时间预测包裹送达的到达时间）是物流领域中最重要的服务之一。准确地预测快件送达时间可以为用户提供更准时的服务,缓解客户的等待焦虑,提升用户体验,且有利于快递员的路径规划,从而提高派送效率。然而在快递派送场景下,多因素、动态性及多目的地等特征给快件投递准确预测送达时间带来巨大挑战。提出一种基于多任务学习的模型MTDTN,从快递员的大量历史时空轨迹中预测快件送达时间。MTDTN建模多种影响送达时间的外部因素,利用地理信息编码、卷积操作以及双向长短时记忆网络来捕获派送行为的时空关系,并运用多任务学习框架,引入顺序预测的辅助任务与送达时间预测的主任务,提高模型预测性能。在真实数据集上的实验结果表明,与基准方法中最优的DeepETA模型相比,该模型的平均绝对误差与平均绝对百分比误差分别降低了16.11%和12.88%,模型效果明显提升。相似文献

17.

基于多任务学习的人脸属性识别方法

李亚张雨楠彭程杨俊钦刘淼《计算机工程》2020,46(3):229-236

针对传统深度卷积神经网络模型复杂、识别速度慢的问题,提出一种基于多任务学习的人脸属性识别方法。通过轻量化残差模块构建基础网络,根据属性类之间的关联关系设计共享分支网络,以大幅减少网络参数和计算开销。以多任务学习的方式联合优化各分支网络与基础网络的参数,利用关联属性间的共同特征实现人脸属性识别。采用带权重的交叉熵作为损失函数监督训练网络模型,改善正负样本数不均衡问题。在公开数据集CelebA上的实验结果表明,该方法的识别错误率低至8.45%,空间开销仅2.7 MB,在CPU上每幅图预测时间低至15ms,方便部署在资源有限的移动或便携式设备上,具有实际应用价值。相似文献

18.

基于深度强化学习的机械臂控制快速训练方法

赵寅甫冯正勇《计算机工程》2022,48(8):113-120

人工智能在机器人控制中得到广泛应用,机器人控制算法也逐渐从模型驱动转变为数据驱动。深度强化学习算法可在复杂环境中感知并决策,能够解决高维度和连续状态空间下的机械臂控制问题。然而,目前深度强化学习中数据驱动的训练过程非常依赖计算机GPU算力,且训练时间成本较大。提出基于深度强化学习的先简化模型（2D模型）再复杂模型（3D模型）的机械臂控制快速训练方法。采用深度确定性策略梯度算法代替机械臂传统控制算法中的逆运动学解算方法,直接通过数据驱动的训练过程控制机械臂末端到达目标位置,从而减小训练时间成本。同时,对于状态向量和奖励函数形式,使用不同的设置方式。将最终训练得到的算法模型在真实机械臂上进行实现和验证,结果表明,其控制效果达到了分拣物品的应用要求,相比于直接在3D模型中的训练,能够缩短近52%的平均训练时长。相似文献