首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 68 毫秒
1.
为提高多车场车辆路径问题(multi-depot vehicle routing problem, MDVRP)的求解效率,提出了端到端的深度强化学习框架。首先,将MDVRP建模为马尔可夫决策过程(Markov decision process, MDP),包括对其状态、动作、收益的定义;同时,提出了改进图注意力网络(graph attention network, GAT)作为编码器对MDVRP的图表示进行特征嵌入编码,设计了基于Transformer的解码器;采用改进REINFORCE算法来训练该模型,该模型不受图的大小约束,即其一旦完成训练,就可用于求解任意车场和客户数量的算例问题。最后,通过随机生成的算例和公开的标准算例验证了所提出框架的可行性和有效性,即使在求解客户节点数为100的MDVRP上,经训练的模型平均仅需2 ms即可得到与现有方法相比更具优势的解。  相似文献   

2.
李凯文  张涛  王锐  覃伟健  贺惠晖  黄鸿 《自动化学报》2021,47(11):2521-2537
组合优化问题广泛存在于国防、交通、工业、生活等各个领域, 几十年来, 传统运筹优化方法是解决组合优化问题的主要手段, 但随着实际应用中问题规模的不断扩大、求解实时性的要求越来越高, 传统运筹优化算法面临着很大的计算压力, 很难实现组合优化问题的在线求解. 近年来随着深度学习技术的迅猛发展, 深度强化学习在围棋、机器人等领域的瞩目成果显示了其强大的学习能力与序贯决策能力. 鉴于此, 近年来涌现出了多个利用深度强化学习方法解决组合优化问题的新方法, 具有求解速度快、模型泛化能力强的优势, 为组合优化问题的求解提供了一种全新的思路. 因此本文总结回顾近些年利用深度强化学习方法解决组合优化问题的相关理论方法与应用研究, 对其基本原理、相关方法、应用研究进行总结和综述, 并指出未来该方向亟待解决的若干问题.  相似文献   

3.
车辆路径问题(VRP)是组合优化问题中经典的NP难问题,广泛应用于交通、物流等领域,随着问题规模和动态因素的增多,传统算法很难快速、智能地求解复杂的VRP问题。近年来随着人工智能技术的发展,尤其是深度强化学习(DRL)在AlphaGo中的成功应用,为路径问题求解提供了全新思路。鉴于此,针对近年来利用DRL求解VRP及其变体问题的模型进行文献综述。回顾了DRL求解VRP的相关思路,并梳理基于DRL求解VRP问题的关键步骤,对基于指针网络、图神经网络、Transformer和混合模型的四类求解方法分类总结,同时对目前基于DRL求解VRP及其变体问题的模型性能进行对比分析,总结了基于DRL求解VRP问题时遇到的挑战以及未来的研究方向。  相似文献   

4.
带平衡约束的矩形布局问题源于卫星舱设备布局设计,属于组合优化问题。深度强化学习利用奖赏机制,通过数据训练实现高性能决策优化。针对布局优化问题,提出一种基于深度强化学习的新算法DAR及其扩展算法IDAR。DAR用指针网络输出定位顺序,再利用定位机制给出布局结果,算法的时间复杂度是O(n3);IDAR算法在DAR的基础上引入迭代机制,算法时间复杂度是O(n4),但能给出更好的结果。测试表明DAR算法具有较好的学习能力,用小型布局问题进行求解训练所获得的模型,能有效应用在大型问题上。在两个大规模典型算例的对照实验中,提出算法分别超出和接近目前最优解,具有时间和质量上的优势。  相似文献   

5.
胡尚民 《计算机应用研究》2020,37(11):3232-3235
针对有路径总时长约束、载重量约束和电池容量约束的电动车路径优化问题(EVRP),考虑其途中可前往充电站充电的情境,构建以最小化路径总长度为目标的数学模型,提出一种基于强化学习的求解算法RL-EVRP。该算法用给定的分布生成训练数据,再通过策略梯度法训练模型,并保证在训练过程中路径合法即可。训练得到的模型可用于解决其他数据同分布的问题,无须重新训练。通过仿真实验及与其他算法的对比,表明RL-EVRP算法求解的路径总长度更短、车辆数更少,也表明强化学习可成功运用于较复杂的组合优化问题中。  相似文献   

6.
多智能体深度强化学习方法可应用于真实世界中需要多方协作的场景,是强化学习领域内的研究热点。在多目标多智能体合作场景中,各智能体之间具有复杂的合作与竞争并存的混合关系,在这些场景中应用多智能体强化学习方法时,其性能取决于该方法是否能够充分地衡量各智能体之间的关系、区分合作和竞争动作,同时也需要解决高维数据的处理以及算法效率等应用难点。针对多目标多智能体合作场景,在QMIX模型的基础上提出一种基于目标的值分解深度强化学习方法,并使用注意力机制衡量智能体之间的群体影响力,利用智能体的目标信息实现量两阶段的值分解,提升对复杂智能体关系的刻画能力,从而提高强化学习方法在多目标多智能体合作场景中的性能。实验结果表明,相比QMIX模型,该方法在星际争霸2微观操控平台上的得分与其持平,在棋盘游戏中得分平均高出4.9分,在多粒子运动环境merge和cross中得分分别平均高出25分和280.4分,且相较于主流深度强化学习方法也具有更高的得分与更好的性能表现。  相似文献   

7.
8.
为提升车辆巡航避障能力,实现对运动目标的精准决策,设计基于深度强化学习的车辆多目标协同巡航决策控制系统。利用主控制电路输出的电量信号,调节ACC控制器、MPC轨迹跟踪器、双闭环控制器的实时连接状态,再借助多目标解耦模块,确定目标车辆所处巡航位置,完成巡航决策控制系统的主要应用结构设计。建立深度强化学习模型,根据车辆目标数据集定义条件,求解协同参数实际取值范围,实现对车辆巡航位姿的估计。确定坐标转换原则,通过分析多目标量化结果的方式,实现对巡航决策轨迹的按需规划,再联合相关应用设备,完成基于深度强化学习的车辆多目标协同巡航决策控制系统的设计。实验结果表明,深度强化学习机制作用下,车辆在横、纵两个巡航方向上的避障准确度都达到了100%,符合车辆多目标协同巡航决策的实际需求。  相似文献   

9.
多配送中心车辆路径规划(multi-depot vehicle routing problem, MDVRP)是现阶段供应链应用较为广泛的问题模型,现有算法多采用启发式方法,其求解速度慢且无法保证解的质量,因此研究快速且有效的求解算法具有重要的学术意义和应用价值.以最小化总车辆路径距离为目标,提出一种基于多智能体深度强化学习的求解模型.首先,定义多配送中心车辆路径问题的多智能体强化学习形式,包括状态、动作、回报以及状态转移函数,使模型能够利用多智能体强化学习训练;然后通过对MDVRP的节点邻居及遮掩机制的定义,基于注意力机制设计由多个智能体网络构成的策略网络模型,并利用策略梯度算法进行训练以获得能够快速求解的模型;接着,利用2-opt局部搜索策略和采样搜索策略改进解的质量;最后,通过对不同规模问题仿真实验以及与其他算法进行对比,验证所提出的多智能体深度强化学习模型及其与搜索策略的结合能够快速获得高质量的解.  相似文献   

10.
为了在良好经济效益作用下,实现对电力物资仓储业务的多目标优化处理,提出一种基于博弈相关性特征分析的经济效益下电力物资仓储业务多目标优化模型.首先在关联规则集中提取经济效益下的电力物资仓储业务;然后通过模糊关联规则多目标优化方法进行电力物资仓储业务的特征分解与优化提取,完成既定仓储业务的集中性多目标优化;再采用博弈相关性...  相似文献   

11.
刘志硕  刘若思  陈哲 《计算机应用》2022,42(10):3244-3251
用电动汽车进行冷链物流配送符合绿色物流的发展趋势。针对电动汽车冷链配送需消耗更多能源以维持低温环境,而电动汽车续驶里程短、充电时间长,致使运营成本高的现象,思考了电动汽车配送中的冷链车辆路径问题(REVRP)。考虑电动汽车能耗特点和社会充电站的充电需求,构建了以总配送成本最小为优化目标的线性规划模型,而目标函数由固定成本和可变成本构成,其中可变成本包含运输成本和制冷成本。模型考虑容量约束和电量约束,并设计混合蚁群(HACO)算法对其进行求解,其中重点设计了适合社会充电站的转移规则以及4种局部优化算子。在改进Solomon基准算例的基础上,形成了小规模和大规模两个算例集,并通过实验比较了蚁群(ACO)算法和局部优化算子的性能。实验结果表明,在小规模算例集中,传统ACO算法与CPLEX求解器均能找到精确解,而ACO算法在运算时间方面可节省99.6%;而在大规模算例集中,与ACO算法相比,结合4种局部优化算子的HACO算法的平均优化效率提升了4.45%。所提算法能够在有限时间内得出电动汽车REVRP的可行解。  相似文献   

12.
蜂群优化算法在车辆路径问题中的应用   总被引:3,自引:0,他引:3       下载免费PDF全文
车辆路径问题(VRP)是组合优化中典型的NP难题。根据车辆路径问题的实际情况,考察车辆数和总行程两个目标函数,给出了该问题的一种新的算法,蜂群算法。通过计算若干benchmark问题,并将结果与其他算法相比较与分析,验证了算法的有效性。蜂群算法是刚刚起步的智能优化算法,目前国内外关于蜂群算法的文献较少,故不仅是拓宽蜂群算法的应用范围的有效的尝试,同时也给车辆路径问题提供了一种新的解决方法。  相似文献   

13.
为了减少救灾物资配送的延误时间和救灾车辆的总运输时间,引入紧急度的概念,建立了基于紧急度的救灾物资车辆路径问题模型,并设计了一种改进遗传算法对该模型进行求解。首先,采用多种策略生成初始种群;然后,提出一种基于紧急度的任务再分配算法作为局部搜索算子,该算法依据紧急度为延误安置点重新安排配送车辆或调整配送顺序从而减少延误时间,对无延误的车辆优化其路线从而减少总运输时间,以达到延误时间和总运输时间两者最优。在17个数据集上与先来先服务(FCFS)算法、按紧急度排序(URGS)算法和遗传算法(GA)三种算法进行了对比。实验结果表明,具有基于紧急度的任务再分配策略的遗传算法(TRUD-GA)与GA相比,平均延误时间减少25.0%,平均运输时间减少1.9%,与FCFS、URGS算法相比改进则更加明显。  相似文献   

14.
配送中心多车辆集散货物路线的禁忌搜索研究   总被引:1,自引:0,他引:1       下载免费PDF全文
多车辆集散货物路线问题是客户可以同时取货和发货,而且客户发货量在路线安排前是不确定的。提出了一种改进的禁忌搜索算法,该算法将路径问题按不同的车辆-顾客分配结构分解成若干子问题,然后用禁忌搜索算法求解每个子问题,最后从所有子问题的最优解中选出全局最优解。  相似文献   

15.
In order to accomplish diverse tasks successfully in a dynamic (i.e., changing over time) construction environment, robots should be able to prioritize assigned tasks to optimize their performance in a given state. Recently, a deep reinforcement learning (DRL) approach has shown potential for addressing such adaptive task allocation. It remains unanswered, however, whether or not DRL can address adaptive task allocation problems in dynamic robotic construction environments. In this paper, we developed and tested a digital twin-driven DRL learning method to explore the potential of DRL for adaptive task allocation in robotic construction environments. Specifically, the digital twin synthesizes sensory data from physical assets and is used to simulate a variety of dynamic robotic construction site conditions within which a DRL agent can interact. As a result, the agent can learn an adaptive task allocation strategy that increases project performance. We tested this method with a case project in which a virtual robotic construction project (i.e., interlocking concrete bricks are delivered and assembled by robots) was digitally twinned for DRL training and testing. Results indicated that the DRL model’s task allocation approach reduced construction time by 36% in three dynamic testing environments when compared to a rule-based imperative model. The proposed DRL learning method promises to be an effective tool for adaptive task allocation in dynamic robotic construction environments. Such an adaptive task allocation method can help construction robots cope with uncertainties and can ultimately improve construction project performance by efficiently prioritizing assigned tasks.  相似文献   

16.
阳旺  何国超  吴雁 《计算机应用》2017,37(8):2387-2394
研究多车型大规模物流配送问题,针对企业配送门店规模大且聚集的特点,在自适应大规模邻域搜索(ALNS)框架下提出一种新的邻域映射方式:基于密度聚类的毁灭移除算法。ALNS包含毁灭与重建两个阶段,通过不断对当前解进行破坏和重建得到更好解。在毁灭阶段,随机选择一条路线进行密度聚类得到簇集合,然后按簇对路线上的门店进行移除;重建阶段随机选择贪婪插入法或Regret-2插入法将移除的门店插入到合适的路线上得到新配送方案。通过国际基准测试案例验证了所提算法的有效性,与已有算法对比,基于密度聚类的毁灭移除算法的ALNS算法求解结果比案例已知最优解平均误差更低,求解质量更优;应用于实际场景中,该算法能在有限时间内求得较好的配送方案。  相似文献   

17.
易腐生鲜货品车辆路径问题的改进混合蝙蝠算法   总被引:1,自引:0,他引:1  
殷亚  张惠珍 《计算机应用》2017,37(12):3602-3607
针对配送易腐生鲜货品的车辆其配送路径的选择不仅受货品类型、制冷环境变化、车辆容量限制、交货时间等多种因素的影响,而且需要达到一定的目标(如:费用最少、客户满意度最高),构建了易腐生鲜货品车辆路径问题(VRP)的多目标模型,并提出了求解该模型的改进混合蝙蝠算法。首先,采用时间窗模糊化处理方法定义客户满意度函数,细分易腐生鲜货品类型并定义制冷成本,建立了最优路径选择的多目标模型;然后,在分析蝙蝠算法求解离散问题易陷入局部最优、过早收敛等问题的基础上,精简经典蝙蝠算法的速度更新公式,并对混合蝙蝠算法的单多点变异设定选择机制,提高算法性能;最后,对改进混合蝙蝠算法进行性能测试。实验结果表明,与基本蝙蝠算法和已有混合蝙蝠算法相比,所提算法在求解VRP时能够提高客户满意度1.6%~4.2%,且减小平均总成本0.68%~2.91%。该算法具有计算效率高、计算性能好和较高的稳定性等优势。  相似文献   

18.
带时间窗的粮食物流车辆路径问题的研究   总被引:2,自引:1,他引:1       下载免费PDF全文
带时间窗的粮食物流车辆路径问题是一个典型的NP—难问题。针对粮食物流批量大、多点对多点等特点,建立了带时间窗的粮食物流车辆路径问题(Vehicle Routing Problem with Time Windows,VRPTM)的数学模型,进一步构造粒子群算法(Particle Swarm Optimization,PSO)用于问题求解,并将求解结果与遗传算法进行比较。结果表明,粒子群算法可以快速、有效地求得带时间窗的粮食物流车辆路径问题的优化解,降低配送成本。  相似文献   

19.
低碳物流是目前物流配送领域的热点研究课题,也是群体智能优化算法的重要应用方向。针对物流配送中碳排放的度量方法,以VRP问题为基本模型,以碳排放成本为目标函数,建立了低碳物流配送路径优化模型。为了避免基本蚁群算法出现停滞及早熟现象,提出了带混沌扰动的模拟退火蚁群算法来求解低碳物流配送路径优化模型。该算法将混沌系统及模拟退火机制引入基本蚁群算法,避免了算法陷入局部最优,增强了全局搜索能力,提高了求解效率。通过实验仿真及对比分析可知,带混沌扰动的模拟退火蚁群算法的求解结果明显优于基本蚁群算法,表明了该算法的有效性和合理性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号