期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

刘辉肖克王京擘《自动化与仪表》2020,(2):84-89

AGV(automated guided vehicle)路径规划问题已成为货物运输、快递分拣等领域中一项关键技术问题。由于在此类场景中需要较多的AGV合作完成,传统的规划模型难以协调多AGV之间的相互作用,采用分而治之的思想或许能获得系统的最优性能。基于此,该文提出一种最大回报频率的多智能体独立强化学习MRF(maximum reward frequency)Q-learning算法,对任务调度和路径规划同时进行优化。在学习阶段AGV不需要知道其他AGV的动作,减轻了联合动作引起的维数灾问题。采用Boltzmann与ε-greedy结合策略,避免收敛到较差路径,另外算法提出采用获得全局最大累积回报的频率作用于Q值更新公式,最大化多AGV的全局累积回报。仿真实验表明,该算法能够收敛到最优解,以最短的时间步长完成路径规划任务。相似文献

2.

基于强化学习的多Agent路径规划方法研究

王毅然经小川田涛孙运乾从帅军《计算机应用与软件》2019,36(8)

以复杂任务下多个智能体路径规划问题为研究对象,提出一种基于强化学习的多Agent路径规划方法。该方法采用无模型的在线Q学习算法,多个Agent不断重复"探索-学习-利用"过程,积累历史经验评估动作策略并优化决策,完成未知环境下的多Agent的路径规划任务。仿真结果表明,与基于强化学习的单Agent路径规划方法相比,该方法在多Agent避免了相碰并成功躲避障碍物的前提下,减少了17.4%的总探索步数,形成了到达目标点的最短路径。相似文献

3.

基于深度强化学习的无人机覆盖路径规划

程文雅余艳梅陶青川陈良红《现代计算机》2024,(2):39-43+81

为了提高覆盖路径规划任务的性能,提出了一种基于深度强化学习的多尺度地图无人机覆盖路径规划方法。首先对地图进行中心化和不同尺寸映射的处理,其次加入了Luong注意力机制,最后设计不同权重的奖励函数。实验表明改进后的无人机覆盖路径规划方法可以提高无人机对目标区域的覆盖范围以及成功着陆率。相似文献

4.

基于意图的多智能体深度强化学习运动规划方法

彭滢璇史殿习杨焕焕胡浩萌杨绍武《计算机科学》2023,(10):156-164

现有的多智能体运动规划任务存在缺乏有效合作方法、通信依赖要求高以及缺乏信息筛选机制等问题。针对这些问题,提出了一种基于意图的多智能体深度强化学习运动规划方法,该方法可以帮助智能体在无需显式通信的条件下无碰撞地到达目标点。首先,将意图概念引入多智能体运动规划问题,将智能体的视觉图像和历史地图相结合以预测智能体的意图,使智能体可以对其他智能体的动作做预判,从而有效协作;其次,设计了一个基于注意力机制的卷积神经网络架构,并利用该网络预测智能体的意图、选择智能体的动作,在筛选出有用的视觉输入信息的同时,减少了多智能体合作对通信的依赖;最后提出了一种基于价值的深度强化学习算法来学习运动规划策略,通过改进目标函数和Q值计算方式使策略更加稳定。在PyBullet仿真平台的6种不同的仿真场景中进行了测试,实验结果表明,相较于其他先进的多智能体运动规划方法,所提方法使多智能体团队的合作效率平均提高了10.74%,具有显著的性能优势。相似文献

5.

基于深度确定性策略梯度强化学习算法的航迹规划研究

杨友波张目唐俊雷印杰《现代计算机》2023,(5):1-7+27

航迹规划是无人机走向智能化的重要组成部分。目前已有的传统航迹规划算法存在实时规划能力差、无法处理动态场景、航迹不平滑等问题,现有的强化学习算法虽然能够实时规划,但是大多数算法主要应用在二维场景下,且存在容易碰撞障碍物、到达率低、航迹不平滑和航迹质量低等问题。针对上述问题,提出基于改进深度确定性策略梯度的强化学习算法,该算法融合自注意力机制,提取障碍物特征,躲避障碍,解决到达率低、实时规划能力差的问题,重新设计奖励函数,惩罚无人机“后退”行为,引入方向向量夹角引导机制,解决航迹不平滑问题。仿真验证结果表明,提出的改进算法在复杂动态场景下达到93.5%的到达率,平均飞行距离减少7.3%,推理时间减少26.2%,推理时间短,航迹符合无人机的飞行要求。相似文献

6.

基于注意力消息共享的多智能体强化学习

臧嵘王莉史腾飞《计算机应用》2022,42(11):3346-3353

通信是非全知环境中多智能体间实现有效合作的重要途径,当智能体数量较多时,通信过程会产生冗余消息。为有效处理通信消息,提出一种基于注意力消息共享的多智能体强化学习算法AMSAC。首先,在智能体间搭建用于有效沟通的消息共享网络,智能体通过消息读取和写入完成信息共享,解决智能体在非全知、任务复杂场景下缺乏沟通的问题;其次,在消息共享网络中,通过注意力消息共享机制对通信消息进行自适应处理,有侧重地处理来自不同智能体的消息,解决较大规模多智能体系统在通信过程中无法有效识别消息并利用的问题;然后,在集中式Critic网络中,使用Native Critic依据时序差分（TD）优势策略梯度更新Actor网络参数,使智能体的动作价值得到有效评判;最后,在执行期间,智能体分布式Actor网络根据自身观测和消息共享网络的信息进行决策。在星际争霸Ⅱ多智能体挑战赛（SMAC）环境中进行实验,结果表明,与朴素Actor?Critic （Native AC）、博弈抽象通信（GA?Comm）等多智能体强化学习方法相比,AMSAC在四个不同场景下的平均胜率提升了4 ~ 32个百分点。AMSAC的注意力消息共享机制为处理多智能体系统中智能体间的通信消息提供了合理方案,在交通枢纽控制和无人机协同领域都具备广泛的应用前景。相似文献

7.

基于值分解的多目标多智能体深度强化学习方法

宋健王子磊《计算机工程》2023,49(1):31-40

多智能体深度强化学习方法可应用于真实世界中需要多方协作的场景,是强化学习领域内的研究热点。在多目标多智能体合作场景中,各智能体之间具有复杂的合作与竞争并存的混合关系,在这些场景中应用多智能体强化学习方法时,其性能取决于该方法是否能够充分地衡量各智能体之间的关系、区分合作和竞争动作,同时也需要解决高维数据的处理以及算法效率等应用难点。针对多目标多智能体合作场景,在QMIX模型的基础上提出一种基于目标的值分解深度强化学习方法,并使用注意力机制衡量智能体之间的群体影响力,利用智能体的目标信息实现量两阶段的值分解,提升对复杂智能体关系的刻画能力,从而提高强化学习方法在多目标多智能体合作场景中的性能。实验结果表明,相比QMIX模型,该方法在星际争霸2微观操控平台上的得分与其持平,在棋盘游戏中得分平均高出4.9分,在多粒子运动环境merge和cross中得分分别平均高出25分和280.4分,且相较于主流深度强化学习方法也具有更高的得分与更好的性能表现。相似文献

8.

基于强化学习的车辆路径规划问题研究

刘虹庆王世民《计算机应用与软件》2021,38(8):303-308

从机器学习的角度理解,车辆路径规划问题(VRP)可转化为单代理有限状态空间的强化学习问题进行研究.针对小规模VRP问题,提出时间差分模型,使用Sarsa和Q-learning算法进行优化.针对大规模VRP问题,构建环境模型,通过蒙特卡洛法优化代理策略和值函数.在公开数据集上的实验结果表明,强化学习能有效求解小规模VRP... 相似文献

9.

多智能体路径规划综述

下载免费PDF全文

刘志飞曹雷赖俊陈希亮陈英《计算机工程与应用》2022,58(20):43-64

多智能体路径规划（multi-agent path finding,MAPF）是为多个智能体规划路径的问题,关键约束是多个智能体同时沿着规划路径行进而不会发生冲突。MAPF在物流、军事、安防等领域有着大量应用。对国内外关于MAPF的主要研究成果进行系统整理和分类,按照规划方式不同,MAPF算法分为集中式规划算法和分布式执行算法。集中式规划算法是最经典和最常用的MAPF算法,主要分为基于[A*]搜索、基于冲突搜索、基于代价增长树和基于规约四种算法。分布式执行算法是人工智能领域兴起的基于强化学习的MAPF算法,按照改进技术不同,分布式执行算法分为专家演示型、改进通信型和任务分解型三种算法。基于上述分类,比较MAPF各种算法的特点和适用性,分析现有算法的优点和不足,指出现有算法面临的挑战并对未来工作进行了展望。相似文献

10.

基于end-to-end深度强化学习的多车场车辆路径优化

雷坤郭鹏王祺欣赵文超唐连生《计算机应用研究》2022,39(10):3013-3019

为提高多车场车辆路径问题(multi-depot vehicle routing problem, MDVRP)的求解效率,提出了端到端的深度强化学习框架。首先,将MDVRP建模为马尔可夫决策过程(Markov decision process, MDP),包括对其状态、动作、收益的定义;同时,提出了改进图注意力网络(graph attention network, GAT)作为编码器对MDVRP的图表示进行特征嵌入编码,设计了基于Transformer的解码器;采用改进REINFORCE算法来训练该模型,该模型不受图的大小约束,即其一旦完成训练,就可用于求解任意车场和客户数量的算例问题。最后,通过随机生成的算例和公开的标准算例验证了所提出框架的可行性和有效性,即使在求解客户节点数为100的MDVRP上,经训练的模型平均仅需2 ms即可得到与现有方法相比更具优势的解。相似文献

11.

应急物流中的累计时间式多车场车辆路径问题

曾正洋许维胜徐志宇刘竹馨《控制与决策》2014,29(12):2183-2188

为提升应急救援的快速性和公平性,以最小化所有受灾点的累计等待时间为目标建立累计时间式多车场车辆路径问题(Cum-MDVRP)的模型。由于该问题具有NP-hard性质,设计了一种多起始点变邻域下降法对其进行快速求解。每次迭代中,多起始点方法通过改进的Split算法结合可行性修复程序生成随机的初始可行解,然后由变邻域下降法对其进一步改进。扩展的标准算例的测试结果验证了所提出模型和求解算法的有效性。相似文献

12.

Efficient stochastic hybrid heuristics for the multi-depot vehicle routing problem

M. Mirabi S.M.T. Fatemi Ghomi F. Jolai 《Robotics and Computer》2010

The paper addresses the problem of multi-depot vehicle routing in order to minimize the delivery time of vehicle objective. Three hybrid heuristics are presented to solve the multi-depot vehicle routing problem. Each hybrid heuristic combines elements from both constructive heuristic search and improvement techniques. The improvement techniques are deterministic, stochastic and simulated annealing (SA) methods. Experiments are run on a number of randomly generated test problems of varying depots and customer sizes. Our heuristics are shown to outperform one of the best-known existing heuristic. Statistical tests of significance are performed to substantiate the claims of improvement. 相似文献

13.

基于强化学习的电动车路径优化研究

胡尚民《计算机应用研究》2020,37(11):3232-3235

针对有路径总时长约束、载重量约束和电池容量约束的电动车路径优化问题（EVRP）,考虑其途中可前往充电站充电的情境,构建以最小化路径总长度为目标的数学模型,提出一种基于强化学习的求解算法RL-EVRP。该算法用给定的分布生成训练数据,再通过策略梯度法训练模型,并保证在训练过程中路径合法即可。训练得到的模型可用于解决其他数据同分布的问题,无须重新训练。通过仿真实验及与其他算法的对比,表明RL-EVRP算法求解的路径总长度更短、车辆数更少,也表明强化学习可成功运用于较复杂的组合优化问题中。相似文献

14.

泰森多边形的离散蝙蝠算法求解多车场车辆路径问题

戚远航蔡延光蔡颢黄何列 OLE Hejlesen 《控制理论与应用》2018,35(8):1142-1150

本文提出一种泰森多边形的离散蝙蝠算法求解多车场车辆路径问题(multi-depot vehicle routing problem,MDVRP).所提出算法以离散蝙蝠算法为核心,融入了一种基于多车场多车辆问题的编解码策略.所提出算法还使用基于泰森多边形的初始化策略加快算法的前期收敛速度,采用基于向量比较机制的适应度函数来控制算法收敛的方向,引入基于近邻策略和优先配送策略的局部搜索算法来提高算法的寻优能力.实验结果表明:在合理的时间耗费内,所提出的算法能有效地求解MDVRP,尤其是带配送距离约束的MDVRP;相对于对比算法,所提出的算法表现出较强的寻优能力和稳定性. 相似文献

15.

类电磁机制算法的应用研究

段熙鹏蔡延光汤雅连《微型机与应用》2012,(16):67-69

针对多车场多车型的关联运输调度问题(Multi-depot and Multi-vehicle-type Related Vehicle Routing Problem),对传统的类电磁机制算法进行改进,局部搜索可以提高算法在局部区域精细搜索的能力,并引入了移动系数来提高算法的收敛速度。实验结果证明,改进的算法有效地解决了此类问题且优于传统类电磁机制算法。相似文献

16.

多车场多车型装卸混合车辆路径问题研究 总被引：5，自引：0，他引：5

王晓博李一军《控制与决策》2009,24(12)

为满足电子商务客户多样化和个性化的需求,建立了多车场、多车型的装卸混合车辆调度模型,并使用混合遗传启发式算法求解．首先采用混合编码,使问题变得更简洁;利用个体数量控制选择策略,以保证群体的多样性;引入２-交换变异策略,并结合爬山算法,加强染色体的局部搜索能力．然后,对混合遗传算法求得的精英种群进行禁忌搜索,提高了搜索效率．最后,通过实例计算表明了上述模型和算法的有效性．相似文献

17.

带软时间窗的多车场开放式车辆调度

凌海峰谷俊辉《计算机工程与应用》2017,53(14):232-239

带软时间窗的多车场开放式车辆调度问题是在开放式车辆路径问题的基础上,考虑了多车场和客户服务时间的约束,是一类典型的NP难解问题。针对该问题,提出了一种改进的蚁群算法求解方案,并建立了相应的数学模型。首先通过设置一个虚拟车场将多车场VRP转化为单车场VRP,然后利用参数控制的改进蚁群算法与2-opt算法结合来对模型求解。算法先利用K-means与细菌觅食算法相结合的聚类技术判断蚁群状态,进而动态调整算法参数,使其快速收敛到全局最优解附近,再依据混沌理论的特点来调整参数,使其跳出局部最优。最后,再利用2-opt算法对最优解进行优化。实验结果验证了该算法求解MDOVRPSTW问题的有效性。相似文献

18.

A variable neighborhood search for the multi-depot vehicle routing problem with loading cost 总被引：1，自引：0，他引：1

Yiyo Kuo Chi-Chang Wang 《Expert systems with applications》2012,39(8):6949-6954

The purpose of this paper is to propose a variable neighbourhood search (VNS) for solving the multi-depot vehicle routing problem with loading cost (MDVRPLC). The MDVRPLC is the combination of multi-depot vehicle routing problem (MDVRP) and vehicle routing problem with loading cost (VRPLC) which are both variations of the vehicle routing problem (VRP) and occur only rarely in the literature. In fact, an extensive literature search failed to find any literature related specifically to the MDVRPLC. The proposed VNS comprises three phases. First, a stochastic method is used for initial solution generation. Second, four operators are randomly selected to search neighbourhood solutions. Third, a criterion similar to simulated annealing (SA) is used for neighbourhood solution acceptance. The proposed VNS has been test on 23 MDVRP benchmark problems. The experimental results show that the proposed method provides an average 23.77% improvement in total transportation cost over the best known results based on minimizing transportation distance. The results show that the proposed method is efficient and effective in solving problems. 相似文献

19.

Hybrid ant colony optimization algorithm applied to the multi-depot vehicle routing problem

Stodola Petr 《Natural computing》2020,19(2):463-475

The article deals with the hybrid Ant Colony Optimization algorithm and its application to the Multi-Depot Vehicle Routing Problem (MDVRP). The algorithm combines both probabilistic and exact techniques. The former implements the bio-inspired approach based on the behaviour of ants in the nature when searching for food together with simulated annealing principles. The latter complements the former. The algorithm explores the search space in a finite number of iterations. In each iteration, the deterministic local optimization process may be used to improve the current solution. Firstly, the key parts and features of the algorithm are presented, especially in connection with the exact optimization process. Next, the article deals with the results of experiments on MDVRP problems conducted to verify the quality of the algorithm; moreover, these results are compared to other state-of-the-art methods. As experiments, Cordreau’s benchmark instances were used. The experiments showed that the proposed algorithm overcomes the other methods as it has the smallest average error (the difference between the found solution and the best known solution) on the entire set of benchmark instances.

相似文献