期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

田超郑皎凌《计算机应用研究》2023,40(1)

在交通路网的运行中红绿灯起着至关重要的调度作用,随着目前交通的飞速发展,道路越来越复杂、车辆越来越繁多,导致红绿灯的调度压力越来越大、调节能力却越来越弱。为了解决这一问题,建立了CTS（congestion trace source）方案,将交通疏导的主体对象红绿灯作为智能体进行强化学习以优化其对交通的疏导控制能力,通过构建拥堵链和拥堵环综合分析路网拥堵情况,佐以红绿灯相位及其配时数据以达到对红绿灯智能体对象状态的综合判断;CTS方案设计了红绿灯排队长度算法将拥堵情况数字化作为智能体奖励对优化效果进行评判。使用SUMO仿真环境进行实验,设计交通优化指标路口平均排队长度并进行对比,最终该方案的路口平均排队长度相较于原始数据提升了40%。相似文献

2.

基于自注意力机制和策略映射重组的多智能体强化学习算法

李静晨史豪斌黄国胜《计算机学报》2022,(9):1842-1858

多智能体强化学习(Multi-Agent Reinforcement Learning,MARL)在群体控制领域中被广泛应用,但由于单个智能体的马尔可夫决策模型被破坏,现有的MARL算法难以学习到最优策略,且训练中智能体的随机性会导致策略不稳定.本文从状态空间到行为空间的映射出发,研究同构多智能体系统的耦合转换,以提高策略的先进性及稳定性.首先,我们调查了同构智能体行为空间的重组,打破智能体与策略对应的固定思维,通过构建抽象智能体将智能体之间的耦合转换为不同智能体行为空间同一维度的耦合,以提高策略网络的训练效率和稳定.随后,在重组策略映射的基础上,我们从序列决策的角度出发,为抽象智能体的策略网络和评估网络分别设计自注意力模块,编码并稀疏化智能体的状态信息.重组后的状态信息经过自注意力编码后,能显示地解释智能体的决策行为.本文在三个常用的多智能体任务上对所提出方法的有效性进行了全面的验证和分析,实验结果表明,在集中奖励的情况下,本文所提出的方法能够学到比基线方法更为先进的策略,平均回报提高了20%,且训练过程与训练结果的稳定性提高了50%以上.多个对应的消融实验也分别验证了抽象智能体与自... 相似文献

3.

一种基于梯度的多智能体元深度强化学习算法

赵春宇赖俊陈希亮张人文《计算机应用研究》2024,41(5)

多智能体系统在自动驾驶、智能物流、医疗协同等多个领域中广泛应用,然而由于技术进步和系统需求的增加,这些系统面临着规模庞大、复杂度高等挑战,常出现训练效率低和适应能力差等问题。为了解决这些问题,将基于梯度的元学习方法扩展到多智能体深度强化学习中,提出一种名为多智能体一阶元近端策略优化（MAMPPO）方法,用于学习多智能体系统的初始模型参数,从而为提高多智能体深度强化学习的性能提供新的视角。该方法充分利用多智能体强化学习过程中的经验数据,通过反复适应找到在梯度下降方向上最敏感的参数并学习初始参数,使模型训练从最佳起点开始,有效提高了联合策略的决策效率,显著加快了策略变化的速度,面对新情况的适应速度显著加快。在星际争霸II上的实验结果表明,MAMPPO方法显著提高了训练速度和适应能力,为后续提高多智能强化学习的训练效率和适应能力提供了一种新的解决方法。相似文献

4.

多智能体强化学习综述 总被引：1，自引：0，他引：1

杜威丁世飞《计算机科学》2019,46(8)

相似文献

5.

基于多智能体强化学习的多AGV路径规划方法

刘辉肖克王京擘《自动化与仪表》2020,(2):84-89

AGV(automated guided vehicle)路径规划问题已成为货物运输、快递分拣等领域中一项关键技术问题。由于在此类场景中需要较多的AGV合作完成,传统的规划模型难以协调多AGV之间的相互作用,采用分而治之的思想或许能获得系统的最优性能。基于此,该文提出一种最大回报频率的多智能体独立强化学习MRF(maximum reward frequency)Q-learning算法,对任务调度和路径规划同时进行优化。在学习阶段AGV不需要知道其他AGV的动作,减轻了联合动作引起的维数灾问题。采用Boltzmann与ε-greedy结合策略,避免收敛到较差路径,另外算法提出采用获得全局最大累积回报的频率作用于Q值更新公式,最大化多AGV的全局累积回报。仿真实验表明,该算法能够收敛到最优解,以最短的时间步长完成路径规划任务。相似文献

6.

基于奖励高速路网络的多智能体强化学习中的全局信用分配算法

姚兴虎谭晓阳《计算机应用》2021,41(1):1-7

针对多智能体系统中联合动作空间随智能体数量的增加而产生的指数爆炸的问题,采用"中心训练-分散执行"的框架来避免联合动作空间的维数灾难并降低算法的优化代价.针对在众多的多智能体强化学习场景下,环境仅给出所有智能体的联合行为所对应的全局奖励这一问题,提出一种新的全局信用分配机制——奖励高速路网络(RHWNet).通过在原有... 相似文献

7.

基于强化学习的多智能体协作方法研究

童亮陆际联《计算机测量与控制》2005,13(2):174-176

为了在连续和动态的环境中处理智能体不断变化的需求,我们通过利用强化学习来研究多机器人推箱子问题,得到了一种智能体可以不需要其它智能体任何信息的情况下完成协作任务的方法。强化学习可以应用于合作和非合作场合,对于存在噪声干扰和通讯困难的情况,强化学习具有其它人工智能方法不可比拟的优越性。相似文献

8.

强化学习算法与应用综述

李茹杨彭慧民李仁刚赵坤《计算机系统应用》2020,29(12):13-25

强化学习是机器学习领域的研究热点,是考察智能体与环境的相互作用,做出序列决策、优化策略并最大化累积回报的过程.强化学习具有巨大的研究价值和应用潜力,是实现通用人工智能的关键步骤.本文综述了强化学习算法与应用的研究进展和发展动态,首先介绍强化学习的基本原理,包括马尔可夫决策过程、价值函数、探索-利用问题.其次,回顾强化学习经典算法,包括基于价值函数的强化学习算法、基于策略搜索的强化学习算法、结合价值函数和策略搜索的强化学习算法,以及综述强化学习前沿研究,主要介绍多智能体强化学习和元强化学习方向.最后综述强化学习在游戏对抗、机器人控制、城市交通和商业等领域的成功应用,以及总结与展望. 相似文献

9.

多智能体深度强化学习研究综述 总被引：1，自引：0，他引：1

下载免费PDF全文

孙彧曹雷陈希亮徐志雄赖俊《计算机工程与应用》2020,56(5):13-24

多智能体深度强化学习是机器学习领域的一个新兴的研究热点和应用方向,涵盖众多算法、规则、框架,并广泛应用于自动驾驶、能源分配、编队控制、航迹规划、路由规划、社会难题等现实领域,具有极高的研究价值和意义。对多智能体深度强化学习的基本理论、发展历程进行简要的概念介绍;按照无关联型、通信规则型、互相合作型和建模学习型4种分类方式阐述了现有的经典算法;对多智能体深度强化学习算法的实际应用进行了综述,并简单罗列了多智能体深度强化学习的现有测试平台;总结了多智能体深度强化学习在理论、算法和应用方面面临的挑战和未来的发展方向。相似文献

10.

一种基于分布式强化学习的多智能体协调方法 总被引：2，自引：0，他引：2

范波潘泉张洪才《计算机仿真》2005,22(6):115-118

多智能体系统研究的重点在于使功能独立的智能体通过协商、协调和协作,完成复杂的控制任务或解决复杂的问题。通过对分布式强化学习算法的研究和分析,提出了一种多智能体协调方法,协调级将复杂的系统任务进行分解,协调智能体利用中央强化学习进行子任务的分配,行为级中的任务智能体接受各自的子任务,利用独立强化学习分别选择有效的行为,协作完成系统任务。通过在Robot Soccer仿真比赛中的应用和实验,说明了基于分布式强化学习的多智能体协调方法的效果优于传统的强化学习。相似文献

11.

基于注意力机制的深度强化学习交通信号控制

任安妮周大可冯锦浩唐慕尧李涛《计算机应用研究》2023,40(2)

深度强化学习（DRL）广泛应用于具有高度不确定性的城市交通信号控制问题中,但现有的DRL交通信号控制方法中,仅仅使用传统的深度神经网络,复杂交通场景下其感知能力有限。此外,状态作为强化学习的三要素之一,现有方法中的交通状态也需要人工精心的设计。因此,提出了一种基于注意力机制（attention mechanism）的DRL交通信号控制算法。通过引入注意力机制,使得神经网络自动地关注重要的状态分量以增强网络的感知能力,提升了信号控制效果,并减少了状态向量设计的难度。在SUMO（simulation of urban mobility）仿真平台上的实验结果表明,在单交叉口、多交叉口中,在低、高交通流量条件下,仅仅使用简单的交通状态,与三种基准信号控制算法相比,所提算法在平均等待时间、行驶时间等指标上都具有最好的性能。相似文献

12.

基于深度强化学习的城市交通信号控制算法

舒凌洲吴佳王晨《计算机应用》2019,39(5):1495-1499

针对城市交通信号控制中如何有效利用相关信息优化交通控制并保证控制算法的适应性和鲁棒性的问题，提出一种基于深度强化学习的交通信号控制算法，利用深度学习网络构造一个智能体来控制整个区域交通。首先通过连续感知交通环境的状态来选择当前状态下可能的最优控制策略，环境的状态由位置矩阵和速度矩阵抽象表示，矩阵表示法有效地抽象出环境中的主要信息并减少了冗余信息；然后智能体以在有限时间内最大化车辆通行全局速度为目标，根据所选策略对交通环境的影响，利用强化学习算法不断修正其内部参数；最后，通过多次迭代，智能体学会如何有效地控制交通。在微观交通仿真软件Vissim中进行的实验表明，对比其他基于深度强化学习的算法，所提算法在全局平均速度、平均等待队长以及算法稳定性方面展现出更好的结果。其中，与基线相比，平均速度提高9%，平均等待队长降低约13.4%。实验结果证明该方法能够适应动态变化的复杂的交通环境。相似文献

13.

基于雾计算和强化学习的交通灯智能协同控制研究

安萌萌樊秀梅蔡含宇《计算机应用研究》2020,37(2):465-469

针对路口交通拥堵现象,结合雾计算和强化学习理论,提出了一种FRTL（fog reinforcement traffic light）交通灯控制模型,该模型根据实时的交通流信息进行交通灯智能协同控制。雾节点将收集到的实时交通流信息上传到雾服务器,雾服务器在雾平台实现信息共享,雾平台结合处理后的共享数据和Q学习制定交通灯控制算法。算法利用检测到的实时交通数据计算出合适的交通灯配时方案,最终应用到交通灯上。仿真结果表明,与传统的分时段控制方式和主干道控制方式（ATL）相比,FRTL控制方法提高了路口的吞吐量,减少了车辆平均等待时间,达到了合理调控红绿灯时间、缓解交通拥堵的目标。相似文献

14.

基于深度强化学习的多路口信号控制优化研究

赵纯董小明《计算机应用研究》2022,39(8)

新起的智能交通系统在改善交通流量,优化燃油效率,减少延误和提高整体驾驶经验方面有望发挥重要作用。现今,交通拥堵是困扰人类的一个极其严重的问题,特别是一些城市交通密集的十字路口处可能会更加严重。对信号控制系统的奖励机制进行了改进,将所有路口共享奖励的机制改进为每个交叉口共享唯一的奖励,并且通过密集采样策略与多路口信号控制相结合的方式,运用时下热门的深度强化学习来解决交通信号灯配时问题。仿真实验都是基于现在国际主流的交通模拟软件（SUMO）完成,从实验结果表明,改进后的深度强化学习多路口信号控制方法相较于传统强化学习方法控制效果更佳。相似文献

15.

基于强化学习的交通情景问题决策优化

罗飞白梦伟《计算机应用》2022,42(8):2361-2368

在复杂交通情景中求解出租车路径规划决策问题和交通信号灯控制问题时,传统强化学习算法在收敛速度和求解精度上存在局限性;因此提出一种改进的强化学习算法求解该类问题。首先,通过优化的贝尔曼公式和快速Q学习（SQL）机制,以及引入经验池技术和直接策略,提出一种改进的强化学习算法GSQL-DSEP;然后,利用GSQL-DSEP算法分别优化出租车路径规划决策问题中的路径长度与交通信号灯控制问题中的车辆总等待时间。相较于Q学习、快速Q学习（SQL）、、广义快速Q学习（GSQL）、Dyna-Q算法,GSQL-DSEP算法在性能测试中降低了至少18.7%的误差,在出租车路径规划决策问题中使决策路径长度至少缩短了17.4%,在交通信号灯控制问题中使车辆总等待时间最多减少了51.5%。实验结果表明,相较于对比算法,GSQL-DSEP算法对解决交通情景问题更具优势。相似文献

16.

交互协调强化学习下的城市交通信号配时决策

下载免费PDF全文

夏新海《计算机工程与应用》2018,54(11):265-270

针对应用传统强化学习进行城市自适应交通信号配时决策时存在维数灾难和缺乏协调机制等问题,提出引入交互协调机制的强化学习算法。以车均延误为性能指标设计了针对城市交通信号配时决策的独立Q-强化学习算法。在此基础上,通过引入直接交互机制对独立强化学习算法进行了延伸,即相邻交叉口交通信号控制agent间直接交换配时动作和交互点值。通过仿真实验分析表明,引入交互协调机制的强化学习的控制效果明显优于独立强化学习算法,协调更有效,并且其学习算法具有较好的收敛性能,交互点值趋向稳定。相似文献

17.

多智能体强化学习在城市交通网络信号控制方法中应用综述

杨文臣张轮 ZHU Feng 《计算机应用研究》2018,35(6)

交通信号控制系统在物理位置和控制逻辑上分散于动态变化的网络交通环境,将每个路口的交通信号控制器看作一个异质的智能体,非常适合采用“无模型、自学习、数据驱动”的多智能体强化学习（MARL）方法建模与描述。为了解该方法的研究现状、存在问题及发展前景,系统跟踪了多智能体强化学习在国内外交通控制领域的具体应用,包括交通信号MARL控制概念模型、完全孤立的MARL控制、部分状态合作的MARL和动作联动的MARL控制,分析其技术特征和代际差异,讨论了多智体强化学习方法在交通信号控制中的研究动向,提出了发展网络交通信号多智能体强化学习集成控制的关键问题在于强化学习控制机理、联动协调性、交通状态特征抽取和多模式整合控制。相似文献

18.

结合状态预测的深度强化学习交通信号控制

唐慕尧周大可李涛《计算机应用研究》2022,39(8)

深度强化学习（deep reinforcement learning,DRL）可广泛应用于城市交通信号控制领域,但在现有研究中,绝大多数的DRL智能体仅使用当前的交通状态进行决策,在交通流变化较大的情况下控制效果有限。提出一种结合状态预测的DRL信号控制算法。首先,利用独热编码设计简洁且高效的交通状态;然后,使用长短期记忆网络（long short-term memory,LSTM）预测未来的交通状态;最后,智能体根据当前状态和预测状态进行最优决策。在SUMO（simulation of urban mobility）仿真平台上的实验结果表明,在单交叉口、多交叉口的多种交通流量条件下,与三种典型的信号控制算法相比,所提算法在平均等待时间、行驶时间、燃油消耗、CO2排放等指标上都具有最好的性能。相似文献