首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 156 毫秒
1.
在交通路网的运行中红绿灯起着至关重要的调度作用,随着目前交通的飞速发展,道路越来越复杂、车辆越来越繁多,导致红绿灯的调度压力越来越大、调节能力却越来越弱。为了解决这一问题,建立了CTS(congestion trace source)方案,将交通疏导的主体对象红绿灯作为智能体进行强化学习以优化其对交通的疏导控制能力,通过构建拥堵链和拥堵环综合分析路网拥堵情况,佐以红绿灯相位及其配时数据以达到对红绿灯智能体对象状态的综合判断;CTS方案设计了红绿灯排队长度算法将拥堵情况数字化作为智能体奖励对优化效果进行评判。使用SUMO仿真环境进行实验,设计交通优化指标路口平均排队长度并进行对比,最终该方案的路口平均排队长度相较于原始数据提升了40%。  相似文献   

2.
提出一种具备全局供需动态感知能力、基于均值场多智能体强化学习的网约车平台订单分配算法。该算法通过将多智能体强化学习与均值场理论相结合,提升了智能体在局部空间上相互之间的协作性;通过注入全局空间上供需的动态分布信息,提升了智能体对全局供需分布的感知和优化能力。本文构建了真实历史数据驱动的模拟器,用于算法的训练和评估。实验表明,在全天时段和高峰期时段两个不同场景下,本文提出的算法在网约车司机累计收益及订单应答率两个重要指标上均显著优于现有的订单分配算法。实验结果充分验证了本文提出算法的有效性。  相似文献   

3.
交通信号控制系统在物理位置和控制逻辑上分散于动态变化的网络交通环境,将每个路口的交通信号控制器看作一个异质的智能体,非常适合采用“无模型、自学习、数据驱动”的多智能体强化学习(MARL)方法建模与描述。为了解该方法的研究现状、存在问题及发展前景,系统跟踪了多智能体强化学习在国内外交通控制领域的具体应用,包括交通信号MARL控制概念模型、完全孤立的MARL控制、部分状态合作的MARL和动作联动的MARL控制,分析其技术特征和代际差异,讨论了多智体强化学习方法在交通信号控制中的研究动向,提出了发展网络交通信号多智能体强化学习集成控制的关键问题在于强化学习控制机理、联动协调性、交通状态特征抽取和多模式整合控制。  相似文献   

4.
多智能体系统在自动驾驶、智能物流、医疗协同等多个领域中广泛应用,然而由于技术进步和系统需求的增加,这些系统面临着规模庞大、复杂度高等挑战,常出现训练效率低和适应能力差等问题。为了解决这些问题,将基于梯度的元学习方法扩展到多智能体深度强化学习中,提出一种名为多智能体一阶元近端策略优化(MAMPPO)方法,用于学习多智能体系统的初始模型参数,从而为提高多智能体深度强化学习的性能提供新的视角。该方法充分利用多智能体强化学习过程中的经验数据,通过反复适应找到在梯度下降方向上最敏感的参数并学习初始参数,使模型训练从最佳起点开始,有效提高了联合策略的决策效率,显著加快了策略变化的速度,面对新情况的适应速度显著加快。在星际争霸II上的实验结果表明,MAMPPO方法显著提高了训练速度和适应能力,为后续提高多智能强化学习的训练效率和适应能力提供了一种新的解决方法。  相似文献   

5.
针对车联网频谱资源稀缺问题,提出一种基于柔性致动-评价(SAC)强化学习算法的多智能体频谱资源动态分配方案。以最大化信道总容量与载荷成功交付率为目标,建立车辆-车辆(V2V)链路频谱资源分配模型。将每条V2V链路作为单个智能体,构建多智能体马尔科夫决策过程模型。利用SAC强化学习算法设计神经网络,通过最大化熵与累计奖励和以训练智能体,使得V2V链路经过不断学习优化频谱资源分配。仿真结果表明,与基于深度Q网络和深度确定性策略梯度的频谱资源分配方案相比,该方案可以更高效地完成车联网链路之间的频谱共享任务,且信道传输速率和载荷成功交付率更高。  相似文献   

6.
为了解决多智能体协同训练过程中的团队奖励稀疏导致样本效率低下、无法进行有效探索以及对参数敏感的问题,本研究在MAPPO算法的基础上引入了分阶段的思想,提出了基于多阶段强化学习的多智能体协同算法MSMAC。该算法将训练划分为2个阶段:一是构建基于进化策略优化的单智能体策略网络,二是对多智能体策略网络进行协同训练。在多智能体粒子环境下的实验结果表明,基于多阶段的强化学习算法不仅提升了协作性能,而且提高了样本的训练效率和模型的收敛速度。  相似文献   

7.
基于FNNC的城市交通智能红绿灯控制系统   总被引:2,自引:0,他引:2  
丛冬栋  王振家 《控制工程》2003,10(Z1):14-17
提出一种自适应模糊神经网络控制方法FNNC(Fuzzy Neutral Network Controller),通过离线学习,使其记忆得到了经验知识,同时根据被控过程的运行状态在线自调整,达到模糊自适应的能力.将其应用于城市交通红绿灯智能控制系统中实现全局优化控制,并在此基础上形成调度指令,利用模糊控制的方法实现交叉路口的红绿灯控制.用Matlab进行仿真取得了较好的效果.将此方案用于多路口交通控制,可以达到减少全局等候车辆总数的目标,是一种适用于我国城市,尤其是中小城市的智能交通控制系统.  相似文献   

8.
针对智能驾驶车辆传统路径规划中出现车辆模型跟踪误差和过度依赖问题,提出一种基于深度强化学习的模型迁移的智能驾驶车辆轨迹规划方法.首先,提取真实环境的抽象模型,该模型利用深度确定性策略梯度(DDPG)和车辆动力学模型,共同训练逼近最优智能驾驶的强化学习模型;其次,通过模型迁移策略将实际场景问题迁移至虚拟抽象模型中,根据该环境中训练好的深度强化学习模型计算控制与轨迹序列;而后,根据真实环境中评价函数选择最优轨迹序列.实验结果表明,所提方法能够处理连续输入状态,并生成连续控制的转角控制序列,减少横向跟踪误差;同时通过模型迁移能够提高模型的泛化性能,减小过度依赖问题.  相似文献   

9.
设计了一个强化学习和仿真相结合的动态实时车间作业排序系统.首先引入多个随机变量,将车间作业排序问题转换成序贯决策问题;然后通过仿真手段构建车间作业排序问题的模型环境,求取系统性能指标并保证解的可行性;接着设计了一个多智能体Q学习算法和仿真集成解决作业排序问题;最后通过仿真优化实验验证了该系统的有效性.  相似文献   

10.
Job-shop排序问题的遗传强化学习算法   总被引:1,自引:0,他引:1       下载免费PDF全文
潘燕春  周泓 《计算机工程》2009,35(16):25-28
针对Job-shop排序问题的复杂性,提出一种遗传强化学习算法对其求解。通过引入多个随机变量,把Job-shop排序问题转换成多阶段决策问题,通过仿真手段构建作业排序问题模型环境,求取系统性能指标并保证解的可行性。设计一个多智能体Q-Learning算法和遗传算法相结合的算法用于解决Job-shop排序问题。仿真优化实验结果验证了该算法的有效性。  相似文献   

11.
针对路口交通拥堵现象,结合雾计算和强化学习理论,提出了一种FRTL(fog reinforcement traffic light)交通灯控制模型,该模型根据实时的交通流信息进行交通灯智能协同控制。雾节点将收集到的实时交通流信息上传到雾服务器,雾服务器在雾平台实现信息共享,雾平台结合处理后的共享数据和Q学习制定交通灯控制算法。算法利用检测到的实时交通数据计算出合适的交通灯配时方案,最终应用到交通灯上。仿真结果表明,与传统的分时段控制方式和主干道控制方式(ATL)相比,FRTL控制方法提高了路口的吞吐量,减少了车辆平均等待时间,达到了合理调控红绿灯时间、缓解交通拥堵的目标。  相似文献   

12.
As traffic congestion rises within urban centers around the world, the intelligent control of traffic signals within cities is becoming increasingly important. Previous research within the area of intelligent traffic signal control has several shortcomings, including a reliance on historical data, the use of centralized systems which cannot handle city-sized problem instances and solutions which are not capable of addressing real-world traffic scenarios (e.g., constantly varying volumes and complex network structures). The research reported here proposes algorithms capable of controlling traffic signals that rely on traffic observations made by available sensor devices and local communication between traffic lights. This solution allows signals to be updated frequently to match current traffic demand, while also allowing for significantly large problem sizes to be addressed. To evaluate the developed system, a realistic traffic model was developed using information supplied by the City of Ottawa, Canada. It was found, through simulation within the SUMO traffic simulation environment, that the proposed adaptive system resulted in higher overall network performance when compared to the current fixed signal plan controllers, which were recreated using information from the City of Ottawa. This work also includes examples of why fixed signal controllers are inferior to an adaptive control system.  相似文献   

13.

As the global economy develops rapidly, traffic congestion has become a major problem for first-tier cities in various countries. In order to address the problem of failed real-time control of the traffic flow data by the traditional traffic light control as well as malicious attack and other security problems faced by the intelligent traffic light (ITL) control system, a multi-agent distributed ITL control method was proposed based on the fog computing platform and the Q learning algorithm used for the reinforcement learning in this study, and the simulation comparison was conducted by using the simulation platform jointly constructed based on the VISSIM-Excel VBA-MATLAB software. Subsequently, on the basis of puzzle difficulty of the computational Diffie–Helleman (CDH) and Hash Collision, the applicable security control scheme of ITL under the fog computing was proposed. The results reveal that the proposed intelligent control system prolongs the time of green light properly when the number of vehicles increases, thereby reducing the delay time and retention rate of vehicles; the security control scheme of ITL based on the puzzle of CDH is less efficient when the vehicle density increases, while that based on the puzzle of Hash collision is very friendly to the fog equipment. In conclusion, the proposed control method of ITL based on the fog computing and Q learning algorithm can alleviate the traffic congestion effectively, so the proposed method has high security.

  相似文献   

14.
结合Q学习和模糊逻辑的单路口交通信号自学习控制方法*   总被引:1,自引:0,他引:1  
针对城市交通系统的动态性和不确定性,提出了基于强化学习的信号交叉口智能控制系统结构,对单交叉口动态实时控制进行了研究。将BP神经网络与Q学习算法相结合实现了路口的在线学习。同时,针对交通信号控制的多目标评价特征,采用基于模糊逻辑的Q学习奖惩信号设计方法,实施对交通信号的优化控制。最后,在三种交通场景下,应用Paramics微观交通仿真软件对典型十字路口进行仿真实验。结果表明,该方法对不同交通场景下的突变仍可保持较高的控制效率,控制效果明显优于定时控制。  相似文献   

15.
深度强化学习(deep reinforcement learning,DRL)可广泛应用于城市交通信号控制领域,但在现有研究中,绝大多数的DRL智能体仅使用当前的交通状态进行决策,在交通流变化较大的情况下控制效果有限。提出一种结合状态预测的DRL信号控制算法。首先,利用独热编码设计简洁且高效的交通状态;然后,使用长短期记忆网络(long short-term memory,LSTM)预测未来的交通状态;最后,智能体根据当前状态和预测状态进行最优决策。在SUMO(simulation of urban mobility)仿真平台上的实验结果表明,在单交叉口、多交叉口的多种交通流量条件下,与三种典型的信号控制算法相比,所提算法在平均等待时间、行驶时间、燃油消耗、CO2排放等指标上都具有最好的性能。  相似文献   

16.
多配送中心车辆路径规划(multi-depot vehicle routing problem, MDVRP)是现阶段供应链应用较为广泛的问题模型,现有算法多采用启发式方法,其求解速度慢且无法保证解的质量,因此研究快速且有效的求解算法具有重要的学术意义和应用价值.以最小化总车辆路径距离为目标,提出一种基于多智能体深度强化学习的求解模型.首先,定义多配送中心车辆路径问题的多智能体强化学习形式,包括状态、动作、回报以及状态转移函数,使模型能够利用多智能体强化学习训练;然后通过对MDVRP的节点邻居及遮掩机制的定义,基于注意力机制设计由多个智能体网络构成的策略网络模型,并利用策略梯度算法进行训练以获得能够快速求解的模型;接着,利用2-opt局部搜索策略和采样搜索策略改进解的质量;最后,通过对不同规模问题仿真实验以及与其他算法进行对比,验证所提出的多智能体深度强化学习模型及其与搜索策略的结合能够快速获得高质量的解.  相似文献   

17.
在强化学习中,当处于奖励分布稀疏的环境时,由于无法获得有效经验,智能体收敛速度和效率都会大幅下降.针对此类稀疏奖励,文中提出基于情感的异构多智能体强化学习方法.首先,建立基于个性的智能体情感模型,为异构多智能体提供激励机制,作为外部奖励的有效补充.然后,基于上述激励机制,融合深度确定性策略,提出稀疏奖励下基于内在情感激...  相似文献   

18.
针对当前多智能体强化学习算法难以适应智能体规模动态变化的问题,文中提出序列多智能体强化学习算法(SMARL).将智能体的控制网络划分为动作网络和目标网络,以深度确定性策略梯度和序列到序列分别作为分割后的基础网络结构,分离算法结构与规模的相关性.同时,对算法输入输出进行特殊处理,分离算法策略与规模的相关性.SMARL中的...  相似文献   

19.
Urban traffic congestion propagation and bottleneck identification   总被引:2,自引:0,他引:2  
Bottlenecks in urban traffic network are sticking points in restricting network collectivity traffic efficiency. To identify network bottlenecks effectively is a foundational work for improving network traffic condition and preventing traffic congestion. In this paper, a congestion propagation model of urban network traffic is proposed based on the cell transmission model (CTM). The proposed model includes a link model, which describes flow propagation on links, and a node model, which represents link-to-link flow propagation. A new method of estimating average journey velocity (AJV) of both link and network is developed to identify network congestion bottlenecks. A numerical example is studied in Sioux Falls urban traffic network. The proposed model is employed in simulating network traffic propagation and congestion bottleneck identification under different traffic demands. The simulation results show that continual increase of traffic demand is an immediate factor in network congestion bottleneck emergence and increase as well as reducing network collectivity capability. Whether a particular link will become a bottleneck is mainly determined by its position in network, its traffic flow (attributed to different OD pairs) component, and network traffic demand.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号