首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 85 毫秒
1.
Q学习算法是求解信息不完全马尔可夫决策问题的一种强化学习方法.Q学习中强化信号的设计是影响学习效果的重要因素.本文提出一种基于模糊规则的Q学习强化信号的设计方法,提高强化学习的性能.并将该方法应用于单交叉口信号灯最优控制中,根据交通流的变化自适应调整交叉口信号灯的相位切换时间和相位次序.通过Paramics微观交通仿真软件验证,说明在解决交通控制问题中,使用基于模糊规则的Q学习的学习效果优于传统Q学习.  相似文献   

2.
梅伟  赵云涛  毛雪松  李维刚 《计算机应用》2020,40(11):3379-3384
针对目前用于复杂结构实体喷涂的机器人路径规划方法存在的效率低、未考虑碰撞以及适用性差等问题,提出一种用于求解多层决策问题的离散灰狼算法,并把该算法用于该路径规划问题的求解。为了将连续域灰狼算法改为用于求解多层决策问题的离散灰狼算法,采用矩阵编码方法解决多层决策问题的编码问题,提出基于先验知识与随机选择的混合初始化方法提高算法求解效率和精度,运用交叉算子与两级变异算子定义离散域灰狼算法的种群更新策略。另外,运用图论将喷涂机器人路径规划问题简化为广义旅行商问题,并建立了该问题的最短路径模型和路径碰撞模型。在路径规划实验中,相较于粒子群算法、遗传算法和蚁群算法,提出的算法规划的平均路径长度分别减小了5.0%、5.5%和6.6%,碰撞次数降低为0,且路径更平滑。实验结果表明,提出的算法能够有效提高喷涂机器人的喷涂效率,以及喷涂路径的安全性和适用性。  相似文献   

3.
梅伟  赵云涛  毛雪松  李维刚 《计算机应用》2005,40(11):3379-3384
针对目前用于复杂结构实体喷涂的机器人路径规划方法存在的效率低、未考虑碰撞以及适用性差等问题,提出一种用于求解多层决策问题的离散灰狼算法,并把该算法用于该路径规划问题的求解。为了将连续域灰狼算法改为用于求解多层决策问题的离散灰狼算法,采用矩阵编码方法解决多层决策问题的编码问题,提出基于先验知识与随机选择的混合初始化方法提高算法求解效率和精度,运用交叉算子与两级变异算子定义离散域灰狼算法的种群更新策略。另外,运用图论将喷涂机器人路径规划问题简化为广义旅行商问题,并建立了该问题的最短路径模型和路径碰撞模型。在路径规划实验中,相较于粒子群算法、遗传算法和蚁群算法,提出的算法规划的平均路径长度分别减小了5.0%、5.5%和6.6%,碰撞次数降低为0,且路径更平滑。实验结果表明,提出的算法能够有效提高喷涂机器人的喷涂效率,以及喷涂路径的安全性和适用性。  相似文献   

4.
车辆路径问题是物流运输优化中的核心问题,目的是在满足顾客需求下得到一条最低成本的车辆路径规划。但随着物流运输规模的不断增大,车辆路径问题求解难度增加,并且对实时性要求也不断提高,已有的常规算法不再适应实际要求。近年来,基于强化学习算法开始成为求解车辆路径问题的重要方法,在简要回顾常规方法求解车辆路径问题的基础上,重点总结基于强化学习求解车辆路径问题的算法,并将算法按照基于动态规划、基于价值、基于策略的方式进行了分类;最后对该问题未来的研究进行了展望。  相似文献   

5.
徐郁  朱韵攸  刘筱  邓雨婷  廖勇 《计算机应用》2022,42(10):3252-3258
针对现有电力物资车辆路径问题(EVRP)优化时考虑目标函数较为单一、约束不够全面,并且传统求解算法效率不高的问题,提出一种基于深度强化学习(DRL)的电力物资配送多目标路径优化模型和求解算法。首先,充分考虑了电力物资配送区域的加油站分布情况、物资运输车辆的油耗等约束,建立了以电力物资配送路径总长度最短、成本最低、物资需求点满意度最高为目标的多目标电力物资配送模型;其次,设计了一种基于DRL的电力物资配送路径优化算法DRL-EVRP求解所提模型。DRL-EVRP使用改进的指针网络(Ptr-Net)和Q-学习(Q-learning)算法结合的深度Q-网络(DQN)来将累积增量路径长度的负值与满意度之和作为奖励函数。所提算法在进行训练学习后,可直接用于电力物资配送路径规划。仿真实验结果表明,DRL-EVRP求解得到的电力物资配送路径总长度相较于扩展C-W(ECW)节约算法、模拟退火(SA)算法更短,且运算时间在可接受范围内,因此所提算法能更加高效、快速地进行电力物资配送路径优化。  相似文献   

6.
石建力  张锦 《计算机应用》2018,38(2):573-581
为研究分批配送和等待时间对行驶时间随机的车辆路径问题(VRP)的影响,针对行驶时间随机的分批配送车辆路径问题,在软时间窗下考虑等待时间,建立带修正的随机规划模型;同时设计改进的粒子群优化(PSO)算法进行求解:使用需求点可多次出现的整数编码,设计改进的相对位置索引算法进行解码以解决粒子中出现分批需求点问题;将自适应选择用于速度更新以解决各向量长度不同的问题;将路径重连算法用于位置更新过程以解决粒子在离散空间和连续空间转换时信息丢失的问题,适应允许分批配送的特点。通过对调整的Solomon算例测试,考虑等待时间将造成总费用平均增加约3%,且更倾向于分批配送。分批配送能有效降低总费用(2%)和减少使用的车辆数(0.6);在部分算例,特别是R2类算例中,分批配送能有效降低等待时间,平均降低0.78%。  相似文献   

7.
为研究路口交通信号灯的实时最优控制问题,提出一种以最小化等待时间为目标的多阶段决策模型.该模型利用最短绿灯和红灯时间的结构特征,通过合理选择系统状态和控制变量压缩了模型规模,进而提出了前向动态规划算法以高效得到最优解.数值实验显示,对比于固定时长的周期性控制可以节省路口车辆的等待时间;对比基于混合整数规划的求解方法,可以提高求解效率,满足实时控制的要求.  相似文献   

8.
Q学习算法在库存控制中的应用   总被引:9,自引:0,他引:9  
Q学习算法是Watkins提出的求解信息不完全马尔可夫决策问题的一种强化学习 方法.这里提出了一种新的探索策略,并将该策略和Q学习算法有效结合来求解一类典型的 有连续状态和决策空间的库存控制问题.仿真表明,该方法所求解的控制策略和用值迭代法 在模型已知的情况下所求得的最优策略非常逼近,从而证实了Q学习算法在一些系统模型 未知的工程控制问题中的应用潜力.  相似文献   

9.
Q学习算法是Watkins提出的求解信息不完全马尔可夫决策问题的一种强化学习方法.这里提出了一种新的探索策略,并将该策略和Q学习算法有效结合来求解一类典型的有连续状态和决策空间的库存控制问题.仿真表明,该方法所求解的控制策略和用值迭代法在模型已知的情况下所求得的最优策略非常逼近,从而证实了Q学习算法在一些系统模型未知的工程控制问题中的应用潜力.  相似文献   

10.
高航  王伟光 《计算机仿真》2021,38(10):154-159
各大城市都存在过十字路口时车辆拥堵现象,为了解决这一问题,提出基于深度强化学习的一种解决算法.该算法针对于这一现象,构建了一种道路信号灯控制的强化学习模型.以单交叉口为仿真参考对象进行仿真,仿真结果表明,上述算法更有利于十字路口的吞吐量,进一步减少路口车辆等待时间,达到了合理调控道路信号灯时间、缓解路口拥堵的目标.  相似文献   

11.
Q-Learning是目前一种主流的强化学习算法,但其在随机环境中收敛速度不佳,之前的研究针对Speedy Q-Learning存在的过估计问题进行改进,提出了Double Speedy Q-Learning算法.但Double Speedy Q-Learning算法并未考虑随机环境中存在的自循环结构,即代理执行动作时...  相似文献   

12.
出租车合乘是缓解我国日益严峻的交通拥堵问题的重要手段。为高效解决出租车合乘问题,综合考虑出租车车辆总数、乘客等待时长、车辆运输总里程数三个指标,建立了优化这三个指标的数学模型。在此基础上,基于NSGA-II算法设计和实现了解决该优化问题的多目标遗传算法。最后,在某城市某日某时刻3 min之内的打车需求数据上对模型和算法进行了实验验证。实验结果表明,该模型与算法能带来较高的合乘发生率和较满意的合乘利润率,具有较好的合乘效益。  相似文献   

13.
交通信号的智能控制是智能交通研究中的热点问题。为更加及时有效地自适应协调交通,文中提出了一种基于分布式深度强化学习的交通信号控制模型,采用深度神经网络框架,利用目标网络、双Q网络、价值分布提升模型表现。将交叉路口的高维实时交通信息离散化建模并与相应车道上的等待时间、队列长度、延迟时间、相位信息等整合作为状态输入,在对相位序列及动作、奖励做出恰当定义的基础上,在线学习交通信号的控制策略,实现交通信号Agent的自适应控制。为验证所提算法,在SUMO(Simulation of Urban Mobility)中相同设置下,将其与3种典型的深度强化学习算法进行对比。实验结果表明,基于分布式的深度强化学习算法在交通信号Agent的控制中具有更好的效率和鲁棒性,且在交叉路口车辆的平均延迟、行驶时间、队列长度、等待时间等方面具有更好的性能表现。  相似文献   

14.
城市交通路径规划需要考虑规划的快速性和车辆的安全性,而目前大多数强化学习算法不能兼顾两者.针对这个问题,首先提出采用基于模型的算法和与模型无关的算法相结合的Dyna框架,以提高规划的速度;然后使用经典的Sarsa算法作为选路策略,以提高算法的安全性;最后将两者结合提出了改进的基于Sarsa的Dyna-Sa算法.实验结果...  相似文献   

15.
深度强化学习(deep reinforcement learning,DRL)可广泛应用于城市交通信号控制领域,但在现有研究中,绝大多数的DRL智能体仅使用当前的交通状态进行决策,在交通流变化较大的情况下控制效果有限。提出一种结合状态预测的DRL信号控制算法。首先,利用独热编码设计简洁且高效的交通状态;然后,使用长短期记忆网络(long short-term memory,LSTM)预测未来的交通状态;最后,智能体根据当前状态和预测状态进行最优决策。在SUMO(simulation of urban mobility)仿真平台上的实验结果表明,在单交叉口、多交叉口的多种交通流量条件下,与三种典型的信号控制算法相比,所提算法在平均等待时间、行驶时间、燃油消耗、CO2排放等指标上都具有最好的性能。  相似文献   

16.
路径规划作为自动驾驶的关键技术,具有广阔的应用前景和科研价值。探索解决自动驾驶车辆路径规划问题的方法,着重关注基于强化学习的路径规划方法。在阐述基于常规方法和强化学习方法的路径规划技术的基础上,重点总结了基于强化学习和深度强化学习来解决自动驾驶车辆路径规划问题的算法,并将算法按照基于值和基于策略的方式进行分类,分析各类算法的特点、优缺点及改进措施。最后对基于强化学习的路径规划技术的未来发展方向进行了展望。  相似文献   

17.
柏挺峰  吴耿锋 《计算机工程》2004,30(1):88-89,94
针对增强型算法中求解目标状态问题,提出了反映当前状态与目标状态的距离和转换代价的优化模型,设计了基于优化状态转换信任度的增强型学习算法COSTRIL。算法定义了优化状态信任度函数,设计了优化状态信任度函数的更新学习规则。COSTRLA用于求解迷宫问题,表明了算法在处理目标状态问题时比传统的增强型学习算法更加有效。  相似文献   

18.
高度信息化的网格化城市管理可以为出租车运营优化提供新的实时动态乘客需求信息和车辆位置信息。以此为契机,针对城市出租车空驶率高和司乘匹配率低的问题,提出了一种网格化的出租车实时动态调度的增强学习控制方法。通过为出租车提供空驶巡游的动态最佳路线,新的控制方法旨在提高出租车的服务效率,并降低乘客的等待时间。首先,以城市单元网格为基础,明确出租车调度的关键问题;其次,以空驶路线的动态调整为控制手段,建立调度的增强学习模型;最后,给出求解模型的Q学习算法,并通过算例验证新调度方法的有效性。研究表明新方法可以有效提高司乘匹配率、增加总的出租车运营收入、减少乘客平均等车时间和减少总的出租车空驶时间。  相似文献   

19.
路径规划的目的是让机器人在移动过程中既能避开障碍物,又能快速规划出最短路径。在分析基于强化学习的路径规划算法优缺点的基础上,引出能够在复杂动态环境下进行良好路径规划的典型深度强化学习DQN(Deep Q-learning Network)算法。深入分析了DQN算法的基本原理和局限性,对比了各种DQN变种算法的优势和不足,进而从训练算法、神经网络结构、学习机制、AC(Actor-Critic)框架的多种变形四方面进行了分类归纳。提出了目前基于深度强化学习的路径规划方法所面临的挑战和亟待解决的问题,并展望了未来的发展方向,可为机器人智能路径规划及自动驾驶等方向的发展提供参考。  相似文献   

20.
立体轨道交通系统的车辆调度方法还未见报道,已有车辆调度算法的实时性较差。针对立体轨道交通车辆的调度问题,研究了一种结合高、低频车站判定的订单分配算法和一种结合时间窗的Dijkstra路径规划算法,即智能调度算法,以提高车辆的运行效率。首先,使用订单分配算法为订单选择合适的执行车辆,减少乘客的等待时间。其次,在订单分配算法的基础上增加了高、低频车站的判定,提前给高频车站调度车辆,以保证供需平衡。然后,将普通Dijkstra算法和时间窗判断相结合,以实现多车辆的无冲突路径规划。最后,对OpenTCS软件进行二次开发,并进行了调度算法的仿真。结果表明,当有乘客叫车时,若只有订单分配算法,乘客平均等待时间为8.043 s;结合高、低频车站进行车辆提前调度后,平均等待时间降到了5.724 s,每位乘客减少了2.319 s的等待时间。路径规划时,无论是普通的Dijkstra算法还是结合时间窗的Dijkstra算法,规划耗时都在1 ms以内,而结合时间窗的Dijkstra算法在只增加约0.1 ms耗时的情况下,解决了车辆的路径冲突问题。研究的智能调度算法减少了乘客的等待时间,提高了车辆的运行效率,实时性好,能满足立体轨道交通车辆的调度要求。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号