首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 218 毫秒
1.
人群疏散引导系统可在建筑物内发生灾害时有效保护生命安全,减少人员财产损失。针对现有人群疏散引导系统需要人工设计模型和输入参数,工作量大且容易造成误差的问题,本文提出了基于深度强化学习的端到端智能疏散引导方法,设计了基于社会力模型的强化学习智能体仿真交互环境。使智能体可以仅以场景图像为输入,通过与仿真环境的交互和试错自主学习场景模型,探索路径规划策略,直接输出动态引导标志信息,指引人群有效疏散。针对强化学习深度Q网络(DQN)算法在人群疏散问题中因为动作空间维度较高,导致神经网络复杂度指数增长的"维度灾难"现象,本文提出了将Q网络输出层按动作维度分组的组合动作空间DQN算法,显著降低了网络结构复杂度,提高了系统在多个引导标志复杂场景中的实用性。在不同场景的仿真实验表明本文方法在逃生时间指标上优于静态引导方法,达到人工构造模型方法的相同水平。说明本文方法可以有效引导人群,提高疏散效率,同时降低人工构造模型的工作量并减小人为误差。  相似文献   

2.
为改善板料拉深制造的成品质量,采用深度强化学习的方法进行拉深过程的压边力优化控制. 提出一种基于深度强化学习与有限元仿真集成的压边力控制模型,结合深度神经网络的感知能力与强化学习的决策能力,进行压边力控制策略的学习优化. 基于深度强化学习的压边力优化算法,利用深度神经网络处理巨大的状态空间,避免了系统动力学的拟合,并且使用一种新的网络结构来构建策略网络,将压边力策略划分为全局与局部两部分,提高了压边力策略的控制效果. 将压边力的理论知识用于初始化回放经验池,提高了深度强化学习算法在压边力控制任务中的学习效率. 实验结果表明,与传统深度强化学习算法相比,所提出的压边力控制模型能够更有效地进行压边力控制策略优化,成品在内部应力、成品厚度以及材料利用率3个质量评价指标的综合表现优于传统深度强化学习算法. 将深度强化学习中的策略网络划分为线性部分与非线性部分,并结合理论压边力知识来初始化回放经验,能够提高深度强化学习在压边力优化控制中的控制效果,提高算法的学习效率.  相似文献   

3.
为进一步提升基于值函数强化学习的智能干扰决策算法的收敛速度,增强战场决策的有效性,设计了一种融合有效方差置信上界思想的改进Q学习智能通信干扰决策算法.该算法在Q学习算法的框架基础上,利用有效干扰动作的价值方差设置置信区间,从干扰动作空间中剔除置信度较低的干扰动作,减少干扰方在未知环境中不必要的探索成本,加快其在干扰动作...  相似文献   

4.
针对深度强化学习信号控制方法存在训练不稳定、收敛慢以及相位频繁改变的问题,基于双决斗深度Q网络(3DQN)算法引入预训练模块和相位绿灯时间计算模块,提出结合领域经验的信号控制方法.通过优化双重Q学习损失、监督式边际分类损失和正则化损失,使预训练模块引导3DQN智能体模仿Max-Pressure方法的策略,以稳定并加快智能体的训练过程.相位绿灯时间计算模块基于平均车头时距和排队长度动态调整相位绿灯时间以减少绿灯损失.以杭州市萧山区机场城市大道和博奥路交叉口为例,在仿真平台SUMO上对所提方法进行验证.实验结果表明,所提方法能有效改进传统3DQN算法的训练速度.相比于传统控制方法,所提方法明显缩短了车辆平均旅行时间,提高了交叉口运行效率.  相似文献   

5.
在深度强化学习中,深度Q网络算法存在严重高估动作值问题,使得智能体的表现不尽人意.尽管深度双Q网络和竞争网络结构可以部分缓解高估带来的影响,但引入双Q网络的同时,有时也会低估动作值.本文提出了一种基于权重值的竞争深度双Q网络算法(Weighted Dueling Double Deep Q-Network, WD3QN),把改进的双估计器及竞争网络结构结合至深度Q网络中,将学习到的可能动作值进行加权产生最终动作值,有效减少估计误差.最后,将算法应用于Open AI Gym平台上的CartPole经典控制问题,仿真结果显示:与已有算法对比,本算法有更好的学习效果,收敛性和训练速度均有提升.  相似文献   

6.
针对状态机决策模型不能有效处理冰雪环境下丰富的上下文信息和不确定因素影响等问题,构建了一种基于深度Q网络算法(DQN)的深度强化学习智能体。使用运动规划器对该智能体进行增广,将基于规则的决策规划模块和深度强化学习模型整合在一起,建立了DQN-planner模型,从而提高了强化学习智能体的收敛速度和驾驶能力。最后,基于CARLA模拟仿真平台对DQN模型和DQN-planner模型在低附着系数冰雪路面上的驾驶能力进行了对比实验,分别就训练过程和验证结果进行了分析。  相似文献   

7.
近年来,多智能体深度强化学习(multi-agent deep reinforcement learning, MADRL)的研究进展使其在现实世界的任务中更加实用,但其相对较差的可扩展性和部分可观测的限制为MADRL模型的性能和部署带来了更多的挑战。人类社会可以被视为一个大规模的部分可观测环境,其中每个人都具备与他人交流并记忆经验的功能。基于人类社会的启发,我们提出一种新的网络结构,称为层次图递归网络(hierarchicalgraphrecurrent network,HGRN),用于部分可观测环境下的多智能体合作任务。具体来说,我们将多智能体系统构建为一个图,利用新颖的图卷积结构来实现异构相邻智能体之间的通信,并采用一个递归单元来使智能体具备记忆历史信息的能力。为了鼓励智能体探索并提高模型的鲁棒性,我们进而设计一种最大熵学习方法,令智能体可以学习可配置目标行动熵的随机策略。基于上述技术,我们提出一种名为Soft-HGRN的基于值的MADRL算法,及其名为SAC-HGRN的actor-critic变体。在三个同构场景和一个异构环境中进行实验;实验结果不仅表明我们的方法相比四个MAD...  相似文献   

8.
为了提高强化学习算法训练过程中信息价值高样本的回放频率,缩短算法训练时间,本文提出一种二次采样方法.对经验池中随机采集批量样本进行分层,将每层中样本的TD_error分布采样,用二次采样得到的样本训练深度Q网络,并将二次采样方法采用在DQN算法中,利用OpenAI Gym平台上测试其效果,分析算法参数对学习性能的影响....  相似文献   

9.
针对传统算法、智能算法与强化学习算法在自动引导小车(automated guided vehicle,AGV)路径规划中收敛速度慢、学习效率低的问题,提出一种启发式强化学习算法,并针对传统Q(λ)算法,设计启发式奖励函数和启发式动作选择策略,以此强化智能体对优质行为的探索,提高算法学习效率.通过仿真对比实验,验证了基于改进Q(λ)启发式强化学习算法在探索次数、规划时间、路径长度与路径转角上都具有一定的优势.  相似文献   

10.
物料搬运效率对智能车间的生产调度效率有着重要影响.物料搬运任务通常由自动导引车(Automated Guided Vehicle,AGV)执行,其具有数量多、任务需求实时变化、任务下达密集等特点.为及时、高效、准确地处理AGV搬运作业,提出基于强化学习的订单驱动下智能车间AGV调度模型,使用二级调度机制,第一级以负载均衡为目标,基于规则的调度方法对AGV进行任务分配;第二级运用强化学习深度Q网络(Deep Q-Network,DQN)算法对AGV进行单智能体下的搬运路径规划,通过减少智能体动作空间维数的方式,降低调度算法的收敛难度,并通过仿真实例验证该方法的有效性和创新性.  相似文献   

11.
为了提高数控加工中的机床效能和加工效率,探究深度强化学习在加工参数优化问题中的适用性,提出一种基于深度强化学习的数控铣削加工参数优化方法.选取切削力合力和材料除去率作为效能和效率的优化目标,利用遗传算法优化反向传播神经网络(GA-BPNN)构建切削力合力和铣削参数的优化函数,并采用经验公式建立材料除去率的优化函数.应用竞争网络架构(Dueling DQN)算法获得切削力合力和材料除去率多目标优化的Pareto前沿,并结合优劣解距离法和熵值法从Pareto前沿中选择决策解.基于45钢的铣削试验,验证了Dueling DQN算法用于加工参数优化的有效性,相比经验选取加工参数,通过Dueling DQN优化得到的加工方案使切削力合力降低了8.29%,加工效率提高了4.95%,为加工参数的多目标优化方法和加工参数的选择提供了指导.  相似文献   

12.
强化学习与深度学习结合的深度强化学习(Deep Reinforcement Learning,DRL)模型,目前被广泛应用于机器人控制领域。机器人强化学习需要在3D仿真环境中训练模型,然而在缺乏环境先验知识的情况下,在3D环境中进行试错学习会导致训练周期长、开发成本高的问题。因此提出一种贯通2D到3D的机器人强化学习训练模式,将计算量大、耗时多的工作部署到2D环境中,再把算法结果迁移到3D环境中进行测试。实验证明,这种训练模式能使基于个人电脑的机器人强化学习的开发效率提升5倍左右。  相似文献   

13.
为了研究在有限信道状态信息下,密集型网络的资源分配问题,提出了交替方向乘子法结合深度强化学习算法的模型驱动学习框架。该框架区别于数据驱动框架,能够根据具体问题进行一对一建模。针对资源分配的问题建模内容包括:将基站选择、功率和子载波分配用交替方向乘子法进行交替优化;用深度强化学习算法优化权重,求解目标函数,提高算法性能;框架利用有效信道状态信息而非多余信息,降低了通信开销;加强对最低用户服务质量要求参数的约束,可以在保证用户的体验下最大化小区频谱效率。仿真结果表明,该模型驱动学习框架在较少的迭代次数下即可收敛。  相似文献   

14.
为了保障综合能源系统的稳定运行,承载综合能源业务的通信网络需要具备高可靠、低风险等特征.依据综合能源业务的通道要求,提出了一种深度强化学习的算法,旨在对大规模综合能源业务在承载的电力通信网上寻找到整体最优的路径.该方法以整体时延和网络负载均衡度为目标,对网络拓扑进行训练,并保存模型,然后通过迭代学习获取最优的结果.仿真结果表明,该方法找到的路径既可以保证整体时延较短,又可以保证网络的整体负载均衡.同时,在网络规模很大、业务数量很多的情况下,深度强化学习算法可有效提高计算效率.  相似文献   

15.
0 INTRODUCTIONEstablishingaindependencerobotwholearntocar ryouttaskdependingonvisualinformationhasbecomeaprimarilychallengeofartificialintelligence .Recently ,asakindofrobotlearningapproachthatneednotran scendentalknowledgeandhashighresponseandadapta tio…  相似文献   

16.
In multi-agent systems, joint-action must be employed to achieve cooperation because the evaluation of the behavior of an agent often depends on the other agents‘ behaviors. However, joint-action reinforcement learning algorithms suffer the slow convergence rate because of the enormous learning space produced by jointaction. In this article, a prediction-based reinforcement learning algorithm is presented for multi-agent cooperation tasks, which demands all agents to learn predicting the probabilities of actions that other agents may execute. A multi-robot cooperation experiment is run to test the efficacy of the new algorithm, and the experiment results show that the new algorithm can achieve the cooperation policy much faster than the primitive reinforcement learning algorithm.  相似文献   

17.
基于马尔科夫过程的强化学习作为一种在线学习方式,能够很好地应用于单智能体环境中.但是由于强化学习理论的限制,在多智能体系统中马尔科夫过程模型不再适用,因此强化学习不能直接用于多智能体的协作学习问题.本文提出了多智能体协作的两层强化学习方法.该方法主要通过在单个智能体中构筑两层强化学习单元来实现.第一层强化学习单元负责学习智能体的联合任务协作策略,第二层强化学习单元负责学习在本智能体看来是最有效的行动策略.所提出的方法应用于3个智能体协作抬起圆形物体的计算机模拟中,结果表明所提出的方法比采用传统强化学习方法的智能体协作得更好.  相似文献   

18.
针对卫星观测任务规划问题约束复杂、求解空间大和输入任务序列长度不固定的特点,使用深度强化学习(DRL)方法对卫星观测任务规划问题进行求解. 综合考虑时间窗口约束、任务间转移机动时间和卫星电量、存储约束,对卫星观测任务规划问题进行建模. 基于指针网络(PN)的运行机制建立序列决策算法模型,使用Mask向量来考虑卫星观测任务规划问题中的各类约束,并通过Actor Critic强化学习算法对模型进行训练,以获得最大的收益率. 借鉴多头注意力(MHA)机制的思想对PN进行改进,提出多头注意力指针网络(MHA-PN)算法. 根据实验结果可以看出,MHA-PN算法显著提高了模型的训练速度和泛化性能,训练好的MHA-PN算法模型可以直接对输入序列进行端到端的推理,避免传统启发式算法迭代求解的过程,具有较高的求解效率.  相似文献   

19.
毛晋    熊轲    位宁    张煜  张锐晨   《南京师范大学学报》2022,(1):016-23
针对超密集网络中由于用户数量多、相互距离近,通信过程中彼此之间干扰大,导致频谱利用率不高的问题,建立了通过优化控制发射功率同时提升系统信息容量和满足服务质量的用户数量的优化问题. 由于该问题非凸且功率控制为离散变量,将其建模为马尔科夫决策过程. 在此基础上,提出了基于深度强化学习的功率控制算法,并设计了相应的动作空间、状态空间及奖励函数. 仿真结果表明,所提算法与最大发射功率策略和随机发射功率策略相比,分别提高了至少15.9%的信息容量和至少10.7%的用户服务质量满足率. 与不考虑用户服务质量满足率提升的算法相比,所提算法通过适当降低信息容量,提升了用户服务质量满足率.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号