期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

周瑶瑶李烨《计算机应用研究》2020,37(2):486-488

为减少深度Q网络算法的训练时间,采用结合优先经验回放机制与竞争网络结构的DQN方法,针对Open AI Gym平台cart pole和mountain car两个经典控制问题进行研究,其中经验回放采用基于排序的机制,而竞争结构中采用深度神经网络。仿真结果表明,相比于常规DQN算法、基于竞争网络结构的DQN方法和基于优先经验回放的DQN方法,该方法具有更好的学习性能,训练时间最少。同时,详细分析了算法参数对于学习性能的影响,为实际运用提供了有价值的参考。相似文献

2.

异策略深度强化学习中的经验回放研究综述

胡子剑高晓光万开方张乐天汪强龙 NERETIN Evgeny 《自动化学报》2023,49(11):2237-2256

作为一种不需要事先获得训练数据的机器学习方法, 强化学习(Reinforcement learning, RL)在智能体与环境的不断交互过程中寻找最优策略, 是解决序贯决策问题的一种重要方法. 通过与深度学习(Deep learning, DL)结合, 深度强化学习(Deep reinforcement learning, DRL)同时具备了强大的感知和决策能力, 被广泛应用于多个领域来解决复杂的决策问题. 异策略强化学习通过将交互经验进行存储和回放, 将探索和利用分离开来, 更易寻找到全局最优解. 如何对经验进行合理高效的利用是提升异策略强化学习方法效率的关键. 首先对强化学习的基本理论进行介绍; 随后对同策略和异策略强化学习算法进行简要介绍; 接着介绍经验回放(Experience replay, ER)问题的两种主流解决方案, 包括经验利用和经验增广; 最后对相关的研究工作进行总结和展望. 相似文献

3.

基于重抽样优选缓存经验回放机制的深度强化学习方法

陈希亮曹雷李晨溪徐志雄何明《控制与决策》2018,33(4):600-606

针对深度强化学习算法中经验缓存机制构建问题,提出一种基于TD误差的重抽样优选缓存机制;针对该机制存在的训练集坍塌现象,提出基于排行的分层抽样算法进行改进,并结合该机制对已有的几种典型基于DQN的深度强化学习算法进行改进.通过对Open AI Gym平台上Cart Port学习控制问题的仿真实验对比分析表明,优选机制能够提升训练样本的质量,实现对值函数的有效逼近,具有良好的学习效率和泛化性能,收敛速度和训练性能均有明显提升. 相似文献

4.

基于双深度网络的安全深度强化学习方法

朱斐吴文伏玉琛刘全《计算机学报》2019,42(8)

相似文献

5.

一种平衡探索和利用的优先经验回放方法

张佳能李辉吴昊霖王壮《计算机科学》2022,(5):179-185

经验回放方法可以重用过去的经验来更新目标策略,提高样本的利用率,已经成为深度强化学习的一个重要组成部分.优先经验回放在经验回放的基础上进行选择性采样,期望更好地利用经验样本.但目前的优先经验回放方式会降低从经验缓冲池采样的样本的多样性,使神经网络收敛于局部最优.针对上述问题,提出了一种平衡探索和利用的优先经验回放方法(... 相似文献

6.

基于深度强化学习的有轨电车信号优先控制

王云鹏郭戈《自动化学报》2019,45(12):2366-2377

现有的有轨电车信号优先控制系统存在诸多问题, 如无法适应实时交通变化、优化求解较为复杂等. 本文提出了一种基于深度强化学习的有轨电车信号优先控制策略. 不依赖于交叉口复杂交通建模, 采用实时交通信息作为输入, 在有轨电车整个通行过程中连续动态调整交通信号. 协同考虑有轨电车与社会车辆的通行需求, 在尽量保证有轨电车无需停车的同时, 降低社会车辆的通行延误. 采用深度Q网络算法进行问题求解, 并利用竞争架构、双Q网络和加权样本池改善学习性能. 基于SUMO的实验表明, 该模型能够有效地协同提高有轨电车与社会车辆的通行效率. 相似文献

7.

基于深度强化学习的模糊作业车间调度问题

下载免费PDF全文

朱家政张宏立王聪李新凯董颖超《控制与决策》2024,39(2):595-603

针对具有模糊加工时间和模糊交货期的作业车间调度问题,以最小化最大完工时间为目标,以近端策略优化(PPO)算法为基本优化框架,提出一种LSTM-PPO(proximal policy optimization with Long short-term memory)算法进行求解.首先,设计一种新的状态特征对调度问题进行建模,并且依据建模后的状态特征直接对工件工序进行选取,更加贴近实际环境下的调度决策过程;其次,将长短期记忆(LSTM)网络应用于PPO算法的行动者-评论者框架中,以解决传统模型在问题规模发生变化时难以扩展的问题,使智能体能够在工件、工序、机器数目发生变化时,仍然能够获得最终的调度解.在所选取的模糊作业车间调度的问题集上,通过实验验证了该算法能够取得更好的性能. 相似文献

8.

基于后验经验回放的MAAC多智能体强化学习算法

夏琳罗威王俊霞黄一学《软件》2023,(2):17-22+41

【目的】针对多智能体强化学习过程中样本利用率低、奖励稀疏、收敛速度慢等问题,提出了一种基于后验经验回放的MAAC(Actor-Attention-Critic for Multi-Agent Reinforcement Learning,MAAC)多智能体强化学习（Hindsight Experience Replay Machanism of MAAC Algorithm,HER-MAAC）算法。【方法】利用失败的探索经验,将依据后验经验回放算法选取的目标重新计算奖励值,存入回放缓冲区中,增大回放缓冲区中成功经验的比例,从而提升样本抽取效率。【结果】实验结果显示,HER-MAAC相较原始MAAC算法,智能体成功率提升,奖励值也明显提高。在典型试验环境下,训练3个智能体胜率提高了7.3%,智能体数量为4时胜率提高8.1%,智能体数目为5时胜率提高5.7%。【结论】研究成果表明,改进后的算法能够有效提升多智能体训练效率。相似文献

9.

深度强化学习算法求解作业车间调度问题

下载免费PDF全文

李宝帅叶春明《计算机工程与应用》2021,57(23):248-254

由于传统车间调度方法实时响应能力有限,难以在复杂调度环境中取得良好效果,提出一种基于深度Q网络的深度强化学习算法。该方法结合了深度神经网络的学习能力与强化学习的决策能力,将车间调度问题视作序列决策问题,用深度神经网络拟合价值函数,将调度状态表示为矩阵形式进行输入,使用多个调度规则作为动作空间,并设置基于机器利用率的奖励函数,不断与环境交互,获得每个决策点的最佳调度规则。通过与智能优化算法、调度规则在标准问题集上的测试对比证明了算法有效性。相似文献

10.

一种高效的经验回放模块设计

陈勃王锦艳《计算机应用》2019,39(11):3242-3249

针对深度Q网络（DQN）应用中基于python数据结构直接实现的经验回放过程时常成为性能瓶颈,提出一种具有高性能及通用性的经验回放模块设计方案。该设计方案具有两层软件结构：底层的功能内核由C++语言实现,以提供较高的执行效率;上层则由python语言编写,以面向对象的方式封装模块功能并提供调用接口,使模块具有较高易用性。针对经验回放所涉及的关键操作,一些技术细节被充分研究和精心设计,例如,将优先级回放机制作为附属组件与模块的主体运行逻辑分离,将样本的可抽取性验证提前到样本记录操作中进行,使用高效的样本淘汰策略与算法等。这些措施使模块具有较高的通用性和可扩展性。实验结果表明,按照该模块实现的经验回放过程,整体执行效率得到了充分优化,两个关键操作——样本记录与样本抽取,皆可高效执行。与基于python数据结构的直接实现方式相比,所提模块在样本抽取操作上的性能提升了约100倍,从而避免了经验回放过程成为整个系统的性能瓶颈,满足了各类DQN相关应用项目的需要。相似文献

11.

Multimodal fusion for autonomous navigation via deep reinforcement learning with sparse rewards and hindsight experience replay

《Displays》2023

The multimodal perception of intelligent robots is essential for achieving collision-free and efficient navigation. Autonomous navigation is enormously challenging when perception is acquired using only vision or LiDAR sensor data due to the lack of complementary information from different sensors. This paper proposes a simple yet efficient deep reinforcement learning (DRL) with sparse rewards and hindsight experience replay (HER) to achieve multimodal navigation. By adopting the depth images and pseudo-LiDAR data generated by an RGB-D camera as input, a multimodal fusion scheme is used to enhance the perception of the surrounding environment compared to using a single sensor. To alleviate the misleading way for the agent to navigate with dense rewards, the sparse rewards are intended to identify its tasks. Additionally, the HER technique is introduced to address the sparse reward navigation issue for accelerating optimal policy learning. The results show that the proposed model achieves state-of-the-art performance in terms of success, crash, and timeout rates, as well as generalization capability. 相似文献

12.

基于策略梯度强化学习的高铁列车动态调度方法

俞胜平韩忻辰袁志明崔东亮《控制与决策》2022,37(9):2407-2417

高速铁路以其运输能力大、速度快、全天候等优势,取得了飞速蓬勃的发展.而恶劣天气等突发事件会导致列车延误晚点,更甚者延误会沿着路网不断传播扩散,其带来的多米诺效应将造成大面积列车无法按计划运行图运行.目前依靠人工经验的动态调度方式难以满足快速优化调整的实际要求.因此,针对突发事件造成高铁列车延误晚点的动态调度问题,设定所有列车在各站到发时间晚点总和最小为优化目标,构建高铁列车可运行情况下的混合整数非线性规划模型,提出基于策略梯度强化学习的高铁列车动态调度方法,包括交互环境建立、智能体状态及动作集合定义、策略网络结构及动作选择方法和回报函数建立,并结合具体问题对策略梯度强化学习(REINFORCE)算法进行误差放大和阈值设定两种改进.最后对算法收敛性及算法改进后的性能提升进行仿真研究,并与Q-learning算法进行比较,结果表明所提出的方法可以有效地对高铁列车进行动态调度,将突发事件带来的延误影响降至最小,从而提高列车的运行效率. 相似文献

13.

基于深度强化学习的节能工艺路线发现方法

下载免费PDF全文

陶鑫钰王艳纪志成《智能系统学报》2023,18(1):23-35

由于传统基于固定加工环境的工艺路线制定规则,无法快速响应加工环境的动态变化制定节能工艺路线。因此提出了基于深度Q网络(deep Q network,DQN)的节能工艺路线发现方法。基于马尔可夫决策过程,定义状态向量、动作空间、奖励函数,建立节能工艺路线模型,并将加工环境动态变化的节能工艺路线规划问题,转化为DQN智能体决策问题,利用决策经验的可复用性和可扩展性,进行求解,同时为了提高DQN的收敛速度和解的质量,提出了基于S函数探索机制和加权经验池,并使用了双Q网络。仿真结果表明,相比较改进前,改进后的算法在动态加工环境中能够更快更好地发现节能工艺路线;与遗传算法、模拟退火算法以及粒子群算法相比,改进后的算法不仅能够以最快地速度发现节能工艺路线,而且能得到相同甚至更高精度的解。相似文献

14.

基于深度强化学习的机械臂容错控制方法

《传感器与微系统》2020,(1)

针对机械臂突发单关节故障的情况,提出一种基于深度强化学习的机械臂容错控制方法。在建立环境模型和奖罚机制的基础上,针对机械臂正常运行和故障运行的情况,使用无模型的强化学习算法进行离线训练。在Rviz中建立机械臂模型并使用上述网络进行在线控制。实验证明:该算法可以有效完成机械臂的正常控制和容错控制。相似文献

15.

基于深度强化学习的二连杆机械臂运动控制方法

王建平王刚毛晓彬马恩琪《计算机应用》2021,41(6):1799-1804

针对二连杆机械臂的运动控制问题,提出了一种基于深度强化学习的控制方法.首先,搭建机械臂仿真环境,包括二连杆机械臂、目标物与障碍物;然后,根据环境模型的目标设置、状态变量和奖罚机制来建立三种深度强化学习模型进行训练,最后实现二连杆机械臂的运动控制.对比分析所提出的三种模型后,选择深度确定性策略梯度(DDPG)算法进行进一... 相似文献

16.

基于分层深度强化学习的移动机器人导航方法

王童李骜宋海荦刘伟王明会《控制与决策》2022,37(11):2799-2807

针对现有基于深度强化学习(deep reinforcement learning, DRL)的分层导航方法在包含长廊、死角等结构的复杂环境下导航效果不佳的问题,提出一种基于option-based分层深度强化学习(hierarchical deep reinforcement learning, HDRL)的移动机器人导航方法.该方法的模型框架分为高层和低层两部分,其中低层的避障和目标驱动控制模型分别实现避障和目标接近两种行为策略,高层的行为选择模型可自动学习稳定、可靠的行为选择策略,从而有效避免对人为设计调控规则的依赖.此外,所提出方法通过对避障控制模型进行优化训练,使学习到的避障策略更加适用于复杂环境下的导航任务.在与现有DRL方法的对比实验中,所提出方法在全部仿真测试环境中均取得最高的导航成功率,同时在其他指标上也具有整体优势,表明所提出方法可有效解决复杂环境下导航效果不佳的问题,且具有较强的泛化能力.此外,真实环境下的测试进一步验证了所提出方法的潜在应用价值. 相似文献

17.

基于深度强化学习的舰船导弹目标分配方法

下载免费PDF全文

肖友刚金升成毛晓伍国华陆志沣《控制理论与应用》2024,41(6):990-998

针对对抗环境下的海上舰船防空反导导弹目标分配问题, 本文提出了一种融合注意力机制的深度强化学习算法. 首先, 构建了舰船多类型导弹目标分配模型, 并结合目标多波次拦截特点将问题建模为马尔可夫决策过程.接着, 基于编码器–解码器框架搭建强化学习策略网络, 融合多头注意力机制对目标进行编码, 并在解码中结合整体目标和单个目标编码信息实现舰船可靠的导弹目标分配. 最后, 对导弹目标分配收益、分配时效以及策略网络训练过程进行了仿真实验. 实验结果表明, 本文方法能生成高收益的导弹目标分配方案, 相较于对比算法的大规模决策计算速度提高10%～94%, 同时其策略网络能够快速稳定收敛. 相似文献

18.

A survey on deep learning and deep reinforcement learning in robotics with a tutorial on deep reinforcement learning

Morales Eduardo F. Murrieta-Cid Rafael Becerra Israel Esquivel-Basaldua Marco A. 《Intelligent Service Robotics》2021,14(5):773-805

This article is about deep learning (DL) and deep reinforcement learning (DRL) works applied to robotics. Both tools have been shown to be successful in delivering data-driven solutions for robotics tasks, as well as providing a natural way to develop an end-to-end pipeline from the robot’s sensing to its actuation, passing through the generation of a policy to perform the given task. These frameworks have been proven to be able to deal with real-world complications such as noise in sensing, imprecise actuation, variability in the scenarios where the robot is being deployed, among others. Following that vein, and given the growing interest in DL and DRL, the present work starts by providing a brief tutorial on deep reinforcement learning, where the goal is to understand the main concepts and approaches followed in the field. Later, the article describes the main, recent, and most promising approaches of DL and DRL in robotics, with sufficient technical detail to understand the core of the works and to motivate interested readers to initiate their own research in the area. Then, to provide a comparative analysis, we present several taxonomies in which the references can be classified, according to high-level features, the task that the work addresses, the type of system, and the learning techniques used in the work. We conclude by presenting promising research directions in both DL and DRL.

相似文献