首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
无实时奖励的复杂对抗环境是目前深度强化学习(DRL)领域的研究热点,面对此类环境,纯粹使用深度强化学习算法会导致智能体训练无法快速收敛以及对抗效果不佳等问题。基于此,本文提出了一种基于先验知识与深度强化学习相结合的智能博弈流程框架,设计了数据处理、增强机制以及动作决策3个模块,通过威胁评估、任务调度和损失比率3种增强机制来提升智能体在复杂对抗环境下的收敛速度和对抗效果。在数据堡垒(DC)平台上进行仿真,实验结果验证了本文所提出的智能博弈流程框架训练的智能体相较于单纯基于深度强化学习的智能体拥有更快的收敛速度以及更高的胜率。  相似文献   

2.
针对旋转机械故障诊断中深度神经网络特征学习能力强、决策能力弱的问题,利用卷积神经网络拟合强化学习中的 Q 函数,通过 Q?learning 算法学习策略实现故障诊断,提出了基于深度 Q 学习和连续小波变换的旋转机械故障诊断方法。对振动信号进行连续小波变换得到时间尺度矩阵,构建出环境状态空间,实现智能体与环境间的交互;用 CNN 拟合 Q?learning 中的 Q 函数得到深度 Q 网络,将环境返回的状态输入到深度 Q 网络中学习故障数据具体的状态特征表示,并据此表征学习策略,智能体采用 ε?贪婪方式决策出动作,利用奖励发生器对动作进行评价;通过智能体与环境间不断交互学习以最大化 Q 函数值,得到最优策略实现故障诊断。这种方式融合了深度学习的感知能力和强化学习的决策能力,从而有效提高了诊断能力。通过不同工况及不同样本量下齿轮箱故障诊断实验证明了所提方法的有效性。  相似文献   

3.
自动化仓库的货位优化是提高仓库效率的重要途经之一。本文针对电力仓库货位优化问题,采用基于多智能体强化学习的方法,提升优化效果。首先分析DDPG算法和MADDPG等算法的不足;然后在此基础上提出改进算法ECS-MADDPG及其模型。在该算法中,同时考虑当前时间点的即时奖励和未来奖励因素;最后利用电力物资的历史出入库数据,应用强化学习算法训练货位优化模型。研究表明,与MADDPG、DDPG等算法相比,ECS-MADDPG拥有较高的稳定性和回报值。  相似文献   

4.
针对微电网中源荷不确定性问题,本文提出一种基于连续型深度确定性策略梯度(DDPG)算法的微电网能量调度方法。首先,以日运行成本最低为目标构建优化调度模型,并将该调度模型转化成马尔可夫决策过程(MDP),定义了马尔可夫决策模型的状态空间、动作空间和奖励函数。其次,利用长短期记忆(LSTM)神经网络提取环境中时序数据的未来趋势作为状态,从而在连续调度动作空间下改善深度强化学习算法收敛效果。最后,通过训练深度强化学习模型,对比多种算法下最优能量调度策略,验证了本文所提方法的有效性。  相似文献   

5.
燃气轮机转子系统作为燃气轮机关键部件,由于难以获取敏感故障特征导致故障诊断精度不高,影响设备的安全服役。针对以上问题,提出一种改进深度Q网络(DQN)深度强化学习燃气轮机转子系统故障诊断方法。首先,以采集的一维工况原始振动信号为输入,该DQN模型的环境状态采用故障样本集组成,转子故障类型为当前模型输入的动作集合;然后,DQN模型的智能体使用一维宽卷积神经网络(WDCNN)拟合得到Q网络,并使用ε-贪婪策略做出决策动作,反馈奖励和下一状态并存储到经验池内;智能体内采用时间差分误差(TD-error)优先经验回放,使得算法更加稳定和训练收敛;智能体与环境不断交互决策出最大奖励,输出最优策略故障诊断结果。将该模型应用于西储大学轴承数据集与燃气轮机试车台数据集中,分别达到99.2%与98.7%的准确率,可以用于快速有效地进行故障诊断。结果表明该改进DQN模型具有较高的故障诊断准确性与通用性。  相似文献   

6.
针对柔性作业车间调度问题,以完工时间最小化为目标,提出一种融合强化学习的变邻域搜索算法,提升算法求解性能。基于皮尔逊相关性分析,提炼出工序加工时长这一关键特征,设计一种优先考虑加工时长的邻域结构,精炼搜索空间。基于强化学习,设计算法进化状态集、关键参数动作集和奖励机制。提出改进的ε-贪婪策略来选择动作,随着ε取值的自适应变化,算法前期倾向于探索新解,后期注重利用邻域解,最终构建起算法状态与算法参数的关系,实现了算法参数的自适应选择。结果表明,所提算法利用强化学习动态调整算法参数,在解的寻优能力和稳定程度上更具优势。  相似文献   

7.
王晓红  曾静  麻祥才  刘芳 《包装工程》2020,41(15):245-252
目的为了有效地去除多种图像模糊,提高图像质量,提出基于深度强化学习的图像去模糊方法。方法选用GoPro与DIV2K这2个数据集进行实验,以峰值信噪比(PSNR)和结构相似性(SSIM)为客观评价指标。通过卷积神经网络获得模糊图像的高维特征,利用深度强化学习结合多种CNN去模糊工具建立去模糊框架,将峰值信噪比(PSNR)作为训练奖励评价函数,来选择最优修复策略,逐步对模糊图像进行修复。结果通过训练与测试,与现有的主流算法相比,文中方法有着更好的主观视觉效果,且PSNR值与SSIM值都有更好的表现。结论实验结果表明,文中方法能有效地解决图像的高斯模糊和运动模糊等问题,并取得了良好的视觉效果,在图像去模糊领域具有一定的参考价值。  相似文献   

8.
群体智能(CI)已经在过去的几十年里被广泛研究。最知名的CI算法就是蚁群算法(ACO),它被用来通过CI涌现解决复杂的路径搜索问题。最近,DeepMind发布的AlphaZero程序,通过从零开始的自我对弈强化学习,在围棋、国际象棋、将棋上都取得了超越人类的成绩。通过在五子棋上试验并实现AlphaZero系列程序,以及对蒙特卡洛树搜索(MCTS)和ACO两种算法的分析和比较,AlphaZero的成功原因被揭示,它不仅是因为深度神经网络和强化学习,而且是因为MCTS算法,该算法实质上是一种CI涌现算法。在上述研究基础上,本文提出了一个CI进化理论,并将其作为走向人工通用智能(AGI)的通用框架。该算法融合了深度学习、强化学习和CI算法的优势,使得单个智能体能够通过CI涌现进行高效且低成本的进化。此CI进化理论在智能机器人中有天然的应用。一个云端平台被开发出来帮助智能机器人进化其智能模型。作为这个概念的验证,一个焊接机器人的焊接参数优化智能模型已经在云端平台上实现。  相似文献   

9.
针对当前柔性作业车间节能调度研究无法充分利用历史生产数据,且对复杂、动态、多变的车间生产环境适应性不足的问题,引入深度强化学习思想,利用具有代表性的深度Q网络(deep Q-network, DQN)求解柔性作业车间节能调度问题。将柔性作业车间节能调度问题转化为强化学习对应的马尔科夫决策过程。进而,提炼表征车间生产状态特征的状态值作为神经网络输入,通过神经网络拟合状态值函数,输出复合调度动作规则实现对工件以及加工机器的选择,并利用动作规则与奖励函数协同优化能耗。在3个不同规模的案例上与非支配排序遗传算法、超启发式遗传算法、改进狼群算法等典型智能优化方法进行求解效果对比。结果表明,DQN算法有较强的搜索能力,且最优解分布情况与提出的柔性作业车间节能调度模型聚焦能耗目标相一致,从而验证了所用DQN方法的有效性。  相似文献   

10.
针对传统调度算法在高危多变环境下实现多目标在线调度所面临的困境,提出基于深度强化学习的调度优化算法,并应用于大规模舰载机出动回收多目标在线调度问题中。该方法以减小舰面位移、减少会遇次数、均衡设备利用率和稳定调度周期作为调度决策目标,依照马尔可夫决策过程(MDP),构造以舰载机和各设备状态作为输入,调度行为动作作为输出,带权特征向量作为奖赏的在线调度即时决策模型。搭建用于训练的优化深度强化学习网络,改进动作选择策略和网络结构以提升性能,从而实现在线调度决策优化。实验结果表明,利用该方法得到的决策模型能够在线解决突发状况,在静态和动态调度方面,相对于启发式算法和调度规则本文方法在安全性和高效性方面具有优势。  相似文献   

11.
吴忠强  马博岩 《计量学报》2023,(12):1863-1871
以并联式混合动力汽车(HEV)为研究对象,建立整车需求功率及动力系统模型,提出一种基于改进深度强化学习(DRL)的能量分配策略。通过改进DRL中的双延迟深度确定性策略梯度(TD3)算法,引入双重回放缓冲区,提出DRB-TD3算法以提升原算法的采样效率。设计了基于规则的约束控制器并嵌入到DRL结构中,以消除不合理的转矩分配。在UDDS行驶工况下,以基于动态规划(DP)的能量分配策略性能作为基准进行仿真实验。实验结果表明,与深度确定性策略梯度(DDPG)算法以及传统TD3算法相比,DRB-TD3算法收敛性能最佳,收敛效率分别提高了61.2%和31.6%;所提出的能量分配策略相比于基于DDPG和基于TD3的能量分配策略,平均燃油消耗分别降低了3.3%和2.3%,燃油经济性达到基于DP的95.2%,效果最佳,且电池荷电状态(SOC)能够保持在一个较好的水平,有助于延长电池的使用寿命。  相似文献   

12.
由于机器学习智力和能力有限,它目前仍无法处理各种情况,因此不能在现实应用中完全取代人类。因为人类在复杂场景中表现出稳健性和适应性,所以将人类引入人工智能(AI)的训练循环并利用人类智慧进一步提升机器学习算法变得至关重要。本研究开发了一种基于实时人工指导(Hug)的深度强化学习(DRL)方法,用于端到端自动驾驶案例中的策略训练。通过新设计的人类与自动化之间的控制转移机制,人类能够在模型训练过程中实时干预和纠正智能体的不合理行为。基于这种人机回环的指导机制,本研究开发一种基于修正策略和价值网络的改良的动作-评价架构(actor-critic architecture)。所提出的Hug-DRL的快速收敛允许实时的人工指导行为融合到智能体的训练循环中,进一步提高了DRL的效率和性能。本研究通过40名受试者的人机回环实验对开发的方法进行了验证,并与其他最先进的学习方法进行了比较。结果表明,该方法可以在人工指导下有效地提高DRL算法的训练效率和性能,且对参与者的专业知识或经验没有硬性要求。  相似文献   

13.
汽车驾驶数据的有限性和隐私性严重限制了网联汽车的智能水平,因此,提出了一种基于联邦学习的智能网联车驾驶策略优化方案。首先,对模仿学习加入条件命令形成条件模仿学习,用其获得单车智能驾驶策略。其次,基于联邦学习对不同车辆的驾驶策略进行聚合,在保证数据隐私的前提下,提升智能网联车的驾驶性能。最后,基于Carla平台的实验结果表明,单车智能驾驶策略准确率达到较高水平,联邦学习车辆模型转弯任务成功率显著提升15%,直行成功率提升21%,验证了所提方法的有效性。  相似文献   

14.
传统的粒子滤波视觉跟踪算法采用固定模型和大量粒子表征目标后验概率,不能满足复杂条件下的视频目标实时跟踪.为了提高跟踪的鲁棒性和稳定性及计算效率,本文提出将自适应状态演化方程和在线增量学习观测似然模型嵌入到粒子滤波算法;并采用在线自动调整粒子数目的策略,提高粒子滤波视觉跟踪的计算效率.室内外实验结果表明,文中提出的视觉跟踪算法不仅能准确、高效地跟踪序列图像中的运动目标,而且对光照、姿态变化引起的目标表观变化具有良好的鲁棒性.  相似文献   

15.
机器人路径规划算法需应对运动过程中遇到的各种复杂环境。针对快速扩展随机树(RRT)算法规划时间长、产生新节点随机性大、盲目性强的缺点,提出基于目标指引的RRT*路径规划算法。该算法在障碍物和目标点处分别产生虚拟势场,引入引力函数和斥力函数使得生成的随机点具有目标性,随机点朝向目标点方向产生,降低盲目性和随机性;回归策略和动态自适应步长策略减少规划时间和产生冗余点的数量。当环境复杂时,提出带有预测机制的模糊推理策略,以解决机器人在U型陷阱下易产生的局部死锁现象。在动态环境下,提出重规划策略使机器人拥有动态避障能力。最后,在树莓派智能小车上进行了实验测试,结果验证了该算法的有效性。  相似文献   

16.
本文提出了一种基于PB递归神经网络(RNNPB)算法的陪护机器人多模式交互控制方法.首先,提出了一种包含多模式交互、交互识别与交互决策等智能体组成的陪护机器人多模式交互框架,然后,将基于PB的学习算法应用于陪护机器人的交互过程,形成了一种基于RNNPB模型的陪护机器人多模式交互控制方法,通过交互状态识别及决策判断结果进行交互输出,实现了陪护机器人交互过程中复杂任务的规划和交互的学习适应.实验验证了该交互控制方法的有效性.  相似文献   

17.
针对利用启发式学习算法学习贝叶斯网络时容易陷入局部最优和寻优效率低的问题,提出一种改进的混合遗传细菌觅食优化算法的贝叶斯网络结构学习算法。该算法首先通过遗传算法求得较优种群并作为细菌觅食算法的初始种群;然后利用交叉和变异策略改进细菌觅食算法的复制行为,增加种群多样性,扩大搜索空间;最后通过改进细菌觅食算法的迁移行为的初始化操作更新种群,防止精英个体的丢失。通过种群的迭代搜索最终获得最优的贝叶斯网络结构。实验仿真结果表明,与其他算法相比,该算法的收敛精度和效率有所提升。  相似文献   

18.
研究了一种基于深度图像和强化学习算法的移动机器人导航行为学习方法。该方法利用机器人装配的Kinect传感器检测工作环境信息,然后对获取的深度图像数据和视频图像进行处理、融合和识别,并由此构建机器人任务学习的状态空间,最终利用强化学习方法实现移动机器人的导航任务的自学习。该方法的有效性通过实验得到验证。实验表明,该方法能够使机器入具有较强的环境感知能力,并能够通过自学习的方式掌握行为能力。  相似文献   

19.
混合试验是一种将数值模拟与物理试验相结合的新兴结构抗震试验方法,得到了相关研究者们的广泛关注。如何模拟具有强非线性的数值子结构仍是混合试验亟待解决的问题。在传统的离线神经网络基础上提出一种在线学习的神经网络算法,并应用于混合试验中来在线预测数值子结构恢复力。在线学习算法仅利用当前步的系统输入和观测样本,采用递推形式更新每一步的权值和阈值。针对两个自由度非线性结构,分别进行了基于在线学习和离线学习神经网络的混合试验数值仿真。研究表明:与离线学习神经网络算法相比,在线学习神经网络算法具有更好的自适应性,能够有效提高恢复力预测精度和计算效率;基于在线学习神经网络算法的结构混合试验方法可以提高混合试验结果精度。  相似文献   

20.
提出一种车辆雾计算网络中视频直播业务的资源分配方法,通过联合优化比特率选择、用户调度和频谱资源分配,以实现在最大化视频质量的同时降低时延和视频抖动.为了降低时延和视频抖动,在效用函数的设计中将时延和比特率切换作为惩罚因子.由于网络的动态变化特性和可用的频谱资源,将上述优化问题建模为马尔可夫决策过程,采用Soft Actor-Critic深度强化学习算法获得最优资源分配策略.仿真结果证明,所提方法比现有强化学习算法具有更好的探索能力和收敛性能.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号