首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 0 毫秒
1.
首先,针对DQN算法存在迭代次数过多、训练速度过慢以及APF算法具有某些局限性等问题,该文基于人工势场(APF)算法和深度强化学习(DQN)算法对DQN算法进行改进。其次,将改进后的APF算法与DQN算法进行融合,提出了改进人工势场与强化学习融合算法(APF-DQN)。最后,通过大量试验验证了该文提出的APF-DQN算法的有效性。  相似文献   

2.
针对当前柔性作业车间节能调度研究无法充分利用历史生产数据,且对复杂、动态、多变的车间生产环境适应性不足的问题,引入深度强化学习思想,利用具有代表性的深度Q网络(deep Q-network, DQN)求解柔性作业车间节能调度问题。将柔性作业车间节能调度问题转化为强化学习对应的马尔科夫决策过程。进而,提炼表征车间生产状态特征的状态值作为神经网络输入,通过神经网络拟合状态值函数,输出复合调度动作规则实现对工件以及加工机器的选择,并利用动作规则与奖励函数协同优化能耗。在3个不同规模的案例上与非支配排序遗传算法、超启发式遗传算法、改进狼群算法等典型智能优化方法进行求解效果对比。结果表明,DQN算法有较强的搜索能力,且最优解分布情况与提出的柔性作业车间节能调度模型聚焦能耗目标相一致,从而验证了所用DQN方法的有效性。  相似文献   

3.
王晓红  曾静  麻祥才  刘芳 《包装工程》2020,41(15):245-252
目的为了有效地去除多种图像模糊,提高图像质量,提出基于深度强化学习的图像去模糊方法。方法选用GoPro与DIV2K这2个数据集进行实验,以峰值信噪比(PSNR)和结构相似性(SSIM)为客观评价指标。通过卷积神经网络获得模糊图像的高维特征,利用深度强化学习结合多种CNN去模糊工具建立去模糊框架,将峰值信噪比(PSNR)作为训练奖励评价函数,来选择最优修复策略,逐步对模糊图像进行修复。结果通过训练与测试,与现有的主流算法相比,文中方法有着更好的主观视觉效果,且PSNR值与SSIM值都有更好的表现。结论实验结果表明,文中方法能有效地解决图像的高斯模糊和运动模糊等问题,并取得了良好的视觉效果,在图像去模糊领域具有一定的参考价值。  相似文献   

4.
5.
吴忠强  马博岩 《计量学报》2023,(12):1863-1871
以并联式混合动力汽车(HEV)为研究对象,建立整车需求功率及动力系统模型,提出一种基于改进深度强化学习(DRL)的能量分配策略。通过改进DRL中的双延迟深度确定性策略梯度(TD3)算法,引入双重回放缓冲区,提出DRB-TD3算法以提升原算法的采样效率。设计了基于规则的约束控制器并嵌入到DRL结构中,以消除不合理的转矩分配。在UDDS行驶工况下,以基于动态规划(DP)的能量分配策略性能作为基准进行仿真实验。实验结果表明,与深度确定性策略梯度(DDPG)算法以及传统TD3算法相比,DRB-TD3算法收敛性能最佳,收敛效率分别提高了61.2%和31.6%;所提出的能量分配策略相比于基于DDPG和基于TD3的能量分配策略,平均燃油消耗分别降低了3.3%和2.3%,燃油经济性达到基于DP的95.2%,效果最佳,且电池荷电状态(SOC)能够保持在一个较好的水平,有助于延长电池的使用寿命。  相似文献   

6.
给出了大数据和机器学习的子领域——深度学习的概念,阐述了深度学习对获取大数据中的有价值信息的重要作用。描述了大数据下利用图像处理单元(GPU)进行并行运算的深度学习框架,对其中的大规模卷积神经网络(CNN)、大规模深度置信网络(DBN)和大规模递归神经网络(RNN)进行了重点论述。分析了大数据的容量、多样性、速率特征,介绍了大规模数据、多样性数据、高速率数据下的深度学习方法。展望了大数据背景下深度学习的发展前景,指出在不远的将来,大数据与深度学习融合的技术将会在计算机视觉、机器智能等多个领域获得突破性进展。  相似文献   

7.
为了降低振动控制算法对拉索-MR阻尼器系统动力学模型精度的依赖性,提出一种基于深度强化学习理论的无模型减振算法。该方法利用控制模块与环境之间的交互实现对拉索振动的自适应半主动控制,依据拉索特定点响应状态在线调节阻尼器施加电压,降低反馈控制要求。为验证智能控制算法的有效性,采用Galerkin法建立拉索-MR阻尼器环境模型,并以实桥拉索减振设计为例对比分析了黏滞阻尼器多模态控制、Bang-Bang控制、深度强化学习控制对拉索的风振控制效果。结果表明:在随机风荷载作用下,深度强化学习控制算法不仅能够实现对拉索的无模型振动控制,且控制效果优于黏滞阻尼器多模态控制和MR阻尼器的Bang-Bang控制。  相似文献   

8.
针对多种定位因素存在复杂关联且不易准确提取的问题,提出了以完整双耳声信号作为输入的、基于深度学习的双耳声源定位算法。首先,分别采用深层全连接后向传播神经网络(Deep Back Propagation Neural Network,D-BPNN)和卷积神经网络(Convolutional Neural Network, CNN)实现深度学习框架;然后,分别以水平面 15°、30°和 45°空间角度间隔的双耳声信号进行模型训练;最后,采用前后混乱率、定位准确率与训练时长等指标进行算法有效性分析。模型预测结果表明,CNN模型的前后混乱率远低于 D-BPNN;D-BPNN模型的定位准确率能够达到87%以上,而 CNN模型的定位准确率能够达到 98%左右;在相同实验条件下,CNN模型的训练时长大于 D-BPNN,且随着水平面角度间隔的减小,两者训练时长之间的差异愈发显著。  相似文献   

9.
10.
由于用户设备的多样性,直播视频必须转换为不同的格式.且由于无线网络环境的动态特性,为用户提供高质量和严格的时延要求的实时视频是一个很大的挑战.本文提出了一种联合优化用户调度、视频质量选择和资源分配的方案,以达到在视频直播业务中最大化视频质量的同时尽可能减少播放延迟的目标.通过深度Actor-Critic强化学习算法进行仿真.仿真结果表明,本文提出的方案可以提高用户视频体验质量(QoE),并且相比于策略梯度算法(PG),本文算法学习速度更快.  相似文献   

11.
针对无线电信号的攻击愈来愈频繁的情况,本文在数据流形理论基础上,使用深度神经网络(DNN)检测无线电信号对抗样本及其攻击方法。首先使用5种不同攻击方法对无线电信号进行攻击产生对抗样本,其次使用3种不同的神经网络检测对抗样本,最后用残差神经网络(ResNet)检测对抗样本的攻击方法。在信噪比(SNR)为30 d B和20 dB的无线电信号数据上的实验结果表明,本文所使用的残差神经网络检测精度接近100%,在信噪比为10 dB的无线电信号数据上的检测精度仍然在90%以上。结果表明本文所用的残差神经网络能有效检测无线电信号的对抗样本及其攻击方法。  相似文献   

12.
为了实现矿用巡检机器人对煤矿井下设备的识别与匹配,通过基于卷积神经网络的深度学习算法建立了煤矿设备类型识别模型,分别在明亮环境下、昏暗环境下以及设备重叠情况下采集大量待识别设备图像样本,再对识别模型进行训练,实现巡检机器人对煤矿设备的精确识别与分类。使用基于粒子群优化的SVM(support vector machine,支持向量机)建立了煤矿设备匹配模型,将巡检机器人相对于煤矿坐标系的三轴位置信息、三自由度角度和视觉相机转角作为匹配模型的输入量,将相机视野中设备序号作为输出量,实现煤矿设备类型识别模型识别出的设备与已知设备序号一一对应。实验结果表明基于深度学习算法的煤矿设备类型识别模型对外界的干扰不敏感,识别准确率高;基于SVM的煤矿设备匹配模型的匹配准确率达到了93.2%,在匹配准确率的训练和测试效率上均优于基于BP(back propagation,反向传播)神经网络的匹配模型。研究结果可为煤矿井下巡检机器人的研制提供参考。  相似文献   

13.
运用深度学习技术进行非接触、快速水体色度检测与分类,采用无人机采集水体图像,运用色度仪对标定的图像完成分类,建立数据集。采用图像归一化处理减少环境因素对分类结果的影响,设计多特征的分步边缘检测算法,检测水域图像边缘,剔除无关像素。对VGG 16、GoogleNet-V3和ResNet 18卷积神经网络进行水体色度分类模型构建与训练,后筛选Inception结构和残差结构为基本构建单元,设计专门用于水体色度分类的WCNet 15与WCNet 21神经网络模型。在训练集上训练参数并利用验证集完成对2个模型的准确率的比较,筛选准确率高的WCNet 21模型作为最终水体色度分类模型。WCNet21模型的最优准确率可达97.8%,满足水体色度分类需求,可应用到具体的水体色度分类工作当中。  相似文献   

14.
针对传统调度算法在高危多变环境下实现多目标在线调度所面临的困境,提出基于深度强化学习的调度优化算法,并应用于大规模舰载机出动回收多目标在线调度问题中.该方法以减小舰面位移、减少会遇次数、均衡设备利用率和稳定调度周期作为调度决策目标,依照马尔可夫决策过程(MDP),构造以舰载机和各设备状态作为输入,调度行为动作作为输出,...  相似文献   

15.
本文介绍了一种基于深度强化学习的城市公共交通票价优化模型,构建该模型的目的在于提高城市交通系统的效率和服务质量。首先,分析了该模型的基本假设和建立过程。其次,探讨了使用DQN方法对模型进行训练和优化的过程,最后,该文展示了持续监测系统性能、乘客数量、收入和交通拥堵情况等票价模型的优化结果,以期为城市公共交通系统的管理和改进提供一种前瞻性方法。  相似文献   

16.
现有的无线电信号调制识别方法在先验数据不足时通常很难对无类标信号进行有效识别。针对这个问题,本文提出了一种基于知识迁移的深度学习无线电信号聚类方法(DTC)。该方法基于样本对比,分析样本间的相似性,并利用卷积神经网络(CNN)提取无线电信号的特征,同时设计了一种预训练框架,通过迁移同领域数据集的知识,有效提升了CNN特征提取能力,实现了引导聚类方向、提升聚类性能的目标。实验结果表明,该方法在多个公开数据集上的聚类性能都显著优于现有的聚类方法。与现有方法相比,DTC在RML 2016.10A和RML 2016.04C数据集上的聚类精度分别提升了30.34%和28.04%。  相似文献   

17.
针对目前多天气识别分类问题,提出了一种基于深度学习和计算机视觉的天气现象自动分类算法。采集并建立了一个包括雾霾、沙尘、雨、雪、霜、露6类天气的适用于任意场景的多天气现象数据集,改善了目前已见报数据集规模小、种类单一、只面向特定场景的情况;同时采用密集连接和池化均衡的结构搭建深度卷积神经网络(CNN)模型,训练并挖掘天气数据的特征与内在规律,用深度学习方法实现天气现象的自动分类。实验结果表明:相比传统计算机视觉算法,该算法解决了严重依靠特征提取、适用场景单一问题;且比大多数深度网络模型参数更少、识别准确性更高,算法泛化性能大幅提升。  相似文献   

18.
针对微电网中源荷不确定性问题,本文提出一种基于连续型深度确定性策略梯度(DDPG)算法的微电网能量调度方法。首先,以日运行成本最低为目标构建优化调度模型,并将该调度模型转化成马尔可夫决策过程(MDP),定义了马尔可夫决策模型的状态空间、动作空间和奖励函数。其次,利用长短期记忆(LSTM)神经网络提取环境中时序数据的未来趋势作为状态,从而在连续调度动作空间下改善深度强化学习算法收敛效果。最后,通过训练深度强化学习模型,对比多种算法下最优能量调度策略,验证了本文所提方法的有效性。  相似文献   

19.
基于强化学习的足球机器人协作策略研究   总被引:3,自引:0,他引:3  
利用强化学习方法实现足球机器人协作策略。对于不同情况,分别将零和策略及一般和策略作为强化学习的理论框架,并且借助概率增量编程进化提高系统的稳定性。  相似文献   

20.
周震尘  金涛 《中国测试》2022,(2):98-104
由于全球变暖等原因,导致越来越多的极端天气事件发生,此类高影响低概率事件的序列攻击对配电网造成重大破坏。为了分析配电网在极端事件下的脆弱性,该文提出一种基于深度强化学习(deep reinforcement learning,DRL)的极端事件攻击序列确定方法。利用马尔科夫决策过程(Markov decision process,MDP)捕捉灾害的时空特性,同时结合元件故障的随机性,应用连锁故障模型模拟系统的行为,即系统受极端事件影响而带来的更大的故障现象,引入基于价值的DRL方法确认对系统影响最大且故障率较高的关键线路序列。该文在IEEE测试系统中进行仿真,验证所提方法对极端事件中的配电网进行脆弱性分析的有效性和准确性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号