期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

梁燕胡垚林惠莹《电讯技术》2023,63(11):1661-1669

认知用户通过频谱感知和接入过程识别频谱状态并占用空闲频谱,可有效利用频谱资源。针对频谱感知中存在感知错误和频谱接入中存在用户碰撞的问题,首先建立多用户多信道模型,设计频谱感知和频谱接入过程;然后通过结合双深度Q网络和竞争Q网络,设计竞争双深度Q网络,解决过估计问题的同时优化网络结构;最后通过智能体与所设计模型中状态、观测、回报和策略的交互,完成使用竞争双深度Q网络解决频谱感知和接入问题的一体化研究。仿真结果表明,相比于已有深度强化学习方法,使用竞争双深度Q网络得到的数值结果更稳定且感知正确率和信道利用率都提高了4%。相似文献

2.

基于强化学习的列车驾驶曲线节能优化算法

黄畅姜辰宇邢昕铨《数字通信世界》2022,(1)

在保证安全和准时性的前提下,自动化列车运行可以有效减少列车耗能。为了灵活应对列车运行种的动态变化,提出了一种基于强化学习的方法,可以优化列车控制策略且不采用之前关于列车动力学的知识和设计的列车速度曲线。这个优化模型将列车节能作为目标,把准点到达、列车限速、停车位置作为限制条件。大量的列车运行经验可以被用来训练深度神经网络直到得到最优化行为价值函数,通过对训练过的神经网络输入状态,可以准确输出每个行为的价值,然后再根据行为价值的大小来选择最优的驾驶策略。相似文献

3.

基于UCB算法的交替深度Q网络

下载免费PDF全文

吴卿源谭晓阳《南京师范大学学报》2022,(1):024-29

在深度强化学习中,智能体需要与环境进行交互学习,这就需要智能体能够很好地去平衡利用与探索. 因此如何提升算法的样本有效性,增加算法的探索能力,一直是深度强化学习领域中非常重要的研究方向. 结合已有研究成果,提出了一种交替使用多个不同初始化深度Q网络方法,使用网络随机初始化带来的探索性能. 基于最大置信度上界算法先构造一种交替选择深度Q网络策略. 并将该调度网络策略与多个随机初始化的深度Q网络结合,得到基于最大置信度上界的交替深度Q网络算法. 在多个不同的标准强化学习实验环境上的实验结果表明,该算法比其他基准算法有更高的样本效率和算法学习效率. 相似文献

4.

Real-time scheduling for distributed permutation flowshops with dynamic job arrivals using deep reinforcement learning

《Advanced Engineering Informatics》2022

Distributed manufacturing plays an important role for large-scale companies to reduce production and transportation costs for globalized orders. However, how to real-timely and properly assign dynamic orders to distributed workshops is a challenging problem. To provide real-time and intelligent decision-making of scheduling for distributed flowshops, we studied the distributed permutation flowshop scheduling problem (DPFSP) with dynamic job arrivals using deep reinforcement learning (DRL). The objective is to minimize the total tardiness cost of all jobs. We provided the training and execution procedures of intelligent scheduling based on DRL for the dynamic DPFSP. In addition, we established a DRL-based scheduling model for distributed flowshops by designing suitable reward function, scheduling actions, and state features. A novel reward function is designed to directly relate to the objective. Various problem-specific dispatching rules are introduced to provide efficient actions for different production states. Furthermore, four efficient DRL algorithms, including deep Q-network (DQN), double DQN (DbDQN), dueling DQN (DlDQN), and advantage actor-critic (A2C), are adapted to train the scheduling agent. The training curves show that the agent learned to generate better solutions effectively and validate that the system design is reasonable. After training, all DRL algorithms outperform traditional meta-heuristics and well-known priority dispatching rules (PDRs) by a large margin in terms of solution quality and computation efficiency. This work shows the effectiveness of DRL for the real-time scheduling of dynamic DPFSP. 相似文献

5.

基于改进双重深度Q网络的入侵检测模型

下载免费PDF全文

吴亚丽王君虎郑帅龙《计算机工程与应用》2022,58(16):102-110

入侵检测技术作为网络安全有效的防御手段,是网络安全体系中的重要组成部分。随着互联网的快速发展,网络数据量快速增加,网络攻击更加趋于复杂化和多元化,目前主流的入侵检测技术无法有效识别各种攻击。针对实际网络环境中正常流量和攻击流量数据不平衡,且对攻击类流量检测率低的问题,基于深度强化学习提出一种基于改进双重深度Q网络的CBL_DDQN网络入侵检测模型。该模型将一维卷积神经网络和双向长短期记忆网络的混合网络模型引入深度强化学习的DDQN框架,并使用深度强化学习中的反馈学习和策略生成机制训练智能体来对不同类别的攻击样本进行分类,在一定程度上减弱了训练模型过程中对数据标签的依赖性。采用Borderline-SMOTE算法降低数据的不平衡度,从而提高稀有攻击的检测率。通过NSL_KDD和UNSW_NB15数据集对模型的性能进行评估,结果表明：该模型在准确率、精确率、召回率这三项指标上均取得了良好的结果,检测效果远优于Adam-BNDNN、KNN、SVM等检测方法,是一种高效的网络入侵检测模型。相似文献

6.

基于深度强化学习的多阶段信息物理协同拓扑攻击方法

下载免费PDF全文

伊娜徐建军陈月孙迪康《电力工程技术》2023,42(4):149-158

随着智能电网的发展及通信设备不断引入到信息物理系统(cyber physical system,CPS)中,CPS正面临一种破坏性更强的新型攻击方式——信息物理协同攻击(coordinated cyber physical attack,CCPA),其隐蔽性与威胁性易导致系统出现级联故障。首先,基于攻击者的视角,提出一种多阶段信息物理协同拓扑攻击模型,单阶段的物理攻击使线路中断,双阶段的网络攻击分别用来掩盖物理攻击的断开线路和制造一条新的虚假断开线路。其次,结合深度强化学习(deep reinforcement learning,DRL)理论,提出一种基于深度Q网络(deep Q-network,DQN)的最小攻击资源确定方法。然后,给出攻击者考虑上层最大化物理攻击效果和下层最小化攻击代价的具体模型及求解方法。最后,以IEEE 30节点系统为例,验证了所提多阶段攻击模型的有效性。仿真结果表明,多阶段信息物理协同拓扑攻击较单一攻击更加隐蔽且有效,对电网的破坏程度更大,为防御此类攻击提供了参考。相似文献

7.

融合对比预测编码的深度双Q网络

下载免费PDF全文

刘剑锋普杰信孙力帆《计算机工程与应用》2023,59(6):162-170

在模型未知的部分可观测马尔可夫决策过程（partially observable Markov decision process,POMDP）下,智能体无法直接获取环境的真实状态,感知的不确定性为学习最优策略带来挑战。为此,提出一种融合对比预测编码表示的深度双Q网络强化学习算法,通过显式地对信念状态建模以获取紧凑、高效的历史编码供策略优化使用。为改善数据利用效率,提出信念回放缓存池的概念,直接存储信念转移对而非观测与动作序列以减少内存占用。此外,设计分段训练策略将表示学习与策略学习解耦来提高训练稳定性。基于Gym-MiniGrid环境设计了POMDP导航任务,实验结果表明,所提出算法能够捕获到与状态相关的语义信息,进而实现POMDP下稳定、高效的策略学习。相似文献

8.

基于竞争双深度Q网络的动态频谱接入

梁燕惠莹《电讯技术》2022,62(12)

针对多信道动态频谱接入问题，建立了存在感知错误与接入碰撞的复杂信道场景，提出了一种结合双深度Q网络和竞争Q网络的竞争双深度Q网络学习框架。双深度Q网络将动作的选择和评估分别用不同值函数实现，解决了值函数的过估计问题，而竞争Q网络解决了神经网络结构优化问题。该方案保证每个次要用户根据感知和回报结果做出频谱接入决策。仿真结果表明，在同时存在感知错误和次要用户冲突的多信道情况下，竞争双深度Q网络相比于同类方法具有较好的损失预测模型，其回报更稳定且提高了4%。相似文献

9.

复杂环境下基于推抓协同操作的目标物体抓取

孙先涛唐思宇陈文杰贺春东智亚丽陈伟海《控制理论与应用》2023,40(10):1713-1720

针对现有抓取技术在复杂环境下难以进行有效的目标导向性抓取的问题, 本文提出了一种基于深度强化学习的推动和抓取协同操作的方法. 相对于以往的抓取方法, 本方法使用深度学习来处理Intel-D435i相机所获得的RGB-D图像数据, 同时又在视觉网络中引入了注意力机制, 用来提高系统对工作区域内目标物体的敏感性. 其次,使用深度Q网络来学习UR5机械臂与环境之间的交互过程, 提出了密集奖励策略来评判推动或抓取操作的好坏. 随着训练次数的不断增加, UR5机械臂在训练过程中不断地优化两种操作之间的协同策略, 从而更高效的进行决策.最后, 在V-rep仿真平台上设计了仿真场景, 并进行测试, 平均抓取成功率达到92.5%. 通过与其他几种方法进行对比, 证明该方法可以在复杂环境下较好的完成目标物体的抓取任务. 相似文献

10.

基于时空感知增强的深度Q网络无人水面艇局部路径规划

张目唐俊杨友波陈雨雷印杰《计算机应用研究》2023,40(5):1330-1334

无人水面艇局部路径规划在海事救援、海洋运输等领域中发挥着重要的作用。现有局部路径规划算法在简单场景中取得了不错的效果,但面对环境中存在的复杂障碍物和海流干扰时,性能表现较差。为此,提出了一种基于时空感知增强的深度Q网络强化学习算法,首先,引入多尺度空间注意力模块捕捉距离传感器的多尺度空间信息,提升了复杂障碍物环境的感知能力;其次,利用基于长短时记忆网络的海流感知模块提取海流干扰环境的时间序列特征,增强了对海流干扰的感知能力;此外,对无人水面艇传感器和运动模型进行了模拟,并设计了强化学习状态空间、动作空间和基于方向导引的奖励函数,提升了算法的导航性能和收敛速度。在复杂仿真场景中进行了实验,结果表明,所提算法相比于原始算法在导航成功率和平均到达时间两个指标上均得到了提升,算法表现出较强的复杂环境适应性。相似文献