排序方式: 共有38条查询结果,搜索用时 359 毫秒
1.
针对深度确定性策略梯度算法(DDPG)收敛速度比较慢,训练不稳定,方差过大,样本应用效率低的问题,提出了一种基于随机方差减小梯度方法的深度确定性策略梯度算法(SVR-DDPG)。该算法通过利用随机方差减小梯度技术(SVRG)提出一种新的创新优化策略,将之运用到DDPG算法之中,在DDPG算法的参数更新过程中,加入了随机方差减小梯度技术,利用该方法的更新方式,使得估计的梯度方差有一个不断减小的上界,令方差不断缩小,从而在小的随机训练子集的基础上找到更加精确的梯度方向,以此来解决了由近似梯度估计误差引发的问题,加快了算法的收敛速度。将SVR-DDPG算法以及DDPG算法应用于Pendulum和Mountain Car问题,实验结果表明,SVR-DDPG算法具有比原算法更快的收敛速度,更好的稳定性,以此证明了算法的有效性。 相似文献
2.
针对边缘计算中边缘计算节点与终端设备之间的通信容易受到假冒攻击的安全问题,提出了一种基于深度Q网络(DQN)的物理层假冒攻击检测算法。首先,构建边缘计算网络中的假冒攻击模型,接收端基于物理层信道状态信息(CSI)建立假设检验,并将当前测量得到的CSI和上次记录的CSI之间的欧氏距离作为检验统计量;其次,利用DQN算法以接收端回报最大化为目标自适应地为边缘计算动态网络环境筛选出当前最优检测阈值;最后,通过对比检验统计量与检测阈值来判断当前发送端是否为假冒攻击者。仿真结果表明,信干噪比(SINR)和信道增益比对检测算法性能有一定的影响,但在信道增益相对变化不超过0.2时,误报率、漏检率和平均错误率低于5%,因此该检测算法能够自适应边缘计算动态变化的网络环境。 相似文献
3.
In order to achieve the best balance between latency,computational rate and energy consumption,for a edge access network of IoV,a distribution offloading algorithm based on deep Q network (DQN) was considered.Firstly,these tasks of different vehicles were prioritized according to the analytic hierarchy process (AHP),so as to give different weights to the task processing rate to establish a relationship model.Secondly,by introducing edge computing based on DQN,the task offloading model was established by making weighted sum of task processing rate as optimization goal,which realized the long-term utility of strategies for offloading decisions.The performance evaluation results show that,compared with the Q-learning algorithm,the average task processing delay of the proposed method can effectively improve the task offload efficiency. 相似文献
4.
强化学习问题中,同一状态下不同动作所对应的状态-动作值存在差距过小的现象,Q-Learning算法采用MAX进行动作选择时会出现过估计问题,且结合了Q-Learning的深度Q网络(Deep Q Net)同样存在过估计问题。为了缓解深度Q网络中存在的过估计问题,提出一种基于优势学习的深度Q网络,通过优势学习的方法构造一个更正项,利用目标值网络对更正项进行建模,同时与深度Q网络的评估函数进行求和作为新的评估函数。当选择的动作是最优动作时,更正项为零,不对评估函数的值进行改动,当选择的动作不是最优动作时,更正项的值为负,降低了非最优动作的评估值。和传统的深度Q网络相比,基于优势学习的深度Q网络在Playing Atari 2600的控制问题breakout、seaquest、phoenix、amidar中取得了更高的平均奖赏值,在krull、seaquest中取得了更加稳定的策略。 相似文献
5.
电力是指以电能作为动力的能源,完整的电力系统包括发电、输电、变电、配电和用电等环节。电力是关系国计民生的基础产业,电力供应和安全事关国家安全战略,事关经济社会发展全局。工业自动化和控制系统(简称“工控”)作为电力的感官和中枢神经系统,确保其网络安全,使其始终处于稳定可靠运行状态,对于保障电力安全运营至关重要。由于大部分网络都是高度互联的,因此都易受到网络攻击的威胁。虽然基于网络的入侵检测系统可以将入侵警告和安全响应进行很好的结合,但是随着技术的不断发展,攻击变得越来越普遍且难以检测,其中逃逸技术就是这类技术的一个代表,它可以通过伪装修改网络数据流以此来逃避入侵检测系统的检测。结合所学知识和电力工控网络的特点,提出一种基于深度强化学习的电力工控网络入侵检测系统,深度强化学习的算法融合神经网络和Q-learning的方法来对网络中的异常现象进行训练,通过训练使系统能及时地检测出入侵行为并发出警告。 相似文献
6.
天然气站场中的仪表是工人和设备交互的窗口,可以反映工厂的运行状况;但是站场很多老式仪表不能远程读取示数,采用人工方法读取则浪费人力,需要对其进行智能化的读数研究;针对上述问题,采用了一种基于四足机器人作为载体运动控制,并通过深度强化学习(DQN)进行目标追踪任务和图像处理来读取仪表示数的新方法;首先通过改进的DQN算法的深度网络模型,根据仿真的环境中机器人学习效果,设计并调整动作奖励函数,设计机器人顶层决策控制系统;实现一维与二维状态参数输入下的仪表目标追踪任务;其次在仪表定位和仪表配准的基础上,通过K-means聚类二值化处理得到刻度分明的表盘;将图像进行内切圆处理,再在图像中间添加一根指针进行旋转,旋转过程中精确计算指针与表盘重合度最高的角度来得到对应刻度;经过实验表明,此算法可实现运动过程中仪表目标的精准追踪和降低计算时间,并大大提高了仪表追踪与识别的精度和效率,为天然气站场的仪表安全监控提供了有效保障。 相似文献
7.
针对边缘计算中边缘计算节点与终端设备之间的通信容易受到假冒攻击的安全问题,提出了一种基于深度Q网络(DQN)的物理层假冒攻击检测算法。首先,构建边缘计算网络中的假冒攻击模型,接收端基于物理层信道状态信息(CSI)建立假设检验,并将当前测量得到的CSI和上次记录的CSI之间的欧氏距离作为检验统计量;其次,利用DQN算法以接收端回报最大化为目标自适应地为边缘计算动态网络环境筛选出当前最优检测阈值;最后,通过对比检验统计量与检测阈值来判断当前发送端是否为假冒攻击者。仿真结果表明,信干噪比(SINR)和信道增益比对检测算法性能有一定的影响,但在信道增益相对变化不超过0.2时,误报率、漏检率和平均错误率低于5%,因此该检测算法能够自适应边缘计算动态变化的网络环境。 相似文献
8.
现有的任务卸载策略通常在一个时隙内制定卸载决策,没有考虑多个卸载时隙间的内在联系,因此无法根据任务的实际需求进行卸载。针对该问题,提出了一种基于深度强化学习的任务二次申请卸载策略(DQN-TSAO)。首先提出了一种支持任务进行二次申请卸载的云边端三层架构,建立了任务卸载优先级模型、时延模型和能耗模型;然后以最小化系统能耗为目标,将能耗优化问题转变为最大累积卸载奖励的马尔可夫决策过程;最后通过DQN-TSAO算法提取各个时隙的任务卸载特征,使任务在与环境不断交互的过程中获得多个时隙内的最佳卸载决策。仿真结果表明DQN-TSAO算法能够有效降低一段时间内的系统总能耗。 相似文献
9.
深度强化学习探索问题中,需要根据环境给予的外部奖赏以作出决策,而在稀疏奖赏环境下,训练初期将获取不到任何信息,且在训练后期难以动态地结合已获得的信息对探索策略进行调整。为缓解这个问题,提出优先状态估计方法,在对状态进行访问时给予优先值,结合外部奖赏一并存入经验池中,引导探索的策略方向。结合DDQN(Double Deep Q Network)与优先经验回放,在OpenAI Gym中的MountainCar经典控制问题与Atari 2600中的FreeWay游戏中进行对比实验,结果表明该方法在稀疏奖赏环境中具有更好的学习性能,取得了更高的平均分数。 相似文献
10.
针对炼钢车间天车任务产生的动态不确定性,提出了基于深度强化学习算法的炼钢车间天车调度方法。首先,基于强化学习将天车调度问题转化为对天车操作动作序列的求解,采用DQN(Deep Q-network)算法构建动作价值网络模型进行求解;然后,以某钢厂出钢跨天车调度为研究对象,以任务完成总时间最短为目标,介绍了基于深度强化学习的天车调度方法的具体设计;最后,采用实际数据对天车动作价值网络模型进行训练,与目前现场广泛使用的基于固定分区的天车调度方案进行仿真试验对比。结果表明,基于深度强化学习的天车调度方法在任务完成总时间上减少了11.52%,提高了天车任务的完成效率,说明了方法的可行性和优化性,为天车调度研究提供了新的思路。 相似文献