共查询到20条相似文献,搜索用时 15 毫秒
1.
针对卫星通信系统中的任务调度问题,基于深度强化学习框架提出了一种多分支深度Q网络模型的卫星通信任务调度方法。通过引入任务列表分支网络和资源池分支网络,该模型能够同时提取卫星任务状态和卫星资源池状态的特征,并通过价值分支网络计算动作价值函数;在模型输出部分引入了包括任务选择与资源优先级动作的多个动作的选择,增加了调度动作的选择空间。实验结果表明,在非零浪费和零浪费数据集上,多分支深度Q网络模型与启发式方法相比在提高平均资源占用性能的同时显著降低了运行的时间开销。 相似文献
2.
认知用户通过频谱感知和接入过程识别频谱状态并占用空闲频谱,可有效利用频谱资源。针对频谱感知中存在感知错误和频谱接入中存在用户碰撞的问题,首先建立多用户多信道模型,设计频谱感知和频谱接入过程;然后通过结合双深度Q网络和竞争Q网络,设计竞争双深度Q网络,解决过估计问题的同时优化网络结构;最后通过智能体与所设计模型中状态、观测、回报和策略的交互,完成使用竞争双深度Q网络解决频谱感知和接入问题的一体化研究。仿真结果表明,相比于已有深度强化学习方法,使用竞争双深度Q网络得到的数值结果更稳定且感知正确率和信道利用率都提高了4%。 相似文献
3.
4.
5.
为了实现Agent灵活、自主的运行,Agent必须具有很强的学习能力。在BDI模型基础上,引入Q学习方法调整Agent的动作策略。提出了基于Q学习的自主Agent模型,给出了模型的结构及形式化描述。分析了Agent的学习过程。以方格世界的搜索问题为例,验证了模型的正确性和有效性。 相似文献
6.
针对光网络资源分配中频谱资源利用率不高的问题,提出了一种改进的深度Q网络(DQN)强化学习算法。该算法基于ε-greedy策略,根据动作价值函数和状态价值函数的差异来设定损失函数,并不断调整ε值,以改变代理的探索率。通过这种方式,实现了最优的动作值函数,并较好地解决了路由与频谱分配问题。此外,采用了不同的经验池取样方法,以提高迭代训练的收敛速度。仿真结果表明:改进DQN强化学习算法不仅能够使弹性光网络训练模型快速收敛,当业务量为300 Er l ang时,比DQN算法频谱资源利用率提高了10.09%,阻塞率降低了12.41%,平均访问时延减少了1.27 ms。 相似文献
7.
强化学习是Agent学习中广泛使用的方法,在智能机器人、经济学、工业制造和博弈等领域得到了广泛的应用,但学习速度慢是强化学习的主要不足。迁移学习可从源任务中获得与目标任务相关的知识,利用这些知识去提高学习效率与效果。本文提出Agent地图迁移算法,实现了Agent在不同状态空间下的经验迁移。实现将Agent在简单环境中的学习经验迁移到复杂环境中,实验中验证了算法可加快Agent路径规划速度。 相似文献
8.
频谱感知可以提高认知无线电网络的频谱利用率,但传统的频谱感知方法不能在复杂的通信环境中进行快速的频谱感知.因此,借助计算机计算能力的提升,将深度学习应用于频谱感知,以快速、智能地获得感知结果.首先,介绍在频谱感知中应用较为广泛的深度学习模型,包括卷积神经网络、长短期记忆网络和深度强化学习;其次,对近几年基于深度学习频谱... 相似文献
9.
10.
针对云原生中安全防御策略在动态请求流量下难以兼顾服务质量的问题,提出基于深度强化学习的微服务多维动态防御策略,简称D2RA策略,在流量动态变化时给出兼顾安全防御和服务质量的动态配置方案。首先,基于微服务多副本部署和微服务调用链的特点,建立微服务系统状态图来刻画微服务的请求流量、系统配置与安全性、服务质量、资源开销之间的关系;其次,设计D2RA框架并提出基于深度Q网络的动态策略优化算法,为微服务提供动态请求流量下最优系统配置快速更新方案。仿真实验结果表明,D2RA在动态请求流量下可有效进行资源分配,相对于对比方法在防御有效性和服务质量方面分别取得19.07%和42.31%的优化。 相似文献
11.
针对生鲜农产品零售商库存成本控制问题,将该问题转换为马尔可夫决策过程,引入三参数Weibull函数,描述生鲜农产品的损腐特征,并考虑过期、损腐、缺货、订货和持有等成本,从供应链视角建立生鲜农产品库存成本控制模型,使用深度强化学习中深度双Q网络(Double Deep Q Network, DDQN)优化订货,以控制库存总成本。实验结果表明,相比单周期随机型库存成本控制模型和固定订货量库存成本控制模型,DDQN模型的总成本分别降低约6%和11%,具有实际应用价值。 相似文献
12.
13.
智能网联交通系统中车载用户的高速移动,不可避免地造成了数据在边缘服务器之间频繁迁移,产生了额外的通信回传时延,对边缘服务器的实时计算服务带来了巨大的挑战。为此,该文提出一种基于车辆运动轨迹的快速深度Q学习网络(DQN-TP)边云迁移策略,实现数据迁移的离线评估和在线决策。车载决策神经网络实时获取接入的边缘服务器网络状态和通信回传时延,根据车辆的运动轨迹进行虚拟机或任务迁移的决策,同时将实时的决策信息和获取的边缘服务器网络状态信息发送到云端的经验回放池中;评估神经网络在云端读取经验回放池中的相关信息进行网络参数的优化训练,定时更新车载决策神经网络的权值,实现在线决策的优化。最后仿真验证了所提算法与虚拟机迁移算法和任务迁移算法相比能有效地降低时延。 相似文献
14.
频率分集阵列(Frequency Diversity Array, FDA)雷达由于其阵列元件的频率增量产生了许多新的特性,包括其可以通过发射功率分配进行灵活的发射波形频谱控制。在以扫频干扰为电磁干扰环境的假设下,首先,通过引入强化学习的框架,建立了频率分集阵列?多输入多输出(Frequency Diversity Array?Multiple Input Multiple Output, FDA?MIMO)雷达与电磁干扰环境交互模型,使得FDA?MIMO雷达能够在与电磁环境交互过程中,感知干扰抑制干扰。其次,本文提出了一种基于深度Q网络(Deep Q?Network, DQN)和FDA?MIMO雷达发射功率分配的扫频干扰抑制方法,使得雷达系统能够在充分利用频谱资源的情况下最大化SINR。最后,仿真结果证实,在强化学习框架下,FDA?MIMO雷达能够通过对发射功率分配进行优化,完成干扰抑制,提升雷达性能。 相似文献
15.
借助于移动边缘计算(MEC)和网络虚拟化技术,可使移动端将执行各类复杂应用所需的算力、存储和传输等资源需求就近卸载至边缘服务节点,从而获得更高效的服务体验。面向边缘服务商,研究其在进行复杂任务部署时所面临的能耗优化决策问题。首先将复杂任务部署于多个边缘服务节点的问题建模为混合整数规划(MIP)模型,然后提出了一种融合图到序列的深度强化学习(DRL)求解策略。该策略通过基于图的编码器设计提取并学习子任务间潜在的依赖关系,从而根据边缘服务节点的可用资源状态及使用率自动发现任务部署的通用模式,最终快速获得能耗优化的部署策略。在不同的网络规模中,将所提策略与具代表性的基准策略进行了全面对比。实验结果表明,所提策略在任务部署错误率、MEC系统总功耗和算法求解效率等方面均显著优于基准策略。 相似文献
16.
《电子技术与软件工程》2019,(10)
本文设计描述了三种人脸识别技术:(1)通过肤色模型训练的图像变化技术对图像的人脸区域进行识别并分割出来。(2)Eigenface人脸识别算法的图像表示技术通过输入已知人脸图片,可视化特征脸,与系统相似脸匹配并计算识别准确率。(3)全连接神经网络技术和卷积神经网络技术实现对对输入人脸的识别分析和匹配测试,从系统库里找到与之最相近的的脸,并可视化展示。 相似文献
17.
近年来,深度神经网络以其强大的非线性建模能力,促进了视频压缩领域的发展,促使基于深度学习的视频压缩成为一个备受关注的研究领域。介绍基于深度学习的端到端视频压缩技术及其发展,重点介绍和总结现有的端到端视频压缩框架,并分析未来的端到端视频压缩发展趋势。 相似文献
18.
针对目前网络中有些新闻存在虚假性,缺乏真实性等问题,根据假新闻所包含的数据特征进行分析,选取不同的特征提取方法来针对不同模态数据进行特征提取,并进行特征融合,提出了基于多模态特征融合的检测算法MMDM。首先基于外部信息的文本模态特征提取,然后融合图片物理及语义信息进行特征提取,最后对两个模块特征融合。实验结果表明,多模态特征融合算法检测性能优于其他方法。 相似文献
19.
大数据时代,必然涌现出各种各样的海量数据,而推荐系统是帮助人们选择数据的有效手段之一。目前,以协同过滤算法为代表的传统推荐算法已经无法满足人们的个性化选择的需求。本文利用深度神经网络构建基于深度学习的推荐模型,抽取用户和电影的特征,并且设计一个多层神经网络将用户和电影特征进行深度交互,从而挖掘用户和电影的深层交互关系,得出用户的偏好。通过相关Spark、Flink、Tensorflow等技术实现对深度学习电影推荐系统的构建和部署。研发出了个性化电影推荐系统。 相似文献
20.
针对遥感影像场景分类提出一种改进的中心聚类的深度学习模型,该模型通过改进不同类型特征的距离间隔,提高遥感图像场景分类的性能.与现有其他深度学习模型相比,该模型通过添加聚类中心以及特征与聚类中心的距离间隔约束,设计新的目标函数.新目标函数由交叉熵损失和中心聚类间隔损失构成.通过在两个公共基准数据集上评估所提出的目标函数,... 相似文献