首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
针对传统深度强化学习算法难以快速解决长时序复杂任务的问题,提出了一种引入历史信息和人类知识的深度强化学习方法,对经典近端策略优化(Proximal Policy Optimization, PPO)强化学习算法进行改进,在状态空间引入历史状态以反映环境的时序变化特征,在策略模型中基于人类认知增加无效动作掩膜,禁止智能体进行无效探索,提高探索效率,从而提升模型的训练性能。仿真结果表明,所提方法能够有效解决长时序复杂任务的智能决策问题,相比传统的深度强化学习算法可显著提高模型收敛效果。  相似文献   

2.
为解决如何准确、及时地对移动通信网络扇区进行载波调整的问题,提出了一种基于深度强化学习的扇区扩(减)容算法。采用Model-based强化学习方法,建立了容量指标概率动态模型的多模型组合,利用真实环境的历史数据对模型进行训练,并在此基础上构建了虚拟环境。然后用神经网络构建智能体,并使之与虚拟环境互动,采用短展开技术,产生虚拟样本。最后利用虚拟样本,采用DQN算法对智能体进行策略优化,使其给出扇区扩(减)容操作的建议。实验结果表明,训练后的智能体给出的载波调整建议,达到了较高的正确率。  相似文献   

3.
强化学习通过与环境的交互学得任务的决策策略,具有自学习与在线学习的特点。但交互试错的机制也往往导致了算法的运行效率较低、收敛速度较慢。知识包含了人类经验和对事物的认知规律,利用知识引导智能体(agent)的学习,是解决上述问题的一种有效方法。该文尝试将定性规则知识引入到强化学习中,通过云推理模型对定性规则进行表示,将其作为探索策略引导智能体的动作选择,以减少智能体在状态-动作空间探索的盲目性。该文选用OpenAI Gym作为测试环境,通过在自定义的CartPole-v2中的实验,验证了提出的基于云推理模型探索策略的有效性,可以提高强化学习的学习效率,加快收敛速度。  相似文献   

4.
由于多智能体所处环境动态变化,并且单个智能体的决策也会影响其他智能体,这使得单智能体深度强化学习算法难以在多智能体环境中保持稳定.为了适应多智能体环境,本文利用集中训练和分散执行框架Cen-tralized Training with Decentralized Execution(CTDE),对单智能体深度强化学习算法Soft Actor-Critic(SAC)进行了改进,引入智能体通信机制,构建Multi-Agent Soft Actor-Critic(MASAC)算法.MASAC中智能体共享观察信息和历史经验,有效减少了环境不稳定性对算法造成的影响.最后,本文在协同以及协同竞争混合的任务中,对MASAC算法性能进行了实验分析,结果表明MASAC相对于SAC在多智能体环境中具有更好的稳定性.  相似文献   

5.
当前国内金融市场的投资交易已从基于传统技术分析等方法的主观交易逐渐转向基于程序化的量化策略交易。股票市场已有大量量化策略的研究工作,但针对期货市场的量化交易策略的研究还不足,已有策略在日内高频交易中的投资回报和风险控制还有待优化。为提升期货高频量化策略的盈利和风控能力,文中设计一种期货交易环境,将1 min时间粒度的高频K线作为环境状态,针对期货交易中持仓状态和交易操作构建相应的动作空间及算法;采用基于LSTM的深度强化学习模型LSTM-Dueling DQN,使其更适用于处理序列输入的状态空间,并显著提升模型的学习速度。对DQN、Double DQN、基于全连接神经网络的Dueling DQN(FF-Dueling DQN)三个基准模型进行实验对比,得到文中构建的交易策略在四个黑色系商品期货交易中累计收益率最高达到43%,年化收益率达到153%,最大回撤控制在10.7%以内。实验结果表明,所提策略在震荡行情和趋势行情中都能实现超出业绩基准的超额收益。  相似文献   

6.
随着无人机技术的进一步发展,多无人机编队飞行的研究也受到了越来越多的关注。无人机相互配合组成编队群,可以充分发挥单个无人机所不具备的优势,更能胜任复杂、多任务场景下的工作。对无人机集群编队控制方法进行分类,分为传统控制法、群体智能算法、深度强化学习算法;对各类方法进行分析,着重归纳讨论了领导者-跟随者方法、人工势场法、运动学控制方法、蚁群优化算法、粒子群优化算法、人工蜂群算法、深度Q网络算法、深度确定性策略梯度算法、多智能体深度确定性策略梯度算法,并给出各自的优劣势;对无人机集群编队控制方法进行总结,指出传统控制法已接近成熟,但为了实现无人机的智能自主协同编队控制,仍需在群体智能算法和深度强化学习算法上融合新的思想与改进,从而发挥大数量无人机在复杂场景下的优势。  相似文献   

7.
伍元胜 《电讯技术》2021,61(6):659-665
针对现有智能路由技术无法适用于动态拓扑的不足,提出了一种面向动态拓扑的深度强化学习智能路由技术,通过使用图神经网络近似PPO(Proximal Policy Optimization)强化学习算法中的策略函数与值函数、策略函数输出所有链路的权值、基于链路权值计算最小成本路径的方法,实现了路由智能体对不同网络拓扑的泛化.仿真结果表明,所提方法可适应动态拓扑的变化并具有比传统的最短路由算法更高的网络吞吐量.  相似文献   

8.
针对传统干扰资源分配算法在处理非线性组合优化问题时需要较完备的先验信息,同时决策维度小,无法满足现代通信对抗要求的问题,该文提出一种融合噪声网络的深度强化学习通信干扰资源分配算法(FNNDRL)。借鉴噪声网络的思想,该算法设计了孪生噪声评估网络,在避免Q值高估的基础上,通过提升评估网络的随机性,保证了训练过程的探索性;基于概率熵的物理意义,设计了基于策略分布熵改进的策略网络损失函数,在最大化累计奖励的同时最大化策略分布熵,避免策略优化过程中收敛到局部最优。仿真结果表明,该算法在解决干扰资源分配问题时优于所对比的平均分配和强化学习方法,同时算法稳定性较高,对高维决策空间适应性强。  相似文献   

9.
在城市轨道交通列车控制系统中,车车(T2T)通信作为新一代列车通信模式,利用列车间直接通信来降低通信时延,提高列车运行效率。在T2T通信与车地(T2G)通信并存场景下,针对复用T2G链路产生的干扰问题,在保证用户通信质量的前提下,该文提出一种基于多智能体深度强化学习(MADRL)的改进优势演员-评论家(A2C-ac)资源分配算法。首先以系统吞吐量为优化目标,以T2T通信发送端为智能体,策略网络采用分层输出结构指导智能体选择需复用的频谱资源和功率水平,然后智能体做出相应动作并与T2T通信环境交互,得到该时隙下T2G用户和T2T用户吞吐量,价值网络对两者分别评价,利用权重因子β为每个智能体定制化加权时序差分(TD)误差,以此来灵活优化神经网络参数。最后,智能体根据训练好的模型联合选出最佳的频谱资源和功率水平。仿真结果表明,该算法相较于A2C算法和深度Q网络(DQN)算法,在收敛速度、T2T成功接入率、吞吐量等方面均有明显提升。  相似文献   

10.
潘筱茜  张姣  刘琰  王杉  陈海涛  赵海涛  魏急波 《信号处理》2022,38(12):2572-2581
无线通信系统的信道开放性使其极易受到外部恶意干扰、通信链路质量难以保证,针对以上问题,本文设计了一种基于深度强化学习的多域联合干扰规避决策方法。该方法联合频域、功率域、调制编码域三个域的抗干扰手段进行干扰规避,在考虑系统性能的同时实现可靠通信。首先,将联合智能干扰规避问题建模为一个马尔可夫决策过程(MDP, Markov Decision Process),动作空间包含切换信道、功率控制、改变调制编码方式。然后,采用基于剪裁的近端策略优化算法(PPO-Clip, Proximal Policy Optimization-Clip)求解获得系统的最优联合干扰规避策略。PPO-Clip算法在多回合训练中以小数量样本迭代更新,避免了策略梯度算法中步长难以确定和更新差异过大的问题。最后,分别在扫频干扰、随机扫频干扰和智能阻塞干扰环境下验证了所提算法的有效性和可靠性。   相似文献   

11.
针对网络功能虚拟化/软件定义网络(NFV/SDN)架构下,网络服务请求动态到达引起的服务功能链(SFC)部署优化问题,该文提出一种基于改进深度强化学习的虚拟网络功能(VNF)部署优化算法.首先,建立了马尔科夫决策过程(MDP)的随机优化模型,完成SFC的在线部署以及资源的动态分配,该模型联合优化SFC部署成本和时延成本,同时受限于SFC的时延以及物理资源约束.其次,在VNF部署和资源分配的过程中,存在状态和动作空间过大,以及状态转移概率未知等问题,该文提出了一种基于深度强化学习的VNF智能部署算法,从而得到近似最优的VNF部署策略和资源分配策略.最后,针对深度强化学习代理通过ε贪婪策略进行动作探索和利用,造成算法收敛速度慢等问题,提出了一种基于值函数差异的动作探索和利用方法,并进一步采用双重经验回放池,解决经验样本利用率低的问题.仿真结果表示,该算法能够加快神经网络收敛速度,并且可以同时优化SFC部署成本和SFC端到端时延.  相似文献   

12.
针对网络功能虚拟化/软件定义网络 (NFV/SDN)架构下,网络服务请求动态到达引起的服务功能链(SFC)部署优化问题,该文提出一种基于改进深度强化学习的虚拟网络功能(VNF)部署优化算法。首先,建立了马尔科夫决策过程 (MDP)的随机优化模型,完成SFC的在线部署以及资源的动态分配,该模型联合优化SFC部署成本和时延成本,同时受限于SFC的时延以及物理资源约束。其次,在VNF部署和资源分配的过程中,存在状态和动作空间过大,以及状态转移概率未知等问题,该文提出了一种基于深度强化学习的VNF智能部署算法,从而得到近似最优的VNF部署策略和资源分配策略。最后,针对深度强化学习代理通过ε贪婪策略进行动作探索和利用,造成算法收敛速度慢等问题,提出了一种基于值函数差异的动作探索和利用方法,并进一步采用双重经验回放池,解决经验样本利用率低的问题。仿真结果表示,该算法能够加快神经网络收敛速度,并且可以同时优化SFC部署成本和SFC端到端时延。  相似文献   

13.
针对正交频分复用系统,提出了一种基于深度强化学习的自适应导频设计算法。将导频设计问题映射为马尔可夫决策过程,导频位置的索引定义为动作,用基于减少均方误差的策略定义奖励函数,使用深度强化学习来更新导频位置。根据信道条件自适应地动态分配导频,从而利用信道特性对抗信道衰落。仿真结果表明,所提算法在3GPP的3种典型多径信道下相较于传统导频均匀分配方案信道估计性能有显著的提升。  相似文献   

14.
为提高复杂电磁环境下跳频异步组网的抗干扰性能,该文提出一种基于集中式训练和分散式执行框架的多智能体模糊深度强化学习(MFDRL-CTDE)算法。针对多种干扰并存的复杂电磁环境和异步组网结构,设计了相应的状态-动作空间和奖赏函数。为应对智能体之间的相互影响和动态的环境,引入集中式训练和分散式执行(CTDE)框架。该文提出基于模糊推理系统的融合权重分配策略,用于解决网络融合过程中各智能体的权重分配问题。采用竞争性深度Q网络算法和优先经验回放技术以提高算法的效率。仿真结果表明,该算法在收敛速度和最佳性能方面都具有较大优势,且对多变复杂电磁环境具有较好的适应性。  相似文献   

15.
设计了一种5G电力虚拟专网和数字孪生相结合的系统架构,并考虑了终端数字孪生时同步的构建方法,提出了一种分层多智能强化学习算法。该算法决定分配给电力用户终端的资源和数字孪生体的放置,上层通过深度Q网络实现切片通信资源的分配,下层通过多智能体深度强化学习实现电力用户终端的数字孪生体放置。实验结果表明,所提出的分层多智能体算法在电力用户终端数字孪生体的同步强度上能获得较好的系统收益。  相似文献   

16.
该文从物理层安全的角度出发研究了智能超表面(RIS)辅助的无人机(UAV) 3D轨迹优化。具体地说,当RIS辅助的UAV向地面用户进行无线传输时,通过联合优化RIS相移和UAV的3D轨迹来最大化物理层安全速率。然而,由于目标函数是非凸的,传统的优化技术很难直接求解。深度强化学习能够处理无线通信中动态复杂的优化问题,该文基于强化学习双深度Q网络(DDQN)设计一种联合优化RIS相移和无人机3D轨迹算法,最大化可实现的平均安全速率。仿真结果表明,所设计的RIS辅助UAV通信优化算法可以获得比固定飞行高度的连续凸逼近算法(SCA)、随机相移下的RIS算法和没有RIS的算法有更高的安全速率。  相似文献   

17.
针对设备到设备(D2D)缓存中基站信号覆盖范围有限导致的难以获得足够数据来预测用户偏好的问题,提出了一种基于图协同过滤模型的D2D协作缓存策略。首先,构建图协同过滤模型,通过多层图卷积神经网络捕捉用户-内容交互图中的高阶连通信息,并利用多层感知机学习用户和内容之间的非线性关系来预测用户偏好。其次,为了最小化平均访问时延,综合考虑用户偏好和缓存时延收益,将缓存内容放置问题建模为马尔可夫决策过程模型,设计基于深度强化学习的协作缓存算法进行求解。仿真实验表明,与现有的缓存策略相比,所提缓存策略在不同的内容种类、用户密度和D2D通信距离参数下均取得了最优的性能效果。  相似文献   

18.
针对NFV/SDN架构下,服务功能链(SFC)的资源需求动态变化引起的虚拟网络功能(VNF)迁移优化问题,该文提出一种基于深度强化学习的VNF迁移优化算法.首先,在底层CPU、带宽资源和SFC端到端时延约束下,建立基于马尔可夫决策过程(MDP)的随机优化模型,该模型通过迁移VNF来联合优化网络能耗和SFC端到端时延.其次,由于状态空间和动作空间是连续值集合,提出一种基于深度确定性策略梯度(DDPG)的VNF智能迁移算法,从而得到近似最优的VNF迁移策略.仿真结果表明,该算法可以实现网络能耗和SFC端到端时延的折中,并提高物理网络的资源利用率.  相似文献   

19.
针对NFV/SDN架构下,服务功能链(SFC)的资源需求动态变化引起的虚拟网络功能(VNF)迁移优化问题,该文提出一种基于深度强化学习的VNF迁移优化算法。首先,在底层CPU、带宽资源和SFC端到端时延约束下,建立基于马尔可夫决策过程(MDP)的随机优化模型,该模型通过迁移VNF来联合优化网络能耗和SFC端到端时延。其次,由于状态空间和动作空间是连续值集合,提出一种基于深度确定性策略梯度(DDPG)的VNF智能迁移算法,从而得到近似最优的VNF迁移策略。仿真结果表明,该算法可以实现网络能耗和SFC端到端时延的折中,并提高物理网络的资源利用率。  相似文献   

20.
针对现在工程项目中测向阵列基线的布阵方法存在耗时耗力、严重依赖于技术人员测向经验且复杂测向阵列难以设计等问题,提出了一种利用深度强化学习方法实现测向阵列基线自动生成技术。基于相关干涉仪测向机制,采用深度强化学习方法构建测向布阵智能体,重点突破多场景多实体仿真建模、布阵智能体构建、测向效能评估等关键技术;利用强化学习反复试错机理,迭代优化得到符合指标的最优测向阵列,大大提高布阵效率和测向质量,并通过实验证明了该方法的有效性。采用该技术设计的阵列基线已在实际项目中进行测向试验验证,各项指标均满足实际工程应用要求。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号