首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
随着人工智能技术的发展,智能终端已经可以通过频谱感知、通信效果检测分析等方式智能地改变通信手段,进而实现高效率抗干扰,这给传统干扰带来了巨大挑战。而深度强化学习在复杂场景中的探索效率高,面对高难度任务的能力强大,在军事干扰领域应用前景广阔。基于此,介绍深度强化学习、智能干扰方法这两个基本问题的研究现状和存在的难点问题,总结并提出未来基于深度强化学习的智能干扰方法的研究前景和技术展望。  相似文献   

2.
3.
针对传统干扰资源分配算法在处理非线性组合优化问题时需要较完备的先验信息,同时决策维度小,无法满足现代通信对抗要求的问题,该文提出一种融合噪声网络的深度强化学习通信干扰资源分配算法(FNNDRL)。借鉴噪声网络的思想,该算法设计了孪生噪声评估网络,在避免Q值高估的基础上,通过提升评估网络的随机性,保证了训练过程的探索性;基于概率熵的物理意义,设计了基于策略分布熵改进的策略网络损失函数,在最大化累计奖励的同时最大化策略分布熵,避免策略优化过程中收敛到局部最优。仿真结果表明,该算法在解决干扰资源分配问题时优于所对比的平均分配和强化学习方法,同时算法稳定性较高,对高维决策空间适应性强。  相似文献   

4.
5.
王辛果  王昶 《电讯技术》2024,64(7):1065-1071
在车联网中,为了充分利用可用资源,车到车(Vehicle to Vehicle,V2V)链路需要动态地复用固定分配给车到基础设施(Vehicle to Infrastructure,V2I)链路的信道。传统的集中式信道资源分配方法会产生较大的通信开销,也难以适应转瞬即逝的车辆环境。为此,提出了一种基于分布式联邦深度强化学习(Federated Deep Reinforcement Learning,FDRL)的信道资源分配方法。首先,所有V2V智能体基于局部观察的环境信息独立地训练自己的模型,但彼此间保持相同的奖励以激励它们相互协作进而达成全局最优方案;然后,这些V2V智能体通过基站的帮助聚合部分模型参数,以增加接入公平性并加快模型学习效率。通过上述两阶段的迭代训练,每个V2V智能体训练出独特的决斗深度神经网络信道接入决策模型。仿真结果表明,所提出的FDRL方法与现有的优化方法相比具有更高的V2I链路总容量和V2V链路传输成功率。  相似文献   

6.
针对传统深度强化学习算法难以快速解决长时序复杂任务的问题,提出了一种引入历史信息和人类知识的深度强化学习方法,对经典近端策略优化(Proximal Policy Optimization, PPO)强化学习算法进行改进,在状态空间引入历史状态以反映环境的时序变化特征,在策略模型中基于人类认知增加无效动作掩膜,禁止智能体进行无效探索,提高探索效率,从而提升模型的训练性能。仿真结果表明,所提方法能够有效解决长时序复杂任务的智能决策问题,相比传统的深度强化学习算法可显著提高模型收敛效果。  相似文献   

7.
刘兴鑫  李君  李正权 《电讯技术》2024,64(5):693-701
针对信道状态信息未知SWIPT-D2D((Simultaneous Wireless Information and Power Transfer Device to Device)无线通信网络环境下设备间信号干扰以及设备能量损耗问题,提出通过使用近端策略优化(Proximal Policy Optimization, PPO)算法,在满足蜂窝用户通信质量要求的前提下同时对D2D用户的资源块、发射功率以及功率分割比三部分进行联合优化。仿真结果表明,所提算法相比于其他算法能够为D2D用户制定更好的资源分配方案,在保证蜂窝用户保持较高通信速率的同时使D2D用户获得更高的能效。同时,当环境中用户数量增加时,所提算法相比于Dueling Double DQN(Deep Q-Network)以及DQN算法,D2D能效分别平均提高了15.95%和23.59%,当通信网络规模变大时所提算法具有更强的鲁棒性。  相似文献   

8.
为了解决运营商共享网络资源带来的资源分配问题,提出了一种基于深度强化学习(DRL)的在线带宽资源分配算法.该算法将多租户无源光网络(PON)系统映射到DRL模型中,DRL代理通过与环境交互,为各个待处理的带宽请求和当前剩余带宽做决策,并不断更新策略参数直至模型收敛,从而完成算法优化.搭建了仿真系统,对该算法进行了可行性...  相似文献   

9.
曾锋  张政  陈志刚 《通信学报》2023,(7):124-135
为了扩大车载边缘网络的覆盖范围及其计算能力,提出了一种适用于空天地融合车载网的计算卸载架构。考虑计算任务的时延和能耗约束,以及空天地融合车载网的频谱、计算和存储约束,将计算卸载决策和资源分配的联合优化问题建模为一个混合整数非线性规划问题。基于强化学习方法,将原问题转换成一个马尔可夫过程,提出了一种深度强化学习算法以求解该问题,所提算法具有较好的收敛性。仿真结果表明,所提算法在任务时延和成功率方面优于其他算法。  相似文献   

10.
为了研究基于深度强化学习(Deep Reinforcement Learning, DRL)的5G异构网络模型的性能,同时在最小化系统能耗并满足不同类型终端用户的服务质量要求的基础上制定合理的资源分配方案,提出了一种基于DRL的近端策略优化算法,并结合一种基于优先级的分配策略,引入了海量机器类型通信、增强移动宽带和超可靠低延迟通信业务。所提算法相较于Greedy和DQN算法,网络延迟分别降低73.19%和47.05%,能耗分别降低9.55%和6.93%,而且可以保证能源消耗和用户延迟之间的良好权衡。  相似文献   

11.
潘筱茜  张姣  刘琰  王杉  陈海涛  赵海涛  魏急波 《信号处理》2022,38(12):2572-2581
无线通信系统的信道开放性使其极易受到外部恶意干扰、通信链路质量难以保证,针对以上问题,本文设计了一种基于深度强化学习的多域联合干扰规避决策方法。该方法联合频域、功率域、调制编码域三个域的抗干扰手段进行干扰规避,在考虑系统性能的同时实现可靠通信。首先,将联合智能干扰规避问题建模为一个马尔可夫决策过程(MDP, Markov Decision Process),动作空间包含切换信道、功率控制、改变调制编码方式。然后,采用基于剪裁的近端策略优化算法(PPO-Clip, Proximal Policy Optimization-Clip)求解获得系统的最优联合干扰规避策略。PPO-Clip算法在多回合训练中以小数量样本迭代更新,避免了策略梯度算法中步长难以确定和更新差异过大的问题。最后,分别在扫频干扰、随机扫频干扰和智能阻塞干扰环境下验证了所提算法的有效性和可靠性。  相似文献   

12.

为了满足无线数据流量大幅增长的需求,异构云无线接入网(H-CRAN)的资源优化仍然是亟待解决的重要问题。该文在H-CRAN下行链路场景下,提出一种基于深度强化学习(DRL)的无线资源分配算法。首先,该算法以队列稳定为约束,联合优化拥塞控制、用户关联、子载波分配和功率分配,并建立网络总吞吐量最大化的随机优化模型。其次,考虑到调度问题的复杂性,DRL算法利用神经网络作为非线性近似函数,高效地解决维度灾问题。最后,针对无线网络环境的复杂性和动态多变性,引入迁移学习(TL)算法,利用TL的小样本学习特性,使得DRL算法在少量样本的情况下也能获得最优的资源分配策略。此外,TL通过迁移DRL模型的权重参数,进一步地加快了DRL算法的收敛速度。仿真结果表明,该文所提算法可以有效地增加网络吞吐量,提高网络的稳定性。

  相似文献   

13.
针对5G毫米波通信系统资源管理难度大的问题,提出一种基于深度强化学习的毫米波通信系统资源优化分配方法。建立了符合实际应用场景的5G毫米波通信系统模型,模型考虑了移动通信基站、蜂窝用户终端与设备-设备用户终端,同时包含网络服务质量的多个关键因素。以最大下行速率与误码率为约束条件,以最大化系统总吞吐量为目标,利用深度强化学习技术寻找系统的资源分配措施。仿真实验结果表明,该方法通过资源优化分配措施改善了毫米波通信系统的总吞吐量。  相似文献   

14.
基于迁移深度强化学习的低轨卫星跳波束资源分配方案   总被引:1,自引:0,他引:1  
针对低轨(LEO)卫星场景下,传统资源分配方案容易造成特定小区资源分配无法满足需求的问题,该文提出一种基于迁移深度强化学习(TDRL)的低轨卫星跳波束资源分配方案。首先,该方案联合星上缓冲信息、业务到达情况和信道状态,以最小化卫星上数据包平均时延为目标,建立支持跳波束技术的低轨卫星资源分配优化模型。其次,针对低轨卫星网络的动态多变性,该文考虑动态随机变化的通信资源和通信需求,采用深度Q网络(DQN)算法利用神经网络作为非线性近似函数。进一步,为实现并加速深度强化学习(DRL)算法在其他目标任务中的收敛过程,该文引入迁移学习(TL)概念,利用源卫星学习的调度任务快速寻找目标卫星的波束调度和功率分配策略。仿真结果表明,该文所提出的算法能够优化卫星服务过程中的时隙分配,减少数据包的平均传输时延,并有效提高系统的吞吐量和资源利用效率。  相似文献   

15.
徐浩东 《通信技术》2023,(3):298-304
与传统的认知物联网不同,认知车联网(Cognitive Internet of Vehicles,CIoV)的特点是车辆具有高移动性,这就导致了信道状态信息(Channel State Information,CSI)的快速变化,因此难以获得完美的CSI。在这一背景下,研究了CIoV的联合信道分配和功率控制的资源分配问题,旨在最大限度地提高所有车辆用户的总吞吐量。此外,提出了一种混合深度强化学习算法,以解决离散的信道分配和连续的功率控制。仿真实验表明,与其他未考虑未知CSI的方案相比,所提方案有效地提高了CIoV的总吞吐量。  相似文献   

16.
随着第五代通信技术(5G)的发展,各种应用场景不断涌现,而网络切片可以在通用的物理网络上构建多个逻辑独立的虚拟网络来满足移动通信网络多样化的业务需求。为了提高移动通信网络根据各切片业务量实现资源按需分配的能力,本文提出了一种基于深度强化学习的网络切片资源管理算法,该算法使用两个长短期记忆网络对无法实时到达的统计数据进行预测,并提取用户移动性导致的业务数据量动态特征,进而结合优势动作评论算法做出与切片业务需求相匹配的带宽分配决策。实验结果表明,相较于现有方法,该算法可以在保证用户时延和速率要求的同时,将频谱效率提高约7.7%。  相似文献   

17.
针对无人机(UAV)通信过程中存在的高移动性和节点异常问题,该文提出一种基于深度强化学习的无人机可信地理位置路由协议(DTGR)。引入可信第三方提供节点的信任度,使用理论与真实的时延偏差和丢包率作为信任度的评估因子,将路由选择建模为马尔可夫决策过程(MDP),基于节点信任度、地理位置和邻居拓扑信息构建状态空间,然后通过深度Q网络(DQN)输出路由决策。在奖励函数中结合信任度调整动作的价值,引导节点选择最优下一跳。仿真结果表明,在包含异常节点的无人机自组网(UANET)中,DTGR与现有方案相比具有更低的平均端到端时延和更高的包递交率。当异常节点数量或者比例变化时,DTGR能感知环境并高效智能地完成路由决策,保障网络性能。  相似文献   

18.
针对光网络资源分配中频谱资源利用率不高的问题,提出了一种改进的深度Q网络(DQN)强化学习算法。该算法基于ε-greedy策略,根据动作价值函数和状态价值函数的差异来设定损失函数,并不断调整ε值,以改变代理的探索率。通过这种方式,实现了最优的动作值函数,并较好地解决了路由与频谱分配问题。此外,采用了不同的经验池取样方法,以提高迭代训练的收敛速度。仿真结果表明:改进DQN强化学习算法不仅能够使弹性光网络训练模型快速收敛,当业务量为300 Er l ang时,比DQN算法频谱资源利用率提高了10.09%,阻塞率降低了12.41%,平均访问时延减少了1.27 ms。  相似文献   

19.
当前的移动边缘计算资源分配结构多为单向形式,资源分配效率较低,导致资源分配比下降,文中设计了一种基于强化学习的移动边缘计算资源分配方法,并通过实验验证了其有效性。根据当前的测试需求,首先部署了资源采集节点,然后采用多阶的方式,提升整体的资源分配效率,构建多阶迁移资源分配结构,最后设计了移动边缘计算强化学习资源分配模型,采用动态化辅助协作处理的方式来实现资源分配。测试结果表明,对于选定的5个测试周期,经过3个分配组的测定及比对,最终得出的资源分配比均可以达到5.5以上,这说明在强化学习技术的辅助下,文中设计的移动边缘计算资源分配方法更加灵活、多变,针对性较强,具有实际的应用价值。  相似文献   

20.
文章通过深度强化学习的方法来寻求二进制线性编码的有效解码策略.在加性高斯白噪声的条件下,将置信传播(BP)解码算法中软信息的迭代看作是对软信息的连续决策,并将其映射到马尔可夫决策过程,用深度强化学习网络代替传统译码器,扩大探索空间以提高译码性能,从而实现对数据驱动的最佳决策策略的学习.结果表明,相较于传统BP解码器,在...  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号