期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

刘兴鑫李君李正权《电讯技术》2024,64(5):693-701

针对信道状态信息未知SWIPT-D2D((Simultaneous Wireless Information and Power Transfer Device to Device)无线通信网络环境下设备间信号干扰以及设备能量损耗问题,提出通过使用近端策略优化(Proximal Policy Optimization, PPO)算法,在满足蜂窝用户通信质量要求的前提下同时对D2D用户的资源块、发射功率以及功率分割比三部分进行联合优化。仿真结果表明,所提算法相比于其他算法能够为D2D用户制定更好的资源分配方案,在保证蜂窝用户保持较高通信速率的同时使D2D用户获得更高的能效。同时,当环境中用户数量增加时,所提算法相比于Dueling Double DQN(Deep Q-Network)以及DQN算法,D2D能效分别平均提高了15.95%和23.59%,当通信网络规模变大时所提算法具有更强的鲁棒性。相似文献

2.

基于SAC的多智能体深度强化学习算法

肖硕黄珍珍张国鹏杨树松江海峰李天旭《电子学报》2021,49(9):1675-1681

由于多智能体所处环境动态变化,并且单个智能体的决策也会影响其他智能体,这使得单智能体深度强化学习算法难以在多智能体环境中保持稳定.为了适应多智能体环境,本文利用集中训练和分散执行框架Cen-tralized Training with Decentralized Execution(CTDE),对单智能体深度强化学习算法Soft Actor-Critic(SAC)进行了改进,引入智能体通信机制,构建Multi-Agent Soft Actor-Critic(MASAC)算法.MASAC中智能体共享观察信息和历史经验,有效减少了环境不稳定性对算法造成的影响.最后,本文在协同以及协同竞争混合的任务中,对MASAC算法性能进行了实验分析,结果表明MASAC相对于SAC在多智能体环境中具有更好的稳定性. 相似文献

3.

多智能体强化学习方法综述

下载免费PDF全文

陈人龙陈嘉礼李善琦谭营《信息对抗技术》2024,(1):18-32

在自动驾驶、团队配合游戏等现实场景的序列决策问题中，多智能体强化学习表现出了优秀的潜力。然而，多智能体强化学习面临着维度灾难、不稳定性、多目标性和部分可观测性等挑战。为此，概述了多智能体强化学习的概念与方法，并整理了当前研究的主要趋势和研究方向。研究趋势包括CTDE范式、具有循环神经单元的智能体和训练技巧。主要研究方向涵盖混合型学习方法、协同与竞争学习、通信与知识共享、适应性与鲁棒性、分层与模块化学习、基于博弈论的方法以及可解释性。未来的研究方向包括解决维度灾难问题、求解大型组合优化问题和分析多智能体强化学习算法的全局收敛性。这些研究方向将推动多智能体强化学习在实际应用中取得更大的突破。相似文献

4.

基于多智能体强化学习的动态频谱分配方法

童乐梁涛张余钱鹏智《太赫兹科学与电子信息学报》2021,19(4):573-580

针对认知无线电网络中多个异质用户具有不同的服务质量(QoS)要求,提出一种基于多智能体强化学习的动态频谱分配方法.该方法从用户满意度角度出发,以用户体验质量(QoE)作为系统的评价指标,构建多个虚拟智能体,模拟多个用户以合作方式与环境进行交互学习,融合各个用户的学习和频谱决策结果,实现频谱资源优化分配.仿真结果表明,在... 相似文献

5.

基于多智能体深度强化学习的分布式协同干扰功率分配算法

《电子学报》2022,50(6)

相似文献

6.

智能电网中基于多智能体强化学习的频谱分配算法

燕锋林晓薇李正浩徐霞夏玮玮沈连丰《通信学报》2023,(9):12-24

针对智能电网中利用5G网络承载多样化电力终端的业务需求,提出了一种基于多智能体强化学习的频谱分配算法。首先,基于智能电网中部署的集成接入回程系统,考虑智能电网中轻量化和非轻量化终端业务的不同通信需求,将频谱分配问题建模为最大化系统总能效的非凸混合整数规划。其次,将前述问题构建为一个部分可观测的马尔可夫决策过程并转换为完全协作的多智能体问题,进而提出了一种集中训练分布执行框架下基于多智能体近端策略优化的频谱分配算法。最后,通过仿真验证了所提算法的性能。仿真结果表明,所提算法具有更快的收敛速度,通过有效减少层内与层间干扰、平衡接入与回程链路速率,可以将系统总速率提高25.2%。相似文献

7.

基于多智能体强化学习的混合博弈模式下多无人机辅助通信系统设计

吴官翰贾维敏赵建伟高飞飞姚敏立《电子与信息学报》2022,44(3):940-950

空天地一体化通信作为未来6G的发展方向,很好地弥补了当前无线通信覆盖不足的弊端。该文提出一种基于多智能体强化学习(MARL)的多无人机(Multi-UAV)辅助通信算法,在用户与无人机(UAVs)构成的混合博弈模式下求解纳什均衡近似解,解决了动态环境下UAVs轨迹设计、多维资源调度以及用户接入策略联合优化问题。结合马尔可夫博弈概念建模该连续决策过程,以集中训练分布式执行(CTDE)机制,将近端策略优化(PPO)算法扩展到多智能体领域。针对离散与连续共存的动作空间设计了两种策略输出模式,并且结合Beta策略改进实现,最后通过仿真实验验证了算法的有效性。相似文献

8.

基于多智能体深度强化学习的无人机动态预部署策略

唐伦李质萱蒲昊汪智平陈前斌《电子与信息学报》2023,45(6):2007-2015

针对传统优化算法在求解长时间尺度内通信无人机(UAV)动态部署时复杂度过高且难以与动态环境信息匹配等缺陷,该文提出一种基于多智能体深度强化学习(MADRL)的UAV动态预部署策略。首先利用一种深度时空网络模型预测用户的预期速率需求以捕捉动态环境信息,定义用户满意度的概念以刻画用户所获得UAV提供服务的公平性,并以最大化长期总体用户满意度和最小化UAV移动及发射能耗为目标建立优化模型。其次,将上述模型转化为部分可观测马尔科夫博弈过程(POMG),并提出一种基于MADRL的H-MADDPG算法求解该POMG中轨迹规划、用户关联和功率分配的最佳决策。该H-MADDPG算法使用混合网络结构以实现对多模态输入的特征提取,并采用集中式训练-分布式执行的机制以高效地训练和执行决策。最后仿真结果证明了所提算法的有效性。相似文献

9.

基于多智能体强化学习的空地网络抗干扰传输方法研究

廖程建刘思懿赵晨羽张果侯宏伟朱瀚然夏晓晨许魁《移动通信》2024,(1):71-78

提出了一种基于多智能体强化学习的抗干扰传输算法,旨在抵御空地一体化网络中的功率干扰,使所有用户的可达速率之和最大化。将优化问题转化为部分可观察马尔可夫决策过程问题,采用了集中式训练和分布式执行框架。在集中式训练过程中,每个智能体与环境交互获得的经验存储在经验回放池中,用于训练演员-评论员网络。在分布式执行过程中,每架无人机使用经过训练的演员网络根据观测结果输出动作,并调整其飞行位置和传输功率以提供联合服务。采用基于剪切和计数的改进近端策略优化算法来更新演员-评论员网络参数,使其在复杂的多智能体环境中更加有效。仿真结果表明,所提算法相较于对比算法具有更快的收敛速度,且在相同干扰条件下,所提算法比对比算法获取的用户可达和速率提升约68.9%。相似文献

10.

基于多智能体深度强化学习的智能电网光网络切片方案

戚银城唐奕明《半导体光电》2022,43(5):979-985

为了提高光网络对大规模、差异化电力业务的资源分配能力,降低大规模业务的算法训练时间,提出了一种基于多智能体深度确定性策略梯度算法的智能电网光网络资源分配方案。该方案考虑大规模和差异化电力业务,将智能电网光网络建模成多智能体系统,以最大化电网公司收益为目标,建立了智能电网光核心网络切片模型,进行网络资源分配优化,并采用条件判断映射,简化了优化问题。同时,把不同业务部署到不同智能体中进行运算,以降低训练时间,满足网络实时性需求。仿真结果表明,该算法具有更大的奖励、更低的成本、时延和训练时间。相似文献

11.

一种采用联邦深度强化学习的车联网资源分配方法

王辛果王昶《电讯技术》2024,64(7):1065-1071

在车联网中,为了充分利用可用资源,车到车(Vehicle to Vehicle,V2V)链路需要动态地复用固定分配给车到基础设施(Vehicle to Infrastructure,V2I)链路的信道。传统的集中式信道资源分配方法会产生较大的通信开销,也难以适应转瞬即逝的车辆环境。为此,提出了一种基于分布式联邦深度强化学习(Federated Deep Reinforcement Learning,FDRL)的信道资源分配方法。首先,所有V2V智能体基于局部观察的环境信息独立地训练自己的模型,但彼此间保持相同的奖励以激励它们相互协作进而达成全局最优方案;然后,这些V2V智能体通过基站的帮助聚合部分模型参数,以增加接入公平性并加快模型学习效率。通过上述两阶段的迭代训练,每个V2V智能体训练出独特的决斗深度神经网络信道接入决策模型。仿真结果表明,所提出的FDRL方法与现有的优化方法相比具有更高的V2I链路总容量和V2V链路传输成功率。相似文献

12.

基于非均衡求解的D2D多复用通信资源块分配算法研究

钱志鸿胡良帅田春生王雪《电子与信息学报》2019,41(12):2810-2816

针对小区内D2D多复用的通信资源块分配问题,该文以一个D2D用户分别复用2个和3个蜂窝为基础,提出基于非均衡求解的D2D多复用模式下的资源块分配方案。利用博弈论将资源块划分问题转化为求解被复用蜂窝用户收益联合最大问题。当纳什均衡解不存在时,分析目标函数特性,在可行域内求解“最优解”,保证对不均衡解处理的最优性;对于均衡解存在的情况,将其取整后作为资源分配方案依据,保持其最优性。通过理论分析及仿真实验表明该算法可以提升系统吞吐率,提高小区通信性能。相似文献

13.

考虑能耗中断的无人机通信中基于深度强化学习的资源管理

罗佳陈前斌唐伦张志才《电子与信息学报》2023,45(8):2885-2892

最新研究表明,高速传输导致的手机温度变化会影响相应的传输性能。针对高速传输下未考虑与手机温度有关的能耗中断而导致传输性能降低的问题,该文提出一种基于深度强化学习的资源管理方案去考虑无人机(UAV)通信场景下的能耗中断。首先,给出无人机通信的网络模型与智能手机热传递模型的分析;其次,将能耗中断的影响以约束条件的形式整合到无人机场景的优化问题中,并通过联合考虑带宽分配、功率分配和轨迹设计优化系统吞吐量;最后,采用马尔可夫决策过程描述相应的优化问题并通过名为归一化优势函数的深度强化学习算法求解。仿真表明,所提方案能有效提升系统吞吐量并得到合理的无人机飞行轨迹。相似文献

14.

异构网络中基于能效优化的D2D资源分配机制

张达敏张绘娟闫威陈忠云辛梓芸《电子与信息学报》2020,42(2):480-487

针对异构网络中D2D通信复用蜂窝用户频谱时存在的频谱分配问题,该文提出一种基于改进离散鸽群优化(PIO)算法的D2D通信资源分配机制。通过设置信干噪比(SINR)门限值来保证用户的通信服务质量(QoS),采用功率控制算法为用户设置发射功率,使用基于运动权值的二进制离散鸽群优化(MWBPIO)算法为D2D用户进行资源分配,并将D2D通信技术与中继技术进行有效结合,为边缘用户建立D2D中继链路,保证边缘用户的通信质量,最大化系统性能目标。仿真结果表明,该方案有效抑制了异构通信系统中引入D2D用户后导致的干扰问题,提高了边缘用户的通信质量和系统的频谱利用率以及系统的能效。

相似文献

15.

云雾混合网络下基于多智能体架构的资源分配及卸载决策研究

陈前斌谭颀贺兰钦唐伦《电子与信息学报》2021,43(9):2654-2662

针对D2D辅助的云雾混合架构下资源分配及任务卸载决策优化问题,该文提出一种基于多智能体架构深度强化学习的资源分配及卸载决策算法。首先,该算法考虑激励约束、能量约束以及网络资源约束,联合优化无线资源分配、计算资源分配以及卸载决策,建立了最大化系统总用户体验质量(QoE)的随机优化模型,并进一步将其转化为MDP问题。其次,该算法将原MDP问题进行因式分解,并建立马尔可夫博弈模型。然后,基于行动者-评判家(AC)算法提出一种集中式训练、分布式执行机制。在集中式训练过程中,多智能体通过协作获取全局信息,实现资源分配及任务卸载决策策略优化,在训练过程结束后,各智能体独立地根据当前系统状态及策略进行资源分配及任务卸载。最后,仿真结果表明,该算法可以有效提升用户QoE,并降低了时延及能耗。相似文献

16.

基于加权二部图及贪婪策略的蜂窝网络D2D通信资源分配

申滨孙万平张楠崔太平《电子与信息学报》2023,45(3):1055-1064

D2D(Device-to-Device)通信是解决频谱资源稀缺问题的关键技术之一。该文研究蜂窝网络中“many-to-many”的复杂场景,即单个RB(Resource Block)可以分配给多对D2D用户重用,并且允许单个D2D用户对使用多个RB,其中D2D用户对数量远多于蜂窝用户设备(Cellular User Equipment, CUE)数量和RB数量。考虑CUE对资源使用具有更高优先级,将此优化问题分解为蜂窝用户资源分配和D2D用户资源重用两个阶段。在第1阶段,提出基于公平性的循环二部图匹配(Fairness-based Circular Bipartite Graph Matching, FCBGM)算法,将现有的RB分配给所有CUE,以最大化蜂窝用户和速率。在第2阶段,分别提出基于二部图的资源重用(Bipartite Graph-based Resource Reuse, BGRR)算法和基于贪婪策略的资源重用(Greedy-based Resource Reuse, GRR)算法,目标是将已经分配给CUE的RB再次分配给D2D用户重用,以最大化系统和速率,同时确保CUE的基本速率需求。仿真结果表明,在D2D用户对数量远大于CUE数量和RB数量的情况下,与现有典型算法相比,所提算法能够有效提高系统和速率,增加D2D接入率,同时兼顾用户公平性和服务质量需求。相似文献

17.

基于迁移深度强化学习的低轨卫星跳波束资源分配方案 总被引：1，自引：0，他引：1

陈前斌麻世庆段瑞吉唐伦梁承超《电子与信息学报》2023,45(2):407-417

针对低轨(LEO)卫星场景下,传统资源分配方案容易造成特定小区资源分配无法满足需求的问题,该文提出一种基于迁移深度强化学习(TDRL)的低轨卫星跳波束资源分配方案。首先,该方案联合星上缓冲信息、业务到达情况和信道状态,以最小化卫星上数据包平均时延为目标,建立支持跳波束技术的低轨卫星资源分配优化模型。其次,针对低轨卫星网络的动态多变性,该文考虑动态随机变化的通信资源和通信需求,采用深度Q网络(DQN)算法利用神经网络作为非线性近似函数。进一步,为实现并加速深度强化学习(DRL)算法在其他目标任务中的收敛过程,该文引入迁移学习(TL)概念,利用源卫星学习的调度任务快速寻找目标卫星的波束调度和功率分配策略。仿真结果表明,该文所提出的算法能够优化卫星服务过程中的时隙分配,减少数据包的平均传输时延,并有效提高系统的吞吐量和资源利用效率。相似文献

18.

一种融合噪声网络的深度强化学习通信干扰资源分配算法

彭翔许华蒋磊饶宁宋佰霖《电子与信息学报》2023,45(3):1043-1054

针对传统干扰资源分配算法在处理非线性组合优化问题时需要较完备的先验信息,同时决策维度小,无法满足现代通信对抗要求的问题,该文提出一种融合噪声网络的深度强化学习通信干扰资源分配算法(FNNDRL)。借鉴噪声网络的思想,该算法设计了孪生噪声评估网络,在避免Q值高估的基础上,通过提升评估网络的随机性,保证了训练过程的探索性;基于概率熵的物理意义,设计了基于策略分布熵改进的策略网络损失函数,在最大化累计奖励的同时最大化策略分布熵,避免策略优化过程中收敛到局部最优。仿真结果表明,该算法在解决干扰资源分配问题时优于所对比的平均分配和强化学习方法,同时算法稳定性较高,对高维决策空间适应性强。相似文献

19.

认知网络中D2D全双工通信的速率最大化功率分配算法

谢显中田瑜姚鑫凌雷维嘉《电子与信息学报》2017,39(4):1002-1006

针对认知D2D(Device-to-Device)全双工通信网络中,D2D用户共享蜂窝用户上行链路的频谱资源而带来的复杂干扰问题,该文给出了系统传输速率最大化的功率分配方案。该方案首先给出了认知D2D全双工通信模型,并分析了上行链路中基站和D2D用户所受到的干扰以及对应的链路传输速率。其次,提出了一种基于认知无线电系统中最大化D2D用户传输速率的功率分配算法。仿真结果表明,所提算法提高了认知D2D全双工通信网络中上行链路的频谱效率和系统整体传输速率。相似文献

20.

蜂窝车联网中基于服务异构性的V2V通信资源分配算法研究

李一兵王宁馨吕威《电子与信息学报》2023,45(1):235-242

在支持车与车直接通信(V2V)的蜂窝网络场景下,针对密集环境下复用车与设备(V2I)上行链路的资源分配问题,在V2V的干扰下,利用移动链路的信道状态信息(CSI)的慢衰落统计,联合通信可靠性、功率控制,建立最大化V2I信道容量的优化模型以满足车辆网络服务的异构性的需求。基于此,该文提出一种基于超图理论和遗传算法的资源分配算法。仿真结果表明,该算法在保证V2V通信可靠性的前提下,提高了V2I的信道容量。相似文献