基于深度强化学习的空天地一体化网络资源分配算法 |
| |
引用本文: | 刘雪芳, 毛伟灏, 杨清海. 基于深度强化学习的空天地一体化网络资源分配算法[J]. 电子与信息学报, 2024, 46(7): 2831-2841. doi: 10.11999/JEIT231016 |
| |
作者姓名: | 刘雪芳 毛伟灏 杨清海 |
| |
作者单位: | 西安电子科技大学通信工程学院 西安 710071 |
| |
基金项目: | 国家重点研发计划(2020YFB1807700) |
| |
摘 要: | ![](https://cache.aipub.cn/images/rhhz-server-website-resource.oss-cn-beijing.aliyuncs.com/fileDZYXXXB_ONLY/journal/article/dzyxxxb/2024/7/231016-1.jpg) 空天地一体化网络(SAGIN)通过提高地面网络的资源利用率可以有效满足多种业务类型的通信需求,然而忽略了系统的自适应能力和鲁棒性及不同用户的服务质量(QoS).针对这一问题,该文提出在空天地一体化网络架构下,面向城区和郊区通信的深度强化学习(DRL)资源分配算法.基于第3代合作伙伴计划(3GPP)标准中定义的用户参考信号接收功率(RSRP),考虑地面同频干扰情况,以不同域中基站的时频资源作为约束条件,构建了最大化系统用户的下行吞吐量优化问题.利用深度Q网络(DQN)算法求解该优化问题时,定义了能够综合考虑用户服务质量需求、系统自适应能力及系统鲁棒性的奖励函数.![](https://cache.aipub.cn/images/rhhz-server-website-resource.oss-cn-beijing.aliyuncs.com/fileDZYXXXB_ONLY/journal/article/dzyxxxb/2024/7/231016-2.jpg) 仿真结果表明,综合考虑无人驾驶汽车,沉浸式服务及普通移动终端通信业务需求时,表征系统性能的奖励函数值在2 000次迭代下,相较于贪婪算法提升了39.1%;对于无人驾驶汽车业务,利用DQN算法进行资源分配后,相比于贪婪算法,丢包数平均下降38.07%,时延下降了6.05%.
![](https://cache.aipub.cn/images/rhhz-server-website-resource.oss-cn-beijing.aliyuncs.com/fileDZYXXXB_ONLY/journal/article/dzyxxxb/2024/7/231016-3.jpg)
|
关 键 词: | 空天地一体化网络 资源分配算法 深度强化学习 深度Q网络 |
收稿时间: | 2023-09-18 |
修稿时间: | 2024-01-19 |
本文献已被 万方数据 等数据库收录! |
| 点击此处可从《电子与信息学报》浏览原始摘要信息 |
|
点击此处可从《电子与信息学报》下载免费的PDF全文 |
|