共查询到20条相似文献,搜索用时 15 毫秒
1.
3.
本文提出一种基于TD3算法的家庭微电网对家庭微电网模型进行深度强化学习,以训练后的智能体为调度策略的方法?主要构建了家庭微电网的蓄电池?光伏与电价模型,以此搭建了深度强化学习环境?实验结果表明训练好的智能体能够实现移峰填谷功能并使得电价得到优化? 相似文献
4.
5.
由于无人机组网灵活、快速、低成本的特性,空中基站被视为在未来无线通信中有前景的技术。无人机集群可以通过相互协调和合作,完成的复杂任务,具有重大的研究和实用价值,而无人机间的高效通信是当下面临的重大挑战。为了在满足无人机间通信速率的前提下,尽可能节省发射功率,本文提出基于深度强化学习的集群方案和功率控制的智能决策算法。首先,本文设计了三种无人机集群方案,以对地面用户提供无缝的无线覆盖;然后,本文提出了基于深度Q网络(Deep Q-network)算法的集群方案和功率控制决策算法,用深度神经网络输出不同条件下联合决策的无人机集群方案和发射功率,并研究了重要性采样技术,提高训练效率。仿真结果表明,本文提出的深度强化学习算法能够正确决策无人机集群方案和发射功率,与不带强化学习的深度学习(Deep Learning Without Reinforcement Learning, DL-WO-RL)算法相比,用更低的发射功率满足无人机之间的通信速率要求,并且重要性采样技术能够缩短DQN算法的收敛时间。 相似文献
6.
7.
智能农业机器人如何实现准确移动仍是开发者们面临的一个挑战.传统的导航主要是通过全球定位系统(Global Position System,GPS)的定位来完成导航任务,弊端是其定位精度易受GPS信号强弱的影响.为此,文章提出采用深度强化学习算法SAC(Soft Actor-Critic)来解决果园场景下的导航问题,通过... 相似文献
8.
《无线电工程》2019,(7):564-570
随着我国航天技术的快速发展,包括导航、遥感和通信在内的航天资源越来越丰富,同时,国民经济和国防建设对航天信息的需求迫切,如何充分地应用航天信息和航天资源,成为一个新的研究内容。分析了航天信息应用的具体模式,采用深度强化学习的建模和优化方法,探索和研究了具体应用场景下的深度强化学习对应用需求的筹划和决策安排,从而在理论上验证了将人工智能方法应用于航天信息综合应用决策的可行性,为航天信息应用的大众化、平民化提供了支撑。通过仿真环境,测试在有限迭代范围内多个模型的优化速度。实验证明,在价值模型中选择Double DQN网络,其优化决策的收敛性能更好。 相似文献
9.
深度强化学习作为统计学习常见算法,将其应用于智能网络安全防护设计环节将取得显著效果,以此规避智能网络安全风险。文章简要分析智能网络安全常见问题,根据对问题的分析研究,总结智能网络安全防护优化设计具体目标,经由设计网络状态集合、细化网络动作集合、规范设计回报函数、强化数据分析功能等设计步骤的落实,智能网络将充分发挥安全服务作用,由此维护网络安全。本文提出了可行性措施,期待提升网络安全防护的有效性。 相似文献
10.
强化学习通过与环境的交互学得任务的决策策略,具有自学习与在线学习的特点。但交互试错的机制也往往导致了算法的运行效率较低、收敛速度较慢。知识包含了人类经验和对事物的认知规律,利用知识引导智能体(agent)的学习,是解决上述问题的一种有效方法。该文尝试将定性规则知识引入到强化学习中,通过云推理模型对定性规则进行表示,将其作为探索策略引导智能体的动作选择,以减少智能体在状态-动作空间探索的盲目性。该文选用OpenAI Gym作为测试环境,通过在自定义的CartPole-v2中的实验,验证了提出的基于云推理模型探索策略的有效性,可以提高强化学习的学习效率,加快收敛速度。 相似文献
11.
针对箱式仓储环境下的多自主移动机器人(AMR)调度问题,传统动态路径规划算法(TDP)有解算可行路径效率低、系统实时性较差的缺点。针对这一问题,文中以时间最优为目标建立强化学习算法(RL)模型,用于提高多AMR同时调度的路径规划求解速度。此外,结合深度学习(DL)算法的优点,采用深度强化学习算法(DRL)有效缩短高维度、复杂工况下RL算法模型训练的收敛时间。仿真对比了TDP、RL和DRL三种算法模型,验证了DRL方法的有效性。 相似文献
12.
由于包括毫米波频率,导致5G网络中的切换更具挑战性,基站(BS)部署更加密集.由于毫米波BS的占用空间较小,进一步增加了切换的数量,从而使切换管理成为一项更关键的任务.因为随着切换数量的增加,降低了服务质量(QoS)和体验质量(QoE),以及更高的信令开销.文章讨论了一种基于双深度强化学习(DDRL)的离线方案,以最小... 相似文献
13.
针对超密集组网用户体验需求和无线资源利用率低的问题,在满足用户需求基础上,结合深度学习强大的感知能力提取时变的信道特征,利用强化学习优化信道接入策略,减少海量设备在无线连接过程中遇到的接入碰撞,在用户QoS的约束下实现系统平均吞吐量最大化的目标,提高资源利用率.实验表明,该方法能够保证用户最低QoS要求下提高系统平均吞... 相似文献
15.
16.
随着第五代通信技术(5G)的发展,各种应用场景不断涌现,而网络切片可以在通用的物理网络上构建多个逻辑独立的虚拟网络来满足移动通信网络多样化的业务需求。为了提高移动通信网络根据各切片业务量实现资源按需分配的能力,本文提出了一种基于深度强化学习的网络切片资源管理算法,该算法使用两个长短期记忆网络对无法实时到达的统计数据进行预测,并提取用户移动性导致的业务数据量动态特征,进而结合优势动作评论算法做出与切片业务需求相匹配的带宽分配决策。实验结果表明,相较于现有方法,该算法可以在保证用户时延和速率要求的同时,将频谱效率提高约7.7%。 相似文献
17.
针对传统深度强化学习算法难以快速解决长时序复杂任务的问题,提出了一种引入历史信息和人类知识的深度强化学习方法,对经典近端策略优化(Proximal Policy Optimization, PPO)强化学习算法进行改进,在状态空间引入历史状态以反映环境的时序变化特征,在策略模型中基于人类认知增加无效动作掩膜,禁止智能体进行无效探索,提高探索效率,从而提升模型的训练性能。仿真结果表明,所提方法能够有效解决长时序复杂任务的智能决策问题,相比传统的深度强化学习算法可显著提高模型收敛效果。 相似文献
18.
19.
无线通信系统的信道开放性使其极易受到外部恶意干扰、通信链路质量难以保证,针对以上问题,本文设计了一种基于深度强化学习的多域联合干扰规避决策方法。该方法联合频域、功率域、调制编码域三个域的抗干扰手段进行干扰规避,在考虑系统性能的同时实现可靠通信。首先,将联合智能干扰规避问题建模为一个马尔可夫决策过程(MDP, Markov Decision Process),动作空间包含切换信道、功率控制、改变调制编码方式。然后,采用基于剪裁的近端策略优化算法(PPO-Clip, Proximal Policy Optimization-Clip)求解获得系统的最优联合干扰规避策略。PPO-Clip算法在多回合训练中以小数量样本迭代更新,避免了策略梯度算法中步长难以确定和更新差异过大的问题。最后,分别在扫频干扰、随机扫频干扰和智能阻塞干扰环境下验证了所提算法的有效性和可靠性。 相似文献
20.
该文提出一种适用于多路口交通灯实时控制的多智能体深度循环Q-网络(MADRQN),目的是提高多个路口的联合控制效果。该方法将交通灯控制建模成马尔可夫决策过程,将每个路口的控制器作为智能体,根据位置和观测信息对智能体聚类,然后在聚类内部进行信息共享和中心化训练,并在每个训练过程结束时将评价值最高的值函数网络参数分享给其它智能体。在城市交通仿真软件(SUMO)下的仿真实验结果表明,所提方法能够减少通信的数据量,使得智能体之间的信息共享和中心化训练更加可行和高效,车辆平均等待时长少于当前最优的基于多智能体深度强化学习的交通灯控制方法,能够有效地缓解交通拥堵。 相似文献