期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

张鹏陈博《计算机工程》2021,47(12):171-176,184

现有基于人工智能的路由方案泛化能力较差,难以适应动态的网络拓扑变化。提出基于深度强化学习的智能路由机制SmartRoute。通过实时感知网络中流量分布状态,动态调整路由策略,并结合图神经网络的拓扑信息感知能力和深度强化学习的自我训练能力,提升网络路由策略的智能性。实验结果表明,与DRL-TE、TIDE等方案相比,SmartRoute最多节省9.6%的端到端时延,且具有更好的鲁棒性。相似文献

2.

基于双评论家的多智能体深度确定性策略梯度方法

丁世飞杜威郭丽丽张健徐晓《计算机研究与发展》2023,(10):2394-2404

在现实世界的复杂多智能体环境中，任务的完成通常需要多个智能体之间的相互协作，这促使各种多智能体强化学习方法不断涌现.动作价值函数估计偏差是单智能体强化学习领域中备受关注的一个重要问题，而在多智能体环境中却鲜有研究.针对这一问题，分别从理论和实验上证明了多智能体深度确定性策略梯度方法存在价值函数被高估.提出基于双评论家的多智能体深度确定性策略梯度（multiagent deep deterministic policy gradient method based on double critics,MADDPG-DC）方法，通过在双评论家网络上的最小值操作来避免价值被高估，进一步促进智能体学得最优的策略.此外，延迟行动者网络更新，保证行动者网络策略更新的效率和稳定性，提高策略学习和更新的质量.在多智能体粒子环境和交通信号控制环境上的实验结果证明了所提方法的可行性和优越性. 相似文献

3.

可编程数据平面下基于DDPG的路由优化方法

下载免费PDF全文

徐博周建国吴静罗威《计算机工程与应用》2022,58(3):143-150

针对于数据中心网络不均衡的流量分布,和在使用固定功能交换机的软件定义网络中部署强化学习模型时,不能精确感知网络状态导致的路由决策偏差问题,设计了一种在具有可编程数据平面的软件定义网络中,基于深度确定性策略梯度（DDPG）强化学习模型的路由优化方法。通过在可编程数据平面自定义数据包处理逻辑,获取细粒度、高精度的网络状态参数,然后在控制平面使用DDPG模型根据网络状态参数确定多条可选路径的链路权值,并为数据流选择具有最大综合剩余负载能力的路由路径,最后以源路由的方式下发流表。实验结果表明,该方法可以在较高的带宽需求下提高网络吞吐量和链路利用率,降低端到端传输时延和南向通信开销。相似文献

4.

智能车辆深度强化学习的模型迁移轨迹规划方法

余伶俐邵玄雅龙子威魏亚东周开军《控制理论与应用》2019,36(9):1409-1422

针对智能驾驶车辆传统路径规划中出现车辆模型跟踪误差和过度依赖问题,提出一种基于深度强化学习的模型迁移的智能驾驶车辆轨迹规划方法.首先,提取真实环境的抽象模型,该模型利用深度确定性策略梯度(DDPG)和车辆动力学模型,共同训练逼近最优智能驾驶的强化学习模型;其次,通过模型迁移策略将实际场景问题迁移至虚拟抽象模型中,根据该环境中训练好的深度强化学习模型计算控制与轨迹序列;而后,根据真实环境中评价函数选择最优轨迹序列.实验结果表明,所提方法能够处理连续输入状态,并生成连续控制的转角控制序列,减少横向跟踪误差;同时通过模型迁移能够提高模型的泛化性能,减小过度依赖问题. 相似文献

5.

端到端通信中基于时间转换能量采集的计算迁移方案

冬欣松郑建超蔡跃明尹廷辉张潇毅《计算机应用》2018,38(12):3535-3540

在端到端（D2D）通信网络中,为提高移动云计算的有效性,提出了一种基于时间转换能量采集的计算迁移方案。首先,一个流量受限的智能移动终端把其需要迁移的计算任务通过D2D通信以射频信号的形式发送给一个能量受限的智能移动终端,后者利用时间转换方案对接收信号进行能量采集。然后,能量受限终端会为流量受限终端中继任务到云端服务器付出额外的流量消耗。最后,所提的方案被建模为一个最小化终端能量与流量消耗的非凸优化问题,通过优化能量受限终端的时间转换因子、采集能量分配因子以及流量受限终端的传输功率,最终获得了最优方案。仿真结果表明,相比于非协作方案,所提方案通过互惠协作进行计算迁移能有效地减少终端的匮乏资源开销。相似文献

6.

基于深度学习的智能交通系统通信网络脆弱性检测

叶欣茹伍益明徐明郑宁《控制理论与应用》2022,39(10):1872-1880

智能交通系统是集群智能技术的典型应用之一. 为解决现有智能交通通信网络脆弱性检测方法复杂度高、实时性差的问题, 提出引入深度学习技术对网络脆弱性检测方法进行设计. 先利用多智能体网络协同和消息传输机制与智能交通系统车辆间协作通信网络的共通性, 将智能交通系统通信图脆弱性检测问题建模为对多智能体网络r-鲁棒值的求解问题. 再针对随网络节点数目增多r-鲁棒值求解成NP难问题, 设计给出一种融入残差网络的深度学习算法, 将鲁棒值求解问题转化为深度学习图分类问题. 所提算法可有效应对动态多变的智能交通通信网络并对其实现快速精准的脆弱性检测. 最后通过一组典型交通场景的仿真实验验证本文所提方法的有效性. 相似文献

7.

基于多智能体强化学习的乳腺癌致病基因预测

刘健顾扬程玉虎王雪松《自动化学报》2022,48(5):1246-1258

通过分析基因突变过程, 提出利用强化学习对癌症患者由正常状态至患病状态的过程进行推断, 发现导致患者死亡的关键基因突变. 首先, 将基因视为智能体, 基于乳腺癌突变数据设计多智能体强化学习环境; 其次, 为保证智能体探索到与专家策略相同的策略和满足更多智能体快速学习, 根据演示学习理论, 分别提出两种多智能体深度Q网络: 基于行为克隆的多智能体深度Q网络和基于预训练记忆的多智能体深度Q网络; 最后, 根据训练得到的多智能体深度Q网络进行基因排序, 实现致病基因预测. 实验结果表明, 提出的多智能体强化学习方法能够挖掘出与乳腺癌发生、发展过程密切相关的致病基因. 相似文献

8.

多智能体深度强化学习研究综述 总被引：1，自引：0，他引：1

下载免费PDF全文

孙彧曹雷陈希亮徐志雄赖俊《计算机工程与应用》2020,56(5):13-24

多智能体深度强化学习是机器学习领域的一个新兴的研究热点和应用方向,涵盖众多算法、规则、框架,并广泛应用于自动驾驶、能源分配、编队控制、航迹规划、路由规划、社会难题等现实领域,具有极高的研究价值和意义。对多智能体深度强化学习的基本理论、发展历程进行简要的概念介绍;按照无关联型、通信规则型、互相合作型和建模学习型4种分类方式阐述了现有的经典算法;对多智能体深度强化学习算法的实际应用进行了综述,并简单罗列了多智能体深度强化学习的现有测试平台;总结了多智能体深度强化学习在理论、算法和应用方面面临的挑战和未来的发展方向。相似文献

9.

序列多智能体强化学习算法

史腾飞王莉黄子蓉《模式识别与人工智能》2021,34(3):206-213

针对当前多智能体强化学习算法难以适应智能体规模动态变化的问题,文中提出序列多智能体强化学习算法(SMARL).将智能体的控制网络划分为动作网络和目标网络,以深度确定性策略梯度和序列到序列分别作为分割后的基础网络结构,分离算法结构与规模的相关性.同时,对算法输入输出进行特殊处理,分离算法策略与规模的相关性.SMARL中的智能体可较快适应新的环境,担任不同任务角色,实现快速学习.实验表明SMARL在适应性、性能和训练效率上均较优. 相似文献

10.

无人机反应式扰动流体路径规划 总被引：1，自引：1，他引：0

吴健发王宏伦王延祥刘一恒《自动化学报》2023,49(2):272-287

针对复杂三维障碍环境,提出一种基于深度强化学习的无人机(Unmanned aerial vehicles, UAV)反应式扰动流体路径规划架构.该架构以一种受约束扰动流体动态系统算法作为路径规划的基本方法,根据无人机与各障碍的相对状态以及障碍物类型,通过经深度确定性策略梯度算法训练得到的动作网络在线生成对应障碍的反应系数和方向系数,继而可计算相应的总和扰动矩阵并以此修正无人机的飞行路径,实现反应式避障.此外,还研究了与所提路径规划方法相适配的深度强化学习训练环境规范性建模方法.仿真结果表明,在路径质量大致相同的情况下,该方法在实时性方面明显优于基于预测控制的在线路径规划方法. 相似文献