首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 78 毫秒
1.
多智能体强化学习飞行路径规划算法   总被引:2,自引:1,他引:1  
为了减轻现代空战中大量信息处理给飞行员带来的负担,同时为了实现无人机航路自主规划,提出了一种基于多智能体强化学习理论的飞行路径规划算法.该算法采用多智能体强化学习的方法,采用两个功能不同的智能体,分别对应局部和全局路径规划.该算法对状态和动作空间进行划分和抽象,有效地减少了状态的数量,解决了强化学习维数灾难的问题.最后用Matlab对此算法进行了数字仿真,验证了算法的可行性,仿真实验结果显示该算法收敛速度快,能够解决飞行路径规划的任务.  相似文献   

2.
在自动驾驶、团队配合游戏等现实场景的序列决策问题中,多智能体强化学习表现出了优秀的潜力。然而,多智能体强化学习面临着维度灾难、不稳定性、多目标性和部分可观测性等挑战。为此,概述了多智能体强化学习的概念与方法,并整理了当前研究的主要趋势和研究方向。研究趋势包括CTDE范式、具有循环神经单元的智能体和训练技巧。主要研究方向涵盖混合型学习方法、协同与竞争学习、通信与知识共享、适应性与鲁棒性、分层与模块化学习、基于博弈论的方法以及可解释性。未来的研究方向包括解决维度灾难问题、求解大型组合优化问题和分析多智能体强化学习算法的全局收敛性。这些研究方向将推动多智能体强化学习在实际应用中取得更大的突破。  相似文献   

3.
多无人车(multi-UGV)分散在军事作战任务中应用非常广泛,现有方法较为复杂,规划时间较长,且适用性不强。针对此问题,该文提出一种基于拍卖多智能体深度确定性策略梯度(AU-MADDPG)算法的多无人车分散策略。在单无人车模型的基础上,建立基于深度强化学习的多无人车分散模型。对MADDPG结构进行优化,采用拍卖算法计算总路径最短时各无人车所对应的分散点,降低分散点分配的随机性,结合MADDPG算法规划路径,提高训练效率及运行效率;优化奖励函数,考虑训练过程中及结束两个阶段,全面考虑约束,将多约束问题转化为奖励函数设计问题,实现奖励函数最大化。仿真结果表明:与传统MADDPG算法相比,所提算法在训练时间上缩短了3.96%,路径总长度减少14.50%,解决分散问题时更为有效,可作为此类问题的通用解决方案。  相似文献   

4.
随着无人艇自主控制技术的发展,其在军事领域的作用日益突出,反水雷无人艇的自主控制技术是目前研究的热点之一.针对反水雷无人艇的局部路径规划问题进行研究,提出一种分层强化学习方法,对作为无人艇路径规划器的进化神经网络进行训练.同时使用Unity物理引擎搭建仿真环境,构建了具有环境感知和自主决策能力的无人艇模型.试验验证表明...  相似文献   

5.
由于多智能体所处环境动态变化,并且单个智能体的决策也会影响其他智能体,这使得单智能体深度强化学习算法难以在多智能体环境中保持稳定.为了适应多智能体环境,本文利用集中训练和分散执行框架Cen-tralized Training with Decentralized Execution(CTDE),对单智能体深度强化学习算法Soft Actor-Critic(SAC)进行了改进,引入智能体通信机制,构建Multi-Agent Soft Actor-Critic(MASAC)算法.MASAC中智能体共享观察信息和历史经验,有效减少了环境不稳定性对算法造成的影响.最后,本文在协同以及协同竞争混合的任务中,对MASAC算法性能进行了实验分析,结果表明MASAC相对于SAC在多智能体环境中具有更好的稳定性.  相似文献   

6.
7.
提出了一种基于多智能体强化学习的抗干扰传输算法,旨在抵御空地一体化网络中的功率干扰,使所有用户的可达速率之和最大化。将优化问题转化为部分可观察马尔可夫决策过程问题,采用了集中式训练和分布式执行框架。在集中式训练过程中,每个智能体与环境交互获得的经验存储在经验回放池中,用于训练演员-评论员网络。在分布式执行过程中,每架无人机使用经过训练的演员网络根据观测结果输出动作,并调整其飞行位置和传输功率以提供联合服务。采用基于剪切和计数的改进近端策略优化算法来更新演员-评论员网络参数,使其在复杂的多智能体环境中更加有效。仿真结果表明,所提算法相较于对比算法具有更快的收敛速度,且在相同干扰条件下,所提算法比对比算法获取的用户可达和速率提升约68.9%。  相似文献   

8.
针对认知无线电网络中多个异质用户具有不同的服务质量(QoS)要求,提出一种基于多智能体强化学习的动态频谱分配方法.该方法从用户满意度角度出发,以用户体验质量(QoE)作为系统的评价指标,构建多个虚拟智能体,模拟多个用户以合作方式与环境进行交互学习,融合各个用户的学习和频谱决策结果,实现频谱资源优化分配.仿真结果表明,在...  相似文献   

9.
无人船使用传统“之”字形算法在不规则岛屿区域执行海上搜索任务时,无法实现全覆盖路径规划。针对该问题,文中提出一种将“之”字形算法和基于深度强化学习的无人船全覆盖路径规划算法框架相结合的混合算法,对大范围无障碍区域使用“之”字形算法,对存在障碍的小范围区域使用深度强化学习算法框架,并引入内在好奇心模块增强该算法框架的收敛速度。该算法框架将搜索区域的地图信息转换成矢量观测值并通过全连接层传递给智能体,从而训练出一个神经网络为无人船做规划决策,在满足规避障碍物的安全约束条件下实现任务区域的全覆盖。试验方面,通过Unity3D仿真平台搭建三维环境模型,验证该混合算法的可行性。结果表明,所提出的无人船全覆盖路径规划算法框架可在岛屿区域达到覆盖率100%,且路径较短。  相似文献   

10.
针对智能电网中利用5G网络承载多样化电力终端的业务需求,提出了一种基于多智能体强化学习的频谱分配算法。首先,基于智能电网中部署的集成接入回程系统,考虑智能电网中轻量化和非轻量化终端业务的不同通信需求,将频谱分配问题建模为最大化系统总能效的非凸混合整数规划。其次,将前述问题构建为一个部分可观测的马尔可夫决策过程并转换为完全协作的多智能体问题,进而提出了一种集中训练分布执行框架下基于多智能体近端策略优化的频谱分配算法。最后,通过仿真验证了所提算法的性能。仿真结果表明,所提算法具有更快的收敛速度,通过有效减少层内与层间干扰、平衡接入与回程链路速率,可以将系统总速率提高25.2%。  相似文献   

11.
针对无人艇路径自主规划算法研究问题,将其分为全局静态路径规划与局部动态路径规划两部分,在概述其基本方法的基础上,详细介绍了其近几年国内外发展现状;并对各种改进算法的优缺点进行了分析;最后,对目前该领域的研究方法进行了总结、评价并对其进一步的研究方向进行了展望。  相似文献   

12.
为了实现Agent灵活、自主的运行,Agent必须具有很强的学习能力。在BDI模型基础上,引入Q学习方法调整Agent的动作策略。提出了基于Q学习的自主Agent模型,给出了模型的结构及形式化描述。分析了Agent的学习过程。以方格世界的搜索问题为例,验证了模型的正确性和有效性。  相似文献   

13.
黄志清  曲志伟  张吉  张严心  田锐 《电子学报》2000,48(9):1711-1719
端到端的驾驶决策是无人驾驶领域的研究热点.本文基于DDPG(Deep Deterministic Policy Gradient)的深度强化学习算法对连续型动作输出的端到端驾驶决策展开研究.首先建立基于DDPG算法的端到端决策控制模型,模型根据连续获取的感知信息(如车辆转角,车辆速度,道路距离等)作为输入状态,输出车辆驾驶动作(加速,刹车,转向)的连续型控制量.然后在TORCS(The Open Racing Car Simulator)平台下不同的行驶环境中进行训练并验证,结果表明该模型可以实现端到端的无人驾驶决策.最后与离散型动作输出的DQN(Deep Q-learning Network)模型进行对比分析,实验结果表明DDPG决策模型具有更优越的决策控制效果.  相似文献   

14.
建立双机协同被动探测的任务模型, 运用模糊理论对问题状态空间进行泛化, 针对不同的探测阶段给出了目标转移函数的不同形式, 通过合理定义动作空间和奖励函数将问题描述为Markov决策过程。给出了双机协同被动雷达探测的模糊Q学习算法, 并对算法进行仿真, 仿真结果表明, 该方法能够有效控制双机的飞行路径, 实现对机动及非机动目标的有效探测。  相似文献   

15.
在全球卫星导航系统拒止的环境里,导航信息难以获取,基于红外、超声波、射频、Wi Fi、超宽带(UWB)等室内定位方法均需要辅助电子标签,传统航位推算法只适合前向步态的路径跟踪,在后向、左向、右向步态模式下会出现反向或垂直的路径错误。针对以上问题,该文借助移动终端的惯性测量单元数据,在不依赖任何电子标签模式导航的情况下,实现短时多模式步态行人跟踪。结果表明,通过多次重复测试,步态检测准确率≥92%,以实际车库场景为实验背景,该文方法可获得全步态模式下自主路径跟踪,路径追踪误差小于3 m。  相似文献   

16.
基于作战效能的无人机航路规划研究   总被引:1,自引:0,他引:1  
综合考虑目标分配与航路规划全过程,提出一种基于作战效能的无人机航路规划方法.在航路规划层利用变长染色体遗传算法规划无人机的初始航路,在协同规划层则以作战效能为指标,运用遗传粒子群优化算法进行任务优化分配,最终得到一个备选航路集.然后,利用协同算法可在备选航路集中找到满足要求的任务航路.该方法不仅能够规划出单机或多机协同全局航路,而且还可根据威胁环境或目标变化适时修正航路,并始终保证较高攻击效能.  相似文献   

17.
当前电磁环境日益复杂多变,新式干扰手段层出不穷,对雷达系统带来了极大的挑战和威胁。该文引入频谱干扰模型并提出了一种在频控阵-多输入多输出(FDA-MIMO)雷达与干扰机动态博弈框架下基于强化学习(RL)的发射功率分配优化方法,使雷达系统能够获得最大的信干噪比(SINR)。在此基础上,构造了频谱干扰模型。其次,雷达和干扰机之间存在一种Stackelberg博弈关系,且将雷达作为领导者,干扰机作为跟随者,建立动态博弈框架下的发射功率分配优化模型。采用深度确定性策略梯度(DDPG)算法,结合功率约束设计了奖赏函数,对雷达发射功率进行实时分配来获得最大的输出SINR。最后,仿真结果表明,在雷达与干扰机博弈的框架下,所提优化算法能够有效地对雷达发射功率进行优化,使雷达具备较好的抗干扰性能。  相似文献   

18.
Cognitive Internet of Vehicles (CIoV) can improve spectrum utilization by accessing the spec-trum licensed to primary user (PU) under the premise of not disturb...  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号