首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
为解决多无人机近距空战机动决策问题,提出一种基于参数共享Q网络与虚拟自我对局的多无人机近距空战机动策略生成算法.首先,设计一种适用于不同无人机编队规模的混合马尔可夫博弈模型与多无人机机动决策策略生成强化学习框架一参数共享Q网络,并通过自编码器对状态空间进行压缩以提高策略学习效率.然后,使用虚拟自我对局方法使机动策略收敛...  相似文献   

2.
由于对抗双方态势的快速变化,无人机近距空战机动自主决策困难且复杂,是空中对抗的一个难点。对此,提出一种基于有限忍耐度鸽群优化(FTPIO)算法的无人机近距空战机动决策方法。该方法主要包括基于机动动作库的对手行动预测和基于FTPIO算法的机动控制量和执行时间优化求解两个部分。为提升基本鸽群优化(PIO)算法的全局探索能力,引入有限忍耐度策略,在鸽子个体几次迭代中没有找到更优解时对其属性进行一次重置,避免陷入局部最优陷阱。该方法采用的优化变量是无人机运动模型控制变量的增量,打破了机动库的限制。通过和极小极大方法、基本PIO算法和粒子群优化(PSO)算法的仿真对抗测试结果表明,所提出的机动决策方法能够在近距空战中有效击败对手,产生更为灵活的欺骗性机动行为。  相似文献   

3.
在空战研究领域,战术决策旨在提高博弈对抗收益,进而提升战机攻击效率.现有战术决策算法大多基于规则方法设计,当应用于多机空战的复杂环境时则存在设计难度大,难以求解最优解等问题.本文提出一种分层决策多机空战对抗方法,首先,在训练初始阶段借鉴已有人类专家经验,指导模型训练;其次,根据战术动作类型设计分层动作决策网络,降低动作决策空间维度;最后,将训练产生的对抗经验按阶段分解,降低策略学习难度.在多机空战仿真环境中进行了实验验证,相比于现有多机空战决策方法,本文提出的方法在训练收敛性和决策性能方面均具有更好的表现.  相似文献   

4.
为了提高战斗机在信息不充足条件下的机动决策能力,提出一种基于三支决策的飞机空战机动决策方法.首先,使用三支决策意图识别模型对目标意图进行识别;其次,将目标的作战意图因素引入到威胁评估中后,结合目标的威胁程度,提出基于三支决策的机动决策权重因子动态调整法;最后,使用模糊逻辑构建机动决策因子评价函数,并利用权值动态调整策略...  相似文献   

5.
基于深度强化学习的多机协同空战方法研究   总被引:1,自引:0,他引:1  
多机协同是空中作战的关键环节,如何处理多实体间复杂的协作关系、实现多机协同空战的智能决策是亟待解决的问题.为此,提出基于深度强化学习的多机协同空战决策流程框架(Deep-reinforcement-learning-based multi-aircraft cooperative air combat decision...  相似文献   

6.
目前智能决策系统中的经典算法智能化程度较低,而更为先进的强化学习算法应用于复杂决策任务又会导致存储上的维度灾难问题。针对该问题,提出了一种基于双深度Q网络的智能决策算法,改进了目标Q值计算方法,并将动作选择和策略评估分开进行,从而获得更加稳定有效的策略。智能体对输入状态进行训练,输出一个较优的动作来驱动智能体行为,包括环境感知、动作感知及任务协同等,继而在复杂度较高的决策环境中顺利完成给定任务。基于Unity3D游戏引擎开发了虚拟智能对抗演练的验证系统,对演练实时状态和智能体训练结果进行可视化,验证了双深度Q网络模型的正确性和稳定性,有效解决了强化学习算法存在的灾难问题。该智能决策算法有望在策略游戏、对抗演练、任务方案评估等领域发挥作用。  相似文献   

7.
以无人机的超视距空战为研究背景,建立一种综合态势评估、目标分配和损耗裁定的协同空战仿真模型。首先,综合友机位置和敌方战机威力对我机的态势影响,提出一种基于人工势场的态势评估方法;然后,利用文化基因算法进行目标分配,分别采用离散差分进化算法和邻域搜索算法作为其全局和局部搜索策略;最后,用两步裁定法模拟空战双方的相互攻击,实现超视距空战中的损耗裁定。仿真结果验证了所提出模型的合理性和算法的有效性。  相似文献   

8.
针对高动态环境下的雷达连续智能抗干扰决策和高实时性需求问题,本文构建了一种适用于雷达智能抗干扰决策的深度Q网络(Deep Q network,DQN)模型,并在此基础上提出了一种基于现场可编程门阵列(Field programmable gate array,FPGA)的硬件决策加速架构。在该架构中,本文设计了一种雷达智能决策环境交互片上访问方式,通过片上环境量化存储和状态迭代计算简化了DQN智能体连续决策时的迭代过程,在实现智能体深度神经网络的并行计算与流水控制加速的同时,进一步提升了决策实时性。仿真和实验结果表明,在保证决策正确率的前提下,所设计的智能抗干扰决策加速器相比已有的基于CPU平台的决策系统,在单次决策中实现了约46倍的速度提升,在连续决策中实现了约84倍的速度提升。  相似文献   

9.
以无人机网络的资源分配为研究对象,研究了基于强化学习的多无人机网络动态时隙分配方案,在无人机网络中,合理地分配时隙资源对改善无人机资源利用率具有重要意义;针对动态时隙分配问题,根据调度问题的限制条件,建立了多无人机网络时隙分配模型,提出了一种基于近端策略优化(PPO)强化学习算法的时隙分配方案,并进行强化学习算法的环境映射,建立马尔可夫决策过程(MDP)模型与强化学习算法接口相匹配;在gym仿真环境下进行模型训练,对提出的时隙分配方案进行验证,仿真结果验证了基于近端策略优化强化学习算法的时隙分配方案在多无人机网络环境下可以高效进行时隙分配,提高网络信道利用率,提出的方案可以根据实际需求适当缩短训练时间得到较优分配结果。  相似文献   

10.
基于知识库的无人机作战自主决策方法的研究   总被引:1,自引:0,他引:1       下载免费PDF全文
提高无人机的自主决策能力是提升无人机在现代战争中作战能力的重要手段。通过对无人机对地作战过程的研究,分析归纳影响无人机自主决策的相关因素,并将无法用数学模型描述的军事规则使用产生式规则来表达,建立作战规则库。然后提出一种基于知识库的自主决策方法,该方法通过动态贝叶斯网络模拟人对态势的认知,通过产生式规则进行决策,其中加入实体的状态描述来控制决策流程,以此来完成无人机的自主决策。仿真结果表明,该方法科学有效,可使无人机自主做出合理决策。  相似文献   

11.
深度强化学习算法能够很好地实现离散化的决策行为,但是难以运用于高度复杂且行为连续的现代战场环境,同时多智能体环境下算法难以收敛。针对这些问题,提出了一种改进的深度确定策略梯度(DDPG)算法,该算法引入了基于优先级的经验重放技术和单训练模式,以提高算法收敛速度;同时算法中还设计了一种混合双噪声的探索策略,从而实现复杂且连续的军事决策控制行为。采用Unity开发了基于改进DDPG算法的智能军事决策仿真平台,搭建了蓝军步兵进攻红军军事基地的仿真环境,模拟多智能体的作战训练。实验结果显示,该算法能够驱动多作战智能体完成战术机动,实现绕过障碍物抵达优势区域进行射击等战术行为,算法拥有更快的收敛速度和更好的稳定性,可得到更高的回合奖励,达到了提高智能军事决策效率的目的。  相似文献   

12.
 空战行为决策的智能性是学术界关注的重要问题之一。提出一种基于Q-学习和行为树的CGF空战行为决策方法。通过构建CGF空战行为树模型,实现CGF智能行为;通过在行为树上的Q-学习,使CGF具有不断进化的能力。仿真结果表明,该算法在与传统算法对抗中,性能优势明显且学习能力较强。  相似文献   

13.
为实现复杂任务环境中多无人机的自主飞行, 本文采用改进的强化学习算法,设计了一种具有避碰避障功能的多无人机智能航迹规划策略。通过改进搜索策略、引入具有近似功能的神经网络函数、构造合理的立即回报函数等方法,提高算法运算的灵活性、降低无人机运算负担, 使得多无人机能够考虑复杂任务环境中风速等随机因素以及静态和动态威胁的影响, 自主规划出从初始位置到指定目标点的安全可行航迹。为了探索所提算法在实际飞行过程的可行性, 本文以四旋翼无人机为实验对象, 在基于ROS的仿真环境中验证了算法的可行性与有效性。  相似文献   

14.
多机协同空战是未来空空作战的重要形式,空战智能决策是空战研究的核心内容之一.根据多机协同的特点和空战智能决策的要求,首先构造多机协同空战的自主优势矩阵,并在此基础上依据多人冲突理论分别对和红蓝双方以及本机编队进行权重分配,由此得到多机协同空战的整体优势矩阵.然后给出了贝叶斯优化算法并应用此算法对该模型进行了优化分析,实现了多机协同空战的空战智能决策.仿真实例证明贝叶斯优化算法收敛速度快,能够收敛到全局最优解,能有效地解决多机协同空战中的空战决策问题.  相似文献   

15.
针对无人作战飞机自主空战机动决策问题,提出了一种鲁棒机动决策方法。设计了反映空战态势的鲁棒隶属函数,并基于此设计鲁棒多目标决策函数;针对动作库在机动决策中的不完备性与传统优化方法求解时效性缺陷,运用基于自适应和精英反向学习策略改进的共生生物算法,对控制量进行优化进而完成机动决策;仿真结果表明,鲁棒机动决策结果更具优势且改进算法求解具有实时性,满足机动决策需求。  相似文献   

16.
针对供应链中制造厂配件中心库的库存决策问题,充分考虑库存限制因素及复杂多变的配件需求特性,将库存决策这类序贯决策问题建模为马尔可夫决策过程,并通过深度强化学习算法对该库存决策模型进行求解,以探索不确定需求下不同需求特性配件的最优订货量,从而达到企业利润最大化的目的。实验结果表明,基于深度强化学习的库存决策能够在充分贴合现实情况的前提下有效提高企业利润,具有实际应用价值。  相似文献   

17.
随着无人机智能化水平的提高和集群控制技术的发展,无人机集群对抗智能决策方法将成为未来无人机作战的关键技术.无人机集群对抗学习环境具有维度高、非线性、信息有缺失、动作空间连续等复杂特点.近年来,以深度学习和强化学习为代表的人工智能技术取得了很大突破,深度强化学习在解决复杂环境下智能决策问题方面展现出了不俗能力.本文受多智能体集中式训练–分布式执行框架和最大化策略熵思想的启发,提出一种基于非完全信息的多智能体柔性行动器–评判器(multi-agent soft actor-critic, MASAC)深度强化学习方法,建立基于多智能体深度强化学习的无人机集群对抗博弈模型,构建连续空间多无人机作战环境,对红蓝双方无人机集群的非对称性对抗进行仿真实验,实验结果表明MASAC优于现有流行的多智能体深度强化学习方法,能使博弈双方收敛到收益更高的博弈均衡点.进一步对MASAC的收敛情况进行实验和分析,结果显示MASAC具有良好的收敛性和稳定性,能够保证MASAC在无人机集群对抗智能决策方面的实用性.  相似文献   

18.
针对无线网络环境中多用户之间冲突及干扰影响问题,本文利用马尔可夫框架进行建模分析,提出了一种多用户联合抗干扰决策算法(MJADA).该算法融合长短期记忆库(Long Short Term Memory,LSTM)和深度Q网络(Deep Q Network,DQN),目标是生成一个用户之间无需交换信息的多用户抗干扰频谱决策策略.MJADA不仅在动作状态空间巨大的多用户场景下能够实现有效的收敛,而且在不同的干扰场景下都能够更好的减少冲突以及规避干扰.仿真结果表明,在扫频干扰下,MJADA算法的抗干扰性能比随机策略高出约72.3%,比独立DQN算法提升33.7%.  相似文献   

19.
针对当前反无人系统无法有效压制无人机的问题,使用多种拦截装备构建一种新的反无人机方法.传统多目标优化算法无法解决动态的任务分配问题,对此,提出一种基于深度Q网络(DQN)的多类型拦截装备复合式反无人机任务分配模型. DQN模块对任务分配问题进行初期决策.为了提高算法收敛速度和学习效率,该方法未采用下一时刻的状态来预测Q值,而是采用当前时刻的状态来预测Q值,消除训练过程中Q值过估计的影响.之后采用进化算法对决策结果进行优化,输出多个拦截方案.以国内某机场跑道周围区域开阔地为防护对象,构建反无人机系统的任务分配仿真环境,仿真结果验证了所提出方法的有效性.同时,将DQN与Double DQN方法相比,所提出改进DQN算法训练的智能体表现更为精确,并且算法的收敛性和所求解的表现更为优异.所提出方法为反无人机问题提供了新的思路.  相似文献   

20.
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号