期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

刘振徐学文刘勇《弹道学报》2018,30(2):12-18

为有效提高空战协同作战效能,对采用协同制导后的空战决策问题进行了研究,给出了协同制导平台的选择方法,设计了一种协同制导交接方案。以敌方毁伤最大以及我方损失最小作为目标函数,建立了考虑协同制导的空战决策模型。为提高模型的求解效率,提出一种分布估计免疫算法对该问题进行求解。在免疫算法中引入了基于边缘乘积模块(marginal product model,MPM)的交叉和变异方式,防止优良模式的破坏,利用适应度共享机制增加种群多样性。对提出的空战决策模型,利用分布估计免疫算法进行求解。经仿真对比分析表明,采用协同制导后,作战效能明显提高,分布估计免疫算法求解速度也优于其他相关方法,证明了算法和模型的正确性。相似文献

2.

基于强化学习的集群多目标分配与智能决策方法

朱建文赵长见李小平包为民《兵工学报》2021,42(9):2040-2048

为提升高动态协同攻击条件下的攻防效能,研究基于强化学习的集群多目标智能分配与决策方法。建立综合攻击性能评估准则,包括基于相对运动信息的攻击优势度评估以及基于目标固有信息的威胁度评估。综合攻击性能、突防概率以及攻击消耗,设计攻防效费比性能指标。构建基于强化学习的多目标决策架构,设计以分配向量为基本元素的动作空间,以及基于量化性能指标的状态空间,利用Q-Learning方法对协同攻击方案,包括导弹选取以及分配形式进行智能决策。仿真结果表明,强化学习能够实现攻防效能最优的多目标在线决策,其计算效率相对于粒子群优化算法具有更明显的优势。相似文献

3.

无人集群作战任务的多智能体强化学习卸载决策

李佳键史彦军杨雨李波赵熙俊《兵工学报》2023,(11):3295-3309

近年来,任务卸载作为保障无人集群高效协同作战的关键技术之一,正成为研究热点。任务卸载旨在克服单平台算力不足、能量有限等约束,将计算任务卸载到边缘网络的服务器上进行处理,以达到降本增效的目的。以无人集群辅助的天地一体化协同侦察为作战场景,考虑战时复杂多变的电磁环境以及集群组网拓扑时变性,利用Lyapunov优化把长期任务卸载解耦为在线马尔可夫决策过程。为解决混合动作空间收敛难、学习效率底的问题,结合凸优化和多智能体深度确定性策略,分层求解功率分配和任务分配问题,提出数据-模型双层优化驱动的多智能体强化学习卸载决策算法。数值实验结果表明,新算法能够根据时变的战场环境自适应调整智能体任务卸载策略,达到提升传统算法性能和优化复杂多维目标的目的。相似文献

4.

强化学习在智能无人系统决策管理中的应用

卫宁王冠《兵工学报》2022,43(Z2):164-169

智能无人系统需要在复杂环境下快速稳定地进行决策,并具备应对非预期状态的能力。智能无人系统往往由于环境及任务复杂度高而难以实施决策管理,利用强化学习平台进行智能无人系统决策管理是很好的解决方案。针对智能无人系统所处的多样性、复杂性、高动态性和不确定性环境,利用强化学习平台进行智能无人系统决策管理,在传感器有限的情况下对环境和态势进行准确感知与决策,使智能体能够利用自学习和自适应能力快速完成决策。强化学习通过与环境的自主交互过程来学习决策策略,使得策略的长期累积奖励值最大,通过强化学习平台和仿真平台的对接来进行决策模型搭建和智能体训练,并通过对智能体输出策略的控制来实现智能无人系统的决策管理。相似文献

5.

基于深度强化学习的巡飞弹突防控制决策

高昂董志明叶红兵宋敬华郭齐胜《兵工学报》2021,42(5):1101-1110

巡飞弹突防控制决策（LMPCD）问题是“多域战”作战概念背景下的重要研究方向。针对该问题,建立基于马尔可夫决策过程的LMPCD模型。拟合LMPCD函数与飞行状态-动作值函数,构建基于演员-评论家方法的LMPCD框架,给出基于深度确定性策略梯度算法的深度强化学习模型求解方法,生成巡飞弹突防控制最优决策网络。通过1 000次巡飞弹突防仿真测试,结果表明,巡飞弹执行任务成功率为82.1%,平均决策时间为1.48 ms,验证了LMPCD模型及其求解过程的有效性。相似文献

6.

国产化环境下基于强化学习的地空协同作战仿真

李理李旭光郭凯杰史超陈昭文《兵工学报》2022,(S1):74-81

以未来战场无人地空协同作战为需求牵引,面对军事领域实战场景匮乏、训练数据不足的实际问题,聚焦仿真环境下的深度强化学习方法,实现地空协同作战仿真中多智能体决策模型。在飞腾CPU和昆仑K200硬件平台与麒麟V10操作系统环境下搭建虚拟仿真环境,设置仿真环境状态表征、各智能体动作空间及奖励机制,构建基于深度确定性策略梯度算法的多智能体模型(MADDPG),通过仿真实验验证采用MADDPG算法能够使奖励值在地空协同作战仿真场景中逐渐收敛,从而证明该模型应用于地空协同作战的决策有效性。相似文献

7.

具有自主决策能力的机动单元智能体研究

杨萍毕义明孙淑玲《兵工学报》2007,28(11):1363-1366

在机动作战仿真中,具有对战场威胁快速反应和决策能力的机动单元实体才更符合实际作战的情形。为此,提出了具有自主决策功能的机动单元智能体的结构模型,它由感知、威胁预测、决策、学习和执行等部分组成;建立了用于威胁预测的神经网络模型,并将智能体的决策描述为马尔可夫决策过程(MDP)．面对复杂的决策环境,将强化学习技术运用其中,使得智能体通过不断观测新的环境状态,运用学习手段,作出最佳的策略选择。针对强化学习中状态空间大、现有算法收敛速度较慢等问题,提出了改进的SARSA(A)学习算法。仿真实验验证了强化学习下机动策略决策的有效性和改进算法的效率。相似文献

8.

标签噪声鲁棒学习算法研究综述

宫辰张闯王启舟《航空兵器》2020,27(3):20-26

相似文献

9.

一种基于强化学习的指挥智能体控制方法

下载免费PDF全文

林九根《兵工自动化》2024,43(1)

针对无人水下航行器(unmanned underwater vehicle,UUV)如何进行任务分配、航路规划、指挥控制问题, 提出一种新的控制实现方法。搭建UUV 指挥智能体训练平台,设计学习训练所需的想定,进行状态设计、数据适配、决策解析和规则库建立,选定近端策略优化(proximal policy optimization,PPO)强化学习算法进行训练,并进行应用验证。结果表明：指挥智能体能有效对UUV 进行任务分配、航路规划、指挥控制;通过不断优化算法,可提高战胜基于规则的传统控制方法的胜率。相似文献

10.

粒子群优化算法及其在机器人技术中的应用

下载免费PDF全文

程哲王伟谢广明罗文广《兵工自动化》2014,33(1):76-81

基于粒子群优化(particle swarm optimization,PSO)算法的良好性能,已经在多个领域被广泛应用,主要综述PSO算法在机器人领域中的应用情况以及发展前景。首先介绍PSO算法的特点,对现有PSO算法在机器人领域中的应用方法进行归类,分析每种应用的优缺点,并针对存在的问题提出改进意见。基于以上对比分析,提出了PSO算法在该领域进一步的发展方向。相似文献

11.

基于Q学习的捷变频雷达频点跟踪与决策方法

赵桐陆满君张文旭曲海山张涛《制导与引信》2021,(4):32-38

针对捷变频雷达载频在一定频带内不断变化导致干扰方不能有效跟踪雷达频点的问题,提出了一种基于Q学习算法的捷变频雷达频点跟踪决策方法.通过分析强化学习的自主学习特点,将Q学习的思想映射于频点跳变系统中,并设计了频点跟踪与决策的算法流程.以某频点跳变策略为基础,分析捷变频雷达及干扰方干扰的频点跳变状态,构建频点状态序列,通过... 相似文献

12.

基于强化学习的多发导弹协同攻击智能制导律 总被引：1，自引：0，他引：1

陈中原韦文书陈万春《兵工学报》2021,42(8):1638-1647

为实现多发导弹对目标的协同攻击,提升打击效能,提出一种基于深度确定性策略梯度下降神经网络的强化学习协同制导律.修正了基于线性交战动力学的剩余飞行时间估计方程,不再受小角度假设的约束,进而提高剩余飞行时间估计精度.以各弹的剩余飞行时间误差为协调变量,与各弹的剩余飞行距离一同作为强化学习算法的观测量.利用脱靶量和剩余飞行时... 相似文献

13.

基于强化学习的无人机集群对抗策略推演仿真

曹子建孙泽龙闫国闯傅妍芳杨博李秦洁雷凯麟高领航《兵工学报》2023,(S2):126-134

无人机集群在军事战争、公共安全和商业领域的应用越来越广泛,但在复杂多变的对抗环境下,制定高效的策略仍然是一个挑战。为使无人机集群能够自主学习和适应对抗环境的变化,提高任务执行的效率和成功率,提出一种基于值分解的多智能体强化学习算法框架,在仿真平台模拟不同对抗场景下的无人机集群行为,通过强化学习算法,培养无人机集群在不同情境下做出决策的能力,以实现任务目标的最优化。讨论不同强化学习算法在无人机集群对抗策略中的应用和性能比较。实验结果表明,该算法在多种集群对抗环境下均表现出良好的效果,展现出其在军事无人机集群对抗中的有力支持。相似文献

14.

基于禁忌捜索与微粒群优化算法的混合优化策略算法在目标分配问题上的应用

丁铸马大为于存贵张学锋《兵工学报》2007,28(9):1127-1131

目标分配是地面防空作战指挥的关键环节。给出问题模型，并提出一种禁忌搜索与改进微粒群算法的混合优化策略用于解决该问题。仿真结果表明，与其它几种智能优化算法相比，该混合优化策略在解决目标分配问题时具有优良的优化性能和时间性能，在问题规模较大时表现更为突出。相似文献

15.

基于作战过程的岛礁兵力配置强化学习算法

下载免费PDF全文

肖凡《兵工自动化》2022,41(5):39-47

针对岛礁守备作战过程中涉及的对海、对陆、对空3 类武器,根据岛礁守备作战过程建立模型,提出一种动态动作空间方法。设置敌方武器装备、预设阵地、防守要地3 类影响因素,利用不同的基于值函数的强化学习算法进行测试,通过测试能得到各武器装备最佳位置并判断预设阵地是否合理,通过比较可看出算法间各有优劣, 适合的环境各不相同。结果表明：该方法能够运用于不同的环境,减少时空开销,提高岛礁守备决策的效率,有助于策略改进。相似文献

16.

基于安全强化学习的多智能体覆盖路径规划

李松麻壮壮张蕴霖邵晋梁《兵工学报》2023,(S2):101-113

覆盖路径规划的目的是为智能体找到一条安全的轨迹,其不仅可以有效覆盖任务区域,而且可以避开障碍物与邻近智能体。在执行覆盖任务时,复杂的大面积任务区域总是不可避免的。如何在保证智能体安全的前提下加强智能体之间的协同合作,以改善集群任务效率低、能力不足的缺点是值得探索的问题。为此,利用栅格地图建立离散的覆盖路径规划数学模型,提出一种基于值分解网络的安全多智能体强化学习算法,并通过理论证明论证其合理性。该算法通过分解群体价值函数以避免智能体的虚假奖励,有助于加强智能体之间协同覆盖策略的学习,以提高算法的收敛速度。通过在训练过程中引入屏蔽器以修正智能体的出界和碰撞等行为,保证智能体在整个任务过程中的安全。仿真和半实物实验结果表明,新算法不仅可以保证智能体的覆盖效率,同时还能有效维护智能体的安全。相似文献

17.

基于双层强化学习的干扰策略与干扰波形优化设计

辛祺辛增献马亮辛升陈涛《制导与引信》2023,(4):35-41

针对干扰策略与干扰波形联合优化设计问题,提出了一种基于双层强化学习的干扰策略与间歇采样转发干扰波形人工智能优化设计方法。该方法通过建立基于双层强化学习的干扰决策模型,外层利用Q学习(Q-learning)算法,基于雷达工作模式识别对干扰策略进行人工智能优化,内层利用深度Q学习网络(deep Q-leaning network, DQN)对非均匀间歇采样转发干扰波形进行人工智能优化,从而将一个干扰策略与相干干扰波形优化的二维决策问题转换为两个一维决策问题。仿真实验表明：该模型对于未知且复杂的电磁环境具有良好的自适应能力,为多层强化学习网络应用于复杂干扰决策场景提供了一种可行的解决方案。相似文献

18.

基于深度学习的单阶段目标检测算法研究综述 总被引：1，自引：0，他引：1

刘俊明孟卫华《航空兵器》2020,27(3):44-53

相似文献

19.

基于深度强化学习的三体对抗博弈策略研究

龚晓鹏陈万春陈中原《战术导弹技术》2022,(4):178-186+195

针对三体对抗场景中的攻防博弈问题,提出了基于深度强化学习的智能博弈策略,包括适用于进攻弹的攻击策略以及适用于目标/防御弹的主动防御策略。在经典三体对抗研究的基础上引入强化学习算法,提高了算法训练的目的性,同时在奖励函数设计中考虑了攻防对抗双方的奖惩条件。应用深度强化学习算法对攻防双方智能体进行训练,并得到收敛的博弈策略。仿真结果表明,通过训练获得的进攻弹的攻击策略能够根据战场态势合理规划机动行为,在避开防御弹攻击后仍能在短时间内成功命中目标;目标/防御弹的主动防御策略中的目标扮演诱饵角色,防御弹将进攻弹迅速锁定在拦截三角形上,从而使目标在战场上面临机动能力较强的进攻弹时,能够免于攻击。相似文献

20.

基于Q-learning算法的SAR导引头制导律设计研究

贺鹏超王宁钱军吴振华刘曦《战术导弹技术》2023,(5):124-130+150

基于任务装订工作方式的传统空地SAR导引头存在模式固定、成像-打击交接班弹体约束高准确度要求、作战系统资源调配自由度低,无法满足雷达导引头智能化作战需求。针对该问题,提出基于全信息链条利用的强化学习智能制导律算法。该算法以雷达导引头当前位置和速度为输入状态,以导弹施加法向过载为动作空间,充分考虑到末制导弹载SAR成像视场角和前视跟踪打击脱靶量约束,以成像检测和跟踪打击脱靶量作为奖励函数。在连续的状态空间和动作空间中,雷达导引头能根据战场态势自主选择制导律动作。实验表明,所提算法可综合中制导单脉冲扫描、末制导聚束成像与前视跟踪打击弹体前倾角和曲线轨迹控制约束要求,并可根据目标成像结果合理调配SAR成像时间,提高打击目标识别准确率,具有一定的SAR导引头制导智能决策打击能力,并可灵活适应不同作战任务。相似文献