共查询到20条相似文献,搜索用时 31 毫秒
1.
智能无人系统需要在复杂环境下快速稳定地进行决策,并具备应对非预期状态的能力。智能无人系统往往由于环境及任务复杂度高而难以实施决策管理,利用强化学习平台进行智能无人系统决策管理是很好的解决方案。针对智能无人系统所处的多样性、复杂性、高动态性和不确定性环境,利用强化学习平台进行智能无人系统决策管理,在传感器有限的情况下对环境和态势进行准确感知与决策,使智能体能够利用自学习和自适应能力快速完成决策。强化学习通过与环境的自主交互过程来学习决策策略,使得策略的长期累积奖励值最大,通过强化学习平台和仿真平台的对接来进行决策模型搭建和智能体训练,并通过对智能体输出策略的控制来实现智能无人系统的决策管理。 相似文献
2.
3.
针对海上航母平台飞机着舰调度排序的问题,利用交叉熵法对舰载机进近排序进行研究。根据航母平台
单一跑道的情况建立舰载机进近排序模型,并采用交叉熵法求解舰载机进近排序序列,最后通过数据仿真的方式进
行模型算法的验证。仿真结果表明:该优化算法可在改变较少架次飞机及较少总延误时间的情况下完成对舰载机进
近的排序,能够减少飞机的延误时间,具有较强实用性。 相似文献
4.
在机动作战仿真中,具有对战场威胁快速反应和决策能力的机动单元实体才更符合实际作战的情形。为此,提出了具有自主决策功能的机动单元智能体的结构模型,它由感知、威胁预测、决策、学习和执行等部分组成;建立了用于威胁预测的神经网络模型,并将智能体的决策描述为马尔可夫决策过程(MDP).面对复杂的决策环境,将强化学习技术运用其中,使得智能体通过不断观测新的环境状态,运用学习手段,作出最佳的策略选择。针对强化学习中状态空间大、现有算法收敛速度较慢等问题,提出了改进的SARSA(A)学习算法。仿真实验验证了强化学习下机动策略决策的有效性和改进算法的效率。 相似文献
5.
针对高超声速飞行器协同饱和打击需求,提出一种基于深度Q-学习网络(DQN)算法的深度强化学习横程机动再入协同制导方法。解耦设计高超声速飞行器横纵制导方法,基于高精度的纵程解析解,解析计算纵向升阻比得到倾侧角模值。抽象横向制导倾侧反转逻辑为马尔可夫决策问题,引入强化学习思想,设计一种基于DQN算法的横向智能机动决策器,构建智能体离线学习-在 线调用模式,计算倾侧角剖面的符号变化。以典型高超声速飞行器CAV-H为对象,基于数学分析MATLAB平台通过弹道仿真对该制导方法进行验证。仿真结果表明:新制导方法制导精度高,任务适应性强,可以在线使用,能够严格满足飞行时间约束和能量管理需求;相比于基于三维解析解的再入协同制导方法,新制导方法可以更大程度发挥飞行器的横向机动能力,具备更高的突防潜力。 相似文献
6.
针对无人水下航行器(unmanned underwater vehicle,UUV)如何进行任务分配、航路规划、指挥控制问题,
提出一种新的控制实现方法。搭建UUV 指挥智能体训练平台,设计学习训练所需的想定,进行状态设计、数据适配、
决策解析和规则库建立,选定近端策略优化(proximal policy optimization,PPO)强化学习算法进行训练,并进行应用
验证。结果表明:指挥智能体能有效对UUV 进行任务分配、航路规划、指挥控制;通过不断优化算法,可提高战胜
基于规则的传统控制方法的胜率。 相似文献
7.
8.
9.
以未来战场无人地空协同作战为需求牵引,面对军事领域实战场景匮乏、训练数据不足的实际问题,聚焦仿真环境下的深度强化学习方法,实现地空协同作战仿真中多智能体决策模型。在飞腾CPU和昆仑K200硬件平台与麒麟V10操作系统环境下搭建虚拟仿真环境,设置仿真环境状态表征、各智能体动作空间及奖励机制,构建基于深度确定性策略梯度算法的多智能体模型(MADDPG),通过仿真实验验证采用MADDPG算法能够使奖励值在地空协同作战仿真场景中逐渐收敛,从而证明该模型应用于地空协同作战的决策有效性。 相似文献
10.
在网络中心战体系下,以综合电子信息系统为框架,分析了智能鱼雷作战指挥层次;依据智能鱼雷在赋予网络潜能后所具备的新能力,提出了多种智能鱼雷与指挥平台及智能鱼雷间协同作战样式,为网络化智能鱼雷的作战指挥使用提供了参考。 相似文献
11.
12.
13.
美陆军部队信息系统发展现状美陆军信息系统建设已实现了本军种内部的互连互通,对陆军部队进行任务计划、部署、态势感知、指挥决策和保障等功能,初步具备战术级的互操作能力。指挥控制系统具有较高集成度和互操作能力美陆军作战指挥系统(ABCS)主要由战略和战术两级作战指挥系统构成,已被纳入国防部网络支撑指挥能力 相似文献
14.
为保证航母舰载机着舰安全性,提出了一种基于模糊控制的舰载机着舰指挥官(LandingSignalOfficer,LSO)引导决策系统建模方法。通过分析舰载机着舰过程安全影响因素,明确飞行状态变化量,总结LSO引导决策特点,针对LSO自身特点和工作原理,结合模糊控制理论,分别设计舰载机着舰指挥官横纵向回路模糊控制规则,建立LSO横纵向回路控制模型,评价指令优先级,最终完成LSO着舰引导综合决策系统模型的建立。数值仿真结果表明,利用模糊控制原理建立的LSO综合着舰引导模型,输出指令符合真实情况下着舰指挥官的实际操作指令,为舰载机着舰安全性的提高提供了帮助。 相似文献
15.
针对三体对抗场景中的攻防博弈问题,提出了基于深度强化学习的智能博弈策略,包括适用于进攻弹的攻击策略以及适用于目标/防御弹的主动防御策略。在经典三体对抗研究的基础上引入强化学习算法,提高了算法训练的目的性,同时在奖励函数设计中考虑了攻防对抗双方的奖惩条件。应用深度强化学习算法对攻防双方智能体进行训练,并得到收敛的博弈策略。仿真结果表明,通过训练获得的进攻弹的攻击策略能够根据战场态势合理规划机动行为,在避开防御弹攻击后仍能在短时间内成功命中目标;目标/防御弹的主动防御策略中的目标扮演诱饵角色,防御弹将进攻弹迅速锁定在拦截三角形上,从而使目标在战场上面临机动能力较强的进攻弹时,能够免于攻击。 相似文献
16.
17.
针对传统仿真系统中建模方法存在领域知识获取困难、生成行为固定、缺乏适应性等问题,提出基于静态约束的进化行为树方法构建智能体决策行为模型.在通用进化算法基础上自动生成反映智能体决策行为逻辑的行为树拓扑结构,通过通用学习方法与领域规则的较好结合提升决策模型的生成效率和适应性,并以坦克对战军事游戏中的决策行为建模为例进行验证.结果表明:该方法能增强决策逻辑的可解释性,具备可行性和科学性. 相似文献
18.
为解决复杂战场态势下影响舰载机对陆打击作战效能因素多、情况复杂的问题,提出一种基于BP 神经
网络学习算法的舰载机对陆打击作战效能评估模型。结合舰载机性能及战场环境,运用层次分析法构建舰载机对陆
打击作战效能评估指标体系;通过Matlab 工具进行动态评估仿真。仿真结果表明:该模型准确率能达到98.5%,验
证了模型的有效性和可行性,可为舰载机在战术应用方面提供一定的决策信息。 相似文献
19.
针对舰载机着舰回收引导任务指挥人员的能力评估问题,选用Delphi 法建立能力评估模型,运用层次分
析法确定各指标权重,设计指挥人员能力评估的BP 神经网络模型,以层次分析法得出的结果为样本对其进行训练
和测试。结果表明,该方法能避免人为失误并提高评估的准确性。 相似文献
20.
针对多智能体攻防体系存在多层次耦合、无规律涌现等特征而导致难以准确预测作战效能的问题,构建一种基于多层次长短时时间记忆(LSTM)网络的多智能体攻防效能动态预测模型。明确多智能体攻防的总体框架和作战流程,通过多主体NetLogo平台模拟红蓝智能体攻防对抗过程,以获取群体结构和作战效能在不同个体决策下的多层次演化数据。利用善于处理时序特征的LSTM网络来表征个体决策、群体结构和作战效能三层间的函数映射,并基于该映射关系进一步预测未来攻防作战效能与进程。上述建模方法已在多组仿真中证实了其可行性与有效性。实验结果表明,所建模型的作战效能预测误差仅在7%以内,对多智能体攻防的作战指挥和体系建设具有指导意义。 相似文献