国产化环境下基于强化学习的地空协同作战仿真期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

国产化环境下基于强化学习的地空协同作战仿真

引用本文：	李理,李旭光,郭凯杰,史超,陈昭文.国产化环境下基于强化学习的地空协同作战仿真[J].兵工学报,2022(S1):74-81.

作者姓名：	李理李旭光郭凯杰史超陈昭文

作者单位：	中国兵器工业计算机应用技术研究所车辆综合电子研发部

摘要：	以未来战场无人地空协同作战为需求牵引，面对军事领域实战场景匮乏、训练数据不足的实际问题，聚焦仿真环境下的深度强化学习方法，实现地空协同作战仿真中多智能体决策模型。在飞腾CPU和昆仑K200硬件平台与麒麟V10操作系统环境下搭建虚拟仿真环境，设置仿真环境状态表征、各智能体动作空间及奖励机制，构建基于深度确定性策略梯度算法的多智能体模型(MADDPG),通过仿真实验验证采用MADDPG算法能够使奖励值在地空协同作战仿真场景中逐渐收敛，从而证明该模型应用于地空协同作战的决策有效性。
关键词：	地空协同作战强化学习深度确定性策略梯度算法多智能体模型国产化环境