基于改进强化学习的多智能体追逃对抗期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

基于改进强化学习的多智能体追逃对抗

引用本文：	薛雅丽,叶金泽,李寒雁.基于改进强化学习的多智能体追逃对抗[J].浙江大学学报(自然科学版 ),2023(8):1479-1486+1515.

作者姓名：	薛雅丽叶金泽李寒雁

作者单位：	南京航空航天大学自动化学院

基金项目：	国家自然科学基金资助项目（62073164）；

摘要：	针对多智能体追逃问题，提出基于优先经验回放和解耦奖励函数的多智能体强化学习算法.将多智能体深度确定性策略梯度算法（MADDPG）和双延迟-确定策略梯度算法（TD3）相结合，提出多智能体双延迟-确定策略梯度算法（MATD3）.针对多智能体追逃问题中奖励函数存在大量稀疏奖励的问题，提出利用优先经验回放方法确定经验优先度以及采样高价值经验.设计解耦奖励函数，将奖励函数分为个体奖励和联合奖励以最大化全局奖励和局部奖励，提出DEPER-MATD3算法.基于此算法设计仿真实验，并与其他算法对比，实验结果表明，该算法有效解决了过估计问题，且耗时相比MATD3算法有所减少.在解耦奖励函数环境下该算法训练的追击者的全局平均奖励升高，追击者有更大的概率追击到逃逸者.
关键词：	追逃对抗强化学习经验回放多智能体奖励函数