基于改进强化学习的多智能体追逃对抗 |
| |
引用本文: | 薛雅丽,叶金泽,李寒雁.基于改进强化学习的多智能体追逃对抗[J].浙江大学学报(自然科学版 ),2023(8):1479-1486+1515. |
| |
作者姓名: | 薛雅丽 叶金泽 李寒雁 |
| |
作者单位: | 南京航空航天大学自动化学院 |
| |
基金项目: | 国家自然科学基金资助项目(62073164); |
| |
摘 要: | 针对多智能体追逃问题,提出基于优先经验回放和解耦奖励函数的多智能体强化学习算法.将多智能体深度确定性策略梯度算法(MADDPG)和双延迟-确定策略梯度算法(TD3)相结合,提出多智能体双延迟-确定策略梯度算法(MATD3).针对多智能体追逃问题中奖励函数存在大量稀疏奖励的问题,提出利用优先经验回放方法确定经验优先度以及采样高价值经验.设计解耦奖励函数,将奖励函数分为个体奖励和联合奖励以最大化全局奖励和局部奖励,提出DEPER-MATD3算法.基于此算法设计仿真实验,并与其他算法对比,实验结果表明,该算法有效解决了过估计问题,且耗时相比MATD3算法有所减少.在解耦奖励函数环境下该算法训练的追击者的全局平均奖励升高,追击者有更大的概率追击到逃逸者.
|
关 键 词: | 追逃对抗 强化学习 经验回放 多智能体 奖励函数 |
|
|