首页 | 本学科首页   官方微博 | 高级检索  
     

基于改进强化学习的多智能体追逃对抗
引用本文:薛雅丽,叶金泽,李寒雁.基于改进强化学习的多智能体追逃对抗[J].浙江大学学报(自然科学版 ),2023(8):1479-1486+1515.
作者姓名:薛雅丽  叶金泽  李寒雁
作者单位:南京航空航天大学自动化学院
基金项目:国家自然科学基金资助项目(62073164);
摘    要:针对多智能体追逃问题,提出基于优先经验回放和解耦奖励函数的多智能体强化学习算法.将多智能体深度确定性策略梯度算法(MADDPG)和双延迟-确定策略梯度算法(TD3)相结合,提出多智能体双延迟-确定策略梯度算法(MATD3).针对多智能体追逃问题中奖励函数存在大量稀疏奖励的问题,提出利用优先经验回放方法确定经验优先度以及采样高价值经验.设计解耦奖励函数,将奖励函数分为个体奖励和联合奖励以最大化全局奖励和局部奖励,提出DEPER-MATD3算法.基于此算法设计仿真实验,并与其他算法对比,实验结果表明,该算法有效解决了过估计问题,且耗时相比MATD3算法有所减少.在解耦奖励函数环境下该算法训练的追击者的全局平均奖励升高,追击者有更大的概率追击到逃逸者.

关 键 词:追逃对抗  强化学习  经验回放  多智能体  奖励函数
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号