首页 | 本学科首页   官方微博 | 高级检索  
     

基于粒子群优化和深度强化学习的策略搜索方法
引用本文:彭坤彦,尹翔,刘笑竹,李恒宇.基于粒子群优化和深度强化学习的策略搜索方法[J].计算机工程与科学,2023(4):718-725.
作者姓名:彭坤彦  尹翔  刘笑竹  李恒宇
作者单位:扬州大学信息工程学院(人工智能学院)
基金项目:江苏省自然科学基金(BK20190878);
摘    要:深度强化学习DRL算法是一种常用的策略搜索方法,已成功应用于一系列具有挑战性的控制任务。但是,由于DRL难以应对奖励稀疏问题,缺乏有效的探索以及对超参数具有极其敏感的脆弱收敛性,使其难以应用于大规模实际问题。粒子群优化算法PSO是一种进化优化算法,它使用整个episode的累积回报作为适应性值,对奖励稀疏的环境不敏感,且该算法也具有基于种群的多样化探索以及稳定的收敛性,但样本效率低。因此,提出了PSO-RL算法,结合PSO和基于策略梯度的离策略DRL算法,DRL通过PSO种群提供的多种数据来训练种群中累积奖励最低的几个策略,并且每次都将训练后累积奖励得到提升的策略插入PSO种群,增强DRL与PSO之间的信息交流。PSO-RL算法能够提升PSO的样本效率,而且能够改善DRL算法的性能和稳定性。在pybullet模块具有挑战性的连续控制任务中的实验结果表明,PSO-RL的性能不仅优于DRL的,且优于进化强化学习算法的。

关 键 词:粒子群优化  策略搜索  深度强化学习  策略梯度  强化学习
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号