基于粒子群优化和深度强化学习的策略搜索方法期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

基于粒子群优化和深度强化学习的策略搜索方法

引用本文：	彭坤彦,尹翔,刘笑竹,李恒宇.基于粒子群优化和深度强化学习的策略搜索方法[J].计算机工程与科学,2023(4):718-725.

作者姓名：	彭坤彦尹翔刘笑竹李恒宇

作者单位：	扬州大学信息工程学院(人工智能学院)

基金项目：	江苏省自然科学基金(BK20190878)；

摘要：	深度强化学习DRL算法是一种常用的策略搜索方法，已成功应用于一系列具有挑战性的控制任务。但是，由于DRL难以应对奖励稀疏问题，缺乏有效的探索以及对超参数具有极其敏感的脆弱收敛性，使其难以应用于大规模实际问题。粒子群优化算法PSO是一种进化优化算法，它使用整个episode的累积回报作为适应性值，对奖励稀疏的环境不敏感，且该算法也具有基于种群的多样化探索以及稳定的收敛性，但样本效率低。因此，提出了PSO-RL算法，结合PSO和基于策略梯度的离策略DRL算法，DRL通过PSO种群提供的多种数据来训练种群中累积奖励最低的几个策略，并且每次都将训练后累积奖励得到提升的策略插入PSO种群，增强DRL与PSO之间的信息交流。PSO-RL算法能够提升PSO的样本效率，而且能够改善DRL算法的性能和稳定性。在pybullet模块具有挑战性的连续控制任务中的实验结果表明，PSO-RL的性能不仅优于DRL的，且优于进化强化学习算法的。
关键词：	粒子群优化策略搜索深度强化学习策略梯度强化学习

设为首页 | 免责声明 | 关于勤云 | 加入收藏