基于粒子群优化和深度强化学习的策略搜索方法 |
| |
引用本文: | 彭坤彦,尹翔,刘笑竹,李恒宇.基于粒子群优化和深度强化学习的策略搜索方法[J].计算机工程与科学,2023(4):718-725. |
| |
作者姓名: | 彭坤彦 尹翔 刘笑竹 李恒宇 |
| |
作者单位: | 扬州大学信息工程学院(人工智能学院) |
| |
基金项目: | 江苏省自然科学基金(BK20190878); |
| |
摘 要: | 深度强化学习DRL算法是一种常用的策略搜索方法,已成功应用于一系列具有挑战性的控制任务。但是,由于DRL难以应对奖励稀疏问题,缺乏有效的探索以及对超参数具有极其敏感的脆弱收敛性,使其难以应用于大规模实际问题。粒子群优化算法PSO是一种进化优化算法,它使用整个episode的累积回报作为适应性值,对奖励稀疏的环境不敏感,且该算法也具有基于种群的多样化探索以及稳定的收敛性,但样本效率低。因此,提出了PSO-RL算法,结合PSO和基于策略梯度的离策略DRL算法,DRL通过PSO种群提供的多种数据来训练种群中累积奖励最低的几个策略,并且每次都将训练后累积奖励得到提升的策略插入PSO种群,增强DRL与PSO之间的信息交流。PSO-RL算法能够提升PSO的样本效率,而且能够改善DRL算法的性能和稳定性。在pybullet模块具有挑战性的连续控制任务中的实验结果表明,PSO-RL的性能不仅优于DRL的,且优于进化强化学习算法的。
|
关 键 词: | 粒子群优化 策略搜索 深度强化学习 策略梯度 强化学习 |
|
|