基于自适应噪声的最大熵进化强化学习方法 |
| |
引用本文: | 王君逸, 王志, 李华雄, 陈春林. 基于自适应噪声的最大熵进化强化学习方法. 自动化学报, 2023, 49(1): 54−66 doi: 10.16383/j.aas.c220103 |
| |
作者姓名: | 王君逸 王志 李华雄 陈春林 |
| |
作者单位: | 1.南京大学控制科学与智能工程系 南京 210008 |
| |
基金项目: | 国家自然科学基金(62006111, 62073160, 62176116), 江苏省自然科学基金(BK20200330)资助 |
| |
摘 要: |  近年来, 进化策略由于其无梯度优化和高并行化效率等优点, 在深度强化学习领域得到了广泛的应用. 然而, 传统基于进化策略的深度强化学习方法存在着学习速度慢、容易收敛到局部最优和鲁棒性较弱等问题. 为此, 提出了一种基于自适应噪声的最大熵进化强化学习方法. 首先, 引入了一种进化策略的改进办法, 在“优胜”的基础上加强了“劣汰”, 从而提高进化强化学习的收敛速度; 其次, 在目标函数中引入了策略最大熵正则项, 来保证策略的随机性进而鼓励智能体对新策略的探索; 最后, 提出了自适应噪声控制的方式, 根据当前进化情形智能化调整进化策略的搜索范围, 进而减少对先验知识的依赖并提升算法的鲁棒性. 实验结果表明, 该方法较之传统方法在学习速度、最优性收敛和鲁棒性上有比较明显的提升.

|
关 键 词: | 深度强化学习 进化策略 进化强化学习 最大熵 自适应噪声 |
收稿时间: | 2022-02-18 |
|
| 点击此处可从《自动化学报》浏览原始摘要信息 |
|
点击此处可从《自动化学报》下载免费的PDF全文 |
|