首页 | 本学科首页   官方微博 | 高级检索  
     

基于自适应噪声的最大熵进化强化学习方法
引用本文:王君逸, 王志, 李华雄, 陈春林. 基于自适应噪声的最大熵进化强化学习方法. 自动化学报, 2023, 49(1): 54−66 doi: 10.16383/j.aas.c220103
作者姓名:王君逸  王志  李华雄  陈春林
作者单位:1.南京大学控制科学与智能工程系 南京 210008
基金项目:国家自然科学基金(62006111, 62073160, 62176116), 江苏省自然科学基金(BK20200330)资助
摘    要:
近年来, 进化策略由于其无梯度优化和高并行化效率等优点, 在深度强化学习领域得到了广泛的应用. 然而, 传统基于进化策略的深度强化学习方法存在着学习速度慢、容易收敛到局部最优和鲁棒性较弱等问题. 为此, 提出了一种基于自适应噪声的最大熵进化强化学习方法.
首先, 引入了一种进化策略的改进办法, 在“优胜”的基础上加强了“劣汰”, 从而提高进化强化学习的收敛速度; 其次, 在目标函数中引入了策略最大熵正则项, 来保证策略的随机性进而鼓励智能体对新策略的探索; 最后, 提出了自适应噪声控制的方式, 根据当前进化情形智能化调整进化策略的搜索范围, 进而减少对先验知识的依赖并提升算法的鲁棒性. 实验结果表明, 该方法较之传统方法在学习速度、最优性收敛和鲁棒性上有比较明显的提升.


关 键 词:深度强化学习   进化策略   进化强化学习   最大熵   自适应噪声
收稿时间:2022-02-18
点击此处可从《自动化学报》浏览原始摘要信息
点击此处可从《自动化学报》下载免费的PDF全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号