基于近端策略优化和广义状态相关探索算法的双连续搅拌反应釜系统跟踪控制 |
| |
引用本文: | 史洪岩,付国城,潘多涛.基于近端策略优化和广义状态相关探索算法的双连续搅拌反应釜系统跟踪控制[J].信息与控制,2023(3):343-351. |
| |
作者姓名: | 史洪岩 付国城 潘多涛 |
| |
作者单位: | 沈阳化工大学信息工程学院辽宁省化工过程控制技术重点实验室 |
| |
基金项目: | 国家重点研发计划(2018YFB1700200);;辽宁省自然科学基金(2019-ZD-0069);;辽宁省教育厅科研面上项目(LJKZ0433); |
| |
摘 要: | 连续搅拌反应釜(continuous stirring tank reactor, CSTR)是经典的化工设备,被广泛应用于化工过程。由于其具有较强的非线性和时滞性,传统的控制方法无法满足其跟踪控制的精度要求。针对连续搅拌反应釜提出一种基于广义状态相关探索(generalized state-dependent exploration, gSDE)的近端策略优化(proximal policy optimization, PPO)算法的跟踪控制方法。首先使用机理模型模拟真实环境与PPO智能体进行交互;其次利用gSDE使每个回合的探索更稳定且方差更小,同时保证了探索的效果;最后通过增加反馈奖励的方式,解决环境稀疏奖励的问题,使得智能体学会如何对CSTR进行跟踪控制。将该算法应用于双CSTR系统进行测试。仿真结果表明,该算法对复杂非线性系统的跟踪控制具有训练过程平稳、控制误差小、对干扰的反应迅速等优势。
|
关 键 词: | 双连续搅拌反应釜 深度强化学习 非线性系统 近端策略优化算法 广义状态相关探索 |
|