基于非策略Q-学习的网络控制系统最优跟踪控制 |
| |
作者姓名: | 李金娜 尹子轩 |
| |
作者单位: | 沈阳化工大学信息工程学院,沈阳110142;辽宁石油化工大学信息与控制工程学院,辽宁抚顺113001;东北大学流程工业综合自动化国家重点实验室,沈阳110004;沈阳化工大学信息工程学院,沈阳,110142 |
| |
基金项目: | 国家自然科学基金项目(61673280,61525302,61590922,61503257);辽宁省高等学校创新人才项目(LR20 17006);辽宁省自然基金计划重点领域联合开放基金项目(2019-KF-03-06);辽宁石油化工大学基金项目(2018XJJ-005). |
| |
摘 要: | 针对具有数据包丢失的网络化控制系统跟踪控制问题,提出一种非策略Q-学习方法,完全利用可测数据,在系统模型参数未知并且网络通信存在数据丢失的情况下,实现系统以近似最优的方式跟踪目标.首先,刻画具有数据包丢失的网络控制系统,提出线性离散网络控制系统跟踪控制问题;然后,设计一个Smith预测器补偿数据包丢失对网络控制系统性能的影响,构建具有数据包丢失补偿的网络控制系统最优跟踪控制问题;最后,融合动态规划和强化学习方法,提出一种非策略Q-学习算法.算法的优点是:不要求系统模型参数已知,利用网络控制系统可测数据,学习基于预测器状态反馈的最优跟踪控制策略;并且该算法能够保证基于Q-函数的迭代Bellman方程解的无偏性.通过仿真验证所提方法的有效性.
|
关 键 词: | 网络控制 非策略Q-学习 线性二次跟踪(LQT) 数据包丢失 |
本文献已被 万方数据 等数据库收录! |
| 点击此处可从《控制与决策》浏览原始摘要信息 |
|
点击此处可从《控制与决策》下载全文 |
|