基于强化学习补偿器的水下航行器姿态控制 |
| |
作者姓名: | 彭泽华 林晓波 潘光帅 |
| |
作者单位: | 1.中国科学院声学研究所水下航行器实验室;2.中国科学院大学; |
| |
基金项目: | 中国科学院国防科技重点实验室基金项目(编号:E229150101);国家自然科学基金(编号:61971412) |
| |
摘 要: | 自主式无人水下航行器(AUV)的动力学模型是一个多输入多输出、欠驱动强耦合的非线性系统,同时AUV的工作环境复杂多变,因此,对其姿态进行高精度控制是一个挑战。针对上述问题,本文提出了一个基于强化学习补偿器的AUV姿态控制方法,通过对历史经验数据的学习,实现在野外航行过程中抵抗未建模的不确定扰动和逐步提升姿态控制性能。主要贡献:(1)融合经典控制器和强化学习补偿器,通过经典控制器保障强化学习补偿器在训练过程中的系统稳定,通过训练好的强化学习补偿器抵抗不确定扰动和提升最终性能;(2)改进了传统的二次型的强化学习奖励函数,提升了训练速度和最终控制性能;(3)通过仿真验证了在神经网络权值随机初始化的条件下,本文设计的强化补偿控制器经过训练后可以收敛到稳定一致的性能。
|
关 键 词: | 水下航行器 强化学习 姿态控制 运动仿真 神经网络 |
本文献已被 维普 等数据库收录! |