首页 | 本学科首页   官方微博 | 高级检索  
     

深度确定性策略梯度学习的火星无人机控制
引用本文:孙丹,郑建华,高东,韩鹏.深度确定性策略梯度学习的火星无人机控制[J].计算机工程与应用,2023(8):288-296.
作者姓名:孙丹  郑建华  高东  韩鹏
作者单位:1. 中国科学院国家空间科学中心;2. 中国科学院大学
基金项目:北京市科技计划(Z191100004319004);
摘    要:为了降低控制器设计对火星无人机动力学模型的依赖,提高火星无人机控制系统的智能化水平,结合强化学习(reinforcement learning,RL)算法,提出了一种具有自主学习能力的火星无人机位置姿态控制器。该控制器由神经网络构成,利用深度确定性策略梯度(deep deterministic policy gradient,DDPG)算法进行学习,不断优化控制策略,最终获得满足控制要求的策略。仿真结果表明,在没有推导被控对象模型的前提下,基于DDPG算法的控制器通过学习,自主将火星无人机稳定控制到目标位置,且控制精度、调节时间等性能优于比例-积分-微分(proportion integration differentiation,PID)控制器的效果,验证了基于DDPG算法的控制器的有效性;此外,在被控对象模型改变或存在外部扰动的情况下,基于DDPG算法的控制器仍然能够稳定完成任务,控制效果优于PID控制器,表明基于DDPG算法的控制器具有良好的鲁棒性。

关 键 词:火星无人机  强化学习  自主控制  深度确定性策略梯度  策略优化
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号