深度确定性策略梯度学习的火星无人机控制期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

深度确定性策略梯度学习的火星无人机控制

引用本文：	孙丹,郑建华,高东,韩鹏.深度确定性策略梯度学习的火星无人机控制[J].计算机工程与应用,2023(8):288-296.

作者姓名：	孙丹郑建华高东韩鹏

作者单位：	1. 中国科学院国家空间科学中心;2. 中国科学院大学

基金项目：	北京市科技计划（Z191100004319004）；

摘要：	为了降低控制器设计对火星无人机动力学模型的依赖，提高火星无人机控制系统的智能化水平，结合强化学习（reinforcement learning,RL）算法，提出了一种具有自主学习能力的火星无人机位置姿态控制器。该控制器由神经网络构成，利用深度确定性策略梯度（deep deterministic policy gradient,DDPG）算法进行学习，不断优化控制策略，最终获得满足控制要求的策略。仿真结果表明，在没有推导被控对象模型的前提下，基于DDPG算法的控制器通过学习，自主将火星无人机稳定控制到目标位置，且控制精度、调节时间等性能优于比例-积分-微分（proportion integration differentiation,PID）控制器的效果，验证了基于DDPG算法的控制器的有效性；此外，在被控对象模型改变或存在外部扰动的情况下，基于DDPG算法的控制器仍然能够稳定完成任务，控制效果优于PID控制器，表明基于DDPG算法的控制器具有良好的鲁棒性。
关键词：	火星无人机强化学习自主控制深度确定性策略梯度策略优化

设为首页 | 免责声明 | 关于勤云 | 加入收藏