首页 | 本学科首页   官方微博 | 高级检索  
     

基于MRD-DDPG的机械臂避障路径规划方法
作者姓名:付子强  郑威强  张立萍  何丽  袁亮  邵明明
作者单位:1. 新疆大学机械工程学院;2. 北京化工大学信息科学与技术学院
基金项目:国家自然科学基金项目(62063033);
摘    要:提出将MRD-DDPG算法应用在机械臂避障路径规划上,解决了DDPG算法在训练过程中学习效率低、样本利用率低的问题。首先,在DDPG算法的基础上,通过改进经验池机制,提出多经验池延迟采样的深度确定性策略梯度(multi-replay buffer delay sampling-deep deterministic policy gradient, MRD-DDPG)算法,有效的缓解了样本利用率低的问题;其次,针对机械臂交互探索过程中奖励稀疏问题,设计了一种适用于避障路径规划的位置奖励函数,有效的提高了智能体的学习效率。实验结果表明,机械臂避障路径规划的平均成功率达97%左右;MRD-DDPG算法相比于DDPG算法的平均成功率提升了88%;机械臂的平均规划时间为0.638 s。

关 键 词:深度强化学习  DDPG  奖励函数  机械臂  路径规划
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号