排序方式: 共有5条查询结果,搜索用时 31 毫秒
1
1.
哺乳动物的运动学习机制已得到广泛研究,犬科动物可以根据环境反馈的引导性信息自主地学习运动技能,对其提供更为特定的训练引导可以加快其对相关任务的学习速度.受上述启发,在软演员-评论家算法(SAC)的基础上提出一种基于期望状态奖励引导的强化学习算法(DSG-SAC),利用环境中的状态反馈机制来引导四足机器人进行有效探索,可以提高四足机器人仿生步态学习效果,并提高训练效率.在该算法中,策略网络与评价网络先近似拟合期望状态观测与当前状态的误差,再经过当前状态的正反馈后输出评价函数与动作,使四足机器人朝着期望的方向动作.将所提出算法在四足机器人上进行验证,通过实验结果可知,所提出的算法能够完成四足机器人的仿生步态学习.进一步,设计消融实验来探讨超参数温度系数和折扣因子对算法的影响,实验结果表明,改进后的算法具有比单纯的SAC算法更加优越的性能. 相似文献
2.
目前,国内在香皂成型工段中,打印多沿用撞印机(即摇头打印机)直接打印,称热打印工艺。这种打印机的生产能力,每分钟约100块左右,产生回料约10%左右(我厂异形皂为10~15%),且噪音大,必须配备专人不断刷模等,所以生产效率低,成为整条生产线的薄弱环节。 相似文献
3.
低磷洗衣粉新型助剂的应用探讨 总被引:2,自引:0,他引:2
本论述了助洗剂LPN,PN-1的性能,并探讨在低磷洗衣粉的应用及对生产过程的影响。 相似文献
4.
具备学习能力是高等动物智能的典型表现特征, 为探明四足动物运动技能学习机理, 本文对四足机器人步
态学习任务进行研究, 复现了四足动物的节律步态学习过程. 近年来, 近端策略优化(PPO)算法作为深度强化学习
的典型代表, 普遍被用于四足机器人步态学习任务, 实验效果较好且仅需较少的超参数. 然而, 在多维输入输出场
景下, 其容易收敛到局部最优点, 表现为四足机器人学习到步态节律信号杂乱且重心震荡严重. 为解决上述问题,
在元学习启发下, 基于元学习具有刻画学习过程高维抽象表征优势, 本文提出了一种融合元学习和PPO思想的元近
端策略优化(MPPO)算法, 该算法可以让四足机器人进化学习到更优步态. 在PyBullet仿真平台上的仿真实验结果表
明, 本文提出的算法可以使四足机器人学会行走运动技能, 且与柔性行动者评价器(SAC)和PPO算法的对比实验显
示, 本文提出的MPPO算法具有步态节律信号更规律、行走速度更快等优势. 相似文献
5.
1