首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 203 毫秒
1.
王斐  齐欢  周星群  王建辉 《机器人》2018,40(4):551-559
为解决现有机器人装配学习过程复杂且对编程技术要求高等问题,提出一种基于前臂表面肌电信号和惯性多源信息融合的隐式交互方式来实现机器人演示编程.在通过演示学习获得演示人的装配经验的基础上,为提高对装配对象和环境变化的自适应能力,提出了一种多工深度确定性策略梯度算法(M-DDPG)来修正装配参数,在演示编程的基础上,进行强化学习确保机器人稳定执行任务.在演示编程实验中,提出一种改进的PCNN(并行卷积神经网络),称作1维PCNN(1D-PCNN),即通过1维的卷积与池化过程自动提取惯性信息与肌电信息特征,增强了手势识别的泛化性和准确率;在演示再现实验中,采用高斯混合模型(GMM)对演示数据进行统计编码,利用高斯混合回归(GMR)方法实现机器人轨迹动作再现,消除噪声点.最后,基于Primesense Carmine摄像机采用帧差法与多特征图核相关滤波算法(MKCF)的融合跟踪算法分别获取X轴与Y轴方向的环境变化,采用2个相同的网络结构并行进行连续过程的深度强化学习.在轴孔相对位置变化的情况下,机械臂能根据强化学习得到的泛化策略模型自动对机械臂末端位置进行调整,实现轴孔装配的演示学习.  相似文献   

2.
针对传统煤矸石分拣机械臂控制算法如抓取函数法、基于费拉里法的动态目标抓取算法等依赖于精确的环境模型、且控制过程缺乏自适应性,传统深度确定性策略梯度(DDPG)等智能控制算法存在输出动作过大及稀疏奖励容易被淹没等问题,对传统DDPG算法中的神经网络结构和奖励函数进行了改进,提出了一种适合处理六自由度煤矸石分拣机械臂的基于强化学习的改进DDPG算法。煤矸石进入机械臂工作空间后,改进DDPG算法可根据相应传感器返回的煤矸石位置及机械臂状态进行决策,并向相应运动控制器输出一组关节角状态控制量,根据煤矸石位置及关节角状态控制量控制机械臂运动,使机械臂运动到煤矸石附近,实现煤矸石分拣。仿真实验结果表明:改进DDPG算法相较于传统DDPG算法具有无模型通用性强及在与环境交互中可自适应学习抓取姿态的优势,可率先收敛于探索过程中所遇的最大奖励值,利用改进DDPG算法控制的机械臂所学策略泛化性更好、输出的关节角状态控制量更小、煤矸石分拣效率更高。  相似文献   

3.
深度强化学习是指利用深度神经网络的特征表示能力对强化学习的状态、动作、价值等函数进行拟合,以提升强化学习模型性能,广泛应用于电子游戏、机械控制、推荐系统、金融投资等领域。回顾深度强化学习方法的主要发展历程,根据当前研究目标对深度强化学习方法进行分类,分析与讨论高维状态动作空间任务上的算法收敛、复杂应用场景下的算法样本效率提高、奖励函数稀疏或无明确定义情况下的算法探索以及多任务场景下的算法泛化性能增强问题,总结与归纳4类深度强化学习方法的研究现状,同时针对深度强化学习技术的未来发展方向进行展望。  相似文献   

4.
为完成机械臂在非特定环境下的自主抓取,系统采用微软公司研发的Kinect对场景内的信息进行实时检测.通过对Kinect采集的深度信息进行背景相减法和帧差法处理可以获得目标抓取点信息.利用基于工作空间的RRT算法对机械臂末端进行路径规划,并利用梯度投影法进行逆运动学轨迹优化,求解关节轨迹.机械臂按照关节角运动时,可完成目标的抓取.通过设计一套实时桌面清理实验系统,验证了该方法的有效性.  相似文献   

5.
针对基于深度强化学习的机械臂轨迹规划方法学习效率较低,规划策略鲁棒性差的问题,提出了一种基于语音奖励函数的机械臂轨迹规划方法,利用语音定义规划任务的不同状态,并采用马尔科夫链对状态进行建模,为轨迹规划提供全局指导,降低深度强化学习优化的盲目性。提出的方法结合了基于语音的全局信息和基于相对距离的局部信息来设计奖励函数,在每个状态根据相对距离与语音指导的契合程度对机械臂进行奖励或惩罚。实验证明,设计的奖励函数能够有效地提升基于深度强化学习的机械臂轨迹规划的鲁棒性和收敛速度。  相似文献   

6.
针对机械臂突发单关节故障的情况,提出一种基于深度强化学习的机械臂容错控制方法。在建立环境模型和奖罚机制的基础上,针对机械臂正常运行和故障运行的情况,使用无模型的强化学习算法进行离线训练。在Rviz中建立机械臂模型并使用上述网络进行在线控制。实验证明:该算法可以有效完成机械臂的正常控制和容错控制。  相似文献   

7.
现有基于深度强化学习的机械臂轨迹规划方法在未知环境中学习效率偏低,规划策略鲁棒性差。为了解决上述问题,提出了一种基于新型方位奖励函数的机械臂轨迹规划方法A-DPPO,基于相对方向和相对位置设计了一种新型方位奖励函数,通过降低无效探索,提高学习效率。将分布式近似策略优化(DPPO)首次用于机械臂轨迹规划,提高了规划策略的鲁棒性。实验证明相比现有方法,A-DPPO有效地提升了学习效率和规划策略的鲁棒性。  相似文献   

8.
针对二连杆机械臂的运动控制问题,提出了一种基于深度强化学习的控制方法。首先,搭建机械臂仿真环境,包括二连杆机械臂、目标物与障碍物;然后,根据环境模型的目标设置、状态变量和奖罚机制来建立三种深度强化学习模型进行训练,最后实现二连杆机械臂的运动控制。对比分析所提出的三种模型后,选择深度确定性策略梯度(DDPG)算法进行进一步研究来改进其适用性,从而缩短机械臂模型的调试时间,顺利避开障碍物到达目标。实验结果表明,所提深度强化学习方法能够有效控制二连杆机械臂的运动,改进后的DDPG算法控制模型的收敛速度提升了两倍并且收敛后的稳定性增强。相较于传统控制方法,所提深度强化学习控制方法效率更高,适用性更强。  相似文献   

9.
基于运动学模型重构的单关节故障机械臂容错路径规划   总被引:2,自引:1,他引:1  
陈钢  郭雯  贾庆轩  王宣 《控制与决策》2018,33(8):1436-1442
针对单关节故障机械臂的路径规划问题,提出一种基于运动学模型重构的容错路径规划方法.首先基于旋量理论进行单关节故障机械臂的通用运动学模型重构;然后分析机械臂的退化工作空间,并以运动性能平稳为约束对其进行栅格化处理;最后通过改进传统的A$^\ast$算法,在退化工作空间中搜索出能够满足任务要求的轨迹.以七自由度机械臂为对象进行仿真实验,验证了所提出方法的正确性和有效性.  相似文献   

10.
机械臂三维避障算法研究   总被引:2,自引:0,他引:2  
为解决现有机械臂避障算法计算量大且难以实现非结构环境下三维避障问题,对分解运动速度控制算法(RMRC)进行了改进,并将其应用到Motoman机械臂三维避障中.通过对Motoman机械臂机构的合理简化和RMRC算法的进一步改进,利用Matlab搭建的Motoman机械臂仿真模型,在具有静态和动态障碍物的三维环境中对连续轨迹(CP)和点到点(PTP)的运动控制进行了仿真,最后利用所搭建的遥操作系统时改进后的算法进行验证.仿真和实验结果证明了算法的有效性和实用性.  相似文献   

11.
针对深度强化学习算法在复杂动态环境中训练时,由于环境的部分可观测性原因导致智能体难以获得有用信息而不能学习到良好策略且算法收敛速度慢等典型问题,提出一种基于LSTM和非对称actor-critic网络的改进DDPG算法。该算法在actor-critic网络结构中引入LSTM结构,通过记忆推理来学习部分可观测马尔可夫状态中的隐藏状态,同时在actor网络只使用RGB图像作为部分可观测输入的情况下,critic网络利用仿真环境的完全状态进行训练构成非对称网络,加快了训练收敛速度。通过在ROS中进行机械臂抓取仿真实验,结果显示该算法相比于DDPG、PPO和LSTM-DDPG算法获得了更高的成功率,同时具有较快的收敛速度。  相似文献   

12.
使用强化学习解决机器人操作问题有着诸多优势,然而传统的强化学习算法面临着奖励稀疏的困难,且得到的策略难以直接应用到现实环境中。为了提高策略从仿真到现实迁移的成功率,提出了基于目标的域随机化方法:使用基于目标的强化学习算法对模型进行训练,可以有效地应对机器人操作任务奖励稀疏的情况,得到的策略可以在仿真环境下良好运行,与此同时在算法中还使用了目标驱动的域随机化方法,在提高策略泛用性以及克服仿真和现实环境之间的差距上有着良好的效果,仿真环境下的策略容易迁移到现实环境中并成功执行。结果表明,使用了基于目标的域随机化方法的强化学习算法有助于提高策略从仿真到现实迁移的成功率。  相似文献   

13.
高铁行车调度是一个复杂的多阶段序列决策问题,需要考虑列车、线路设备等条件,且决策空间随问题规模的增大呈指数增长.而深度强化学习(DQN)兼备强大的搜索和学习能力,为高铁调度提供了新的解决方案,但存在经验利用效率低、迁移能力差等问题.本文提出一种基于优先经验回放可迁移深度强化学习的高铁调度方法.将包含股道运用计划等约束的高铁调度问题构建为多阶段序列决策过程,为提高算法的迁移能力,提出一种新的支持源域和目标域共享的状态向量和动作空间.为提高经验的利用效率和算法的收敛速度,设计了一种融合优先经验回放的深度Q网络训练方法.以徐兰线小规模案例为源域问题的经验学习实验表明,所提算法的经验利用效率和算法收敛速度优于传统DQN算法,并可适当增大优先级指数和调节权重参数以改善其收敛性能.以京沪线繁忙路段的晚点案例为目标域问题,本文提出的在线决策算法相比于经典的混合整数规划算法,决策时间平均减少约75$%$,且在近77$%$的案例中,总晚点时间的性能损失在15$%$以内.  相似文献   

14.
现有装配任务规划方式多为人工规划,存在低效、高成本、易误操作等问题,为此分析了微装配操作的任务特点,以及对微装配中多操作臂协作与竞争关系进行了详细分析,并提出多智能体强化学习中符合微装配任务特点的动作空间、状态空间以及奖励函数的构建方法;利用CoppeliaSim仿真软件构建合理的仿真模型,对已有设备进行物理建模,构建了基于多智能体深度确定性策略梯度算法的学习模型并进行训练,在仿真环境中对设计的状态、动作空间以及奖励函数进行了逐项实验验证,最终获得了稳定的路径以及完整的任务实施方案;仿真结果表明,提出的环境构建方法,更契合直角坐标运动为主要框架的微装配任务,能够克服现有规划方法的不足,能够实现可实际工程化的多臂协同操作,提高任务的效率以及规划的自动化程度。  相似文献   

15.
车辆行驶控制决策是无人驾驶的核心技术,现有基于深度强化学习的无人驾驶控制决策算法存在处理数据效率低、无法有效提取状态间时序特征等问题.因此本文提出了一种基于多步积累奖励的双重时序Q网络算法.首先,设计了一种多步积累奖励方法,该方法对未来多步即时奖励的累加和进行均值化,与当前即时奖励共同作用于智能体的控制策略,并在奖励函...  相似文献   

16.
解决深度探索问题的贝叶斯深度强化学习算法   总被引:1,自引:0,他引:1  
在强化学习领域,如何平衡探索与利用之间的关系是一个难题。近几年提出的强化学习方法主要关注如何结合深度学习技术来提高算法的泛化能力,却忽略探索利用困境这一问题。传统的强化学习方法可以有效解决探索问题,但存在着一定的限制条件:马尔可夫决策过程的状态空间必须是离散并有限的。提出通过贝叶斯方法来提高深度强化算法的探索效率,并将贝叶斯线性回归中计算参数后验分布的方法扩展到人工神经网络等非线性模型中,通过结合Bootstrapped DQN和提出的计算方法得到了贝叶斯自举深度Q网络算法(BBDQN)。最后用两个环境下的实验表明了BBDQN在面对深度探索问题时的探索效率要优于DQN以及Bootstrapped DQN。  相似文献   

17.
针对现有深度强化学习算法在状态空间维度大的环境中难以收敛的问题,提出了在时间维度上提取特征的基于一维卷积循环网络的强化学习算法;首先在深度Q网络(DQN,deep Q network)的基础上构建一个深度强化学习系统;然后在深度循环Q网络(DRQN,deep recurrent Q network)的神经网络结构基础上加入了一层一维卷积层,用于在长短时记忆(LSTM,long short-term memory)层之前提取时间维度上的特征;最后在与时序相关的环境下对该新型强化学习算法进行训练和测试;实验结果表明这一改动可以提高智能体的决策水平,并使得深度强化学习算法在非图像输入的时序相关环境中有更好的表现。  相似文献   

18.
虽然深度强化学习能够解决很多复杂的控制问题, 但是需要付出的代价是必须和环境进行大量的交互, 这是深度强化学习所面临的一大挑战. 造成这一问题的原因之一是仅依靠值函数损失难以让智能体从高维的复杂输入中提取有效特征. 导致智能体对所处状态理解不足, 从而不能正确给状态分配价值. 因此, 为了让智能体认识所处环境, 提高强化学习样本效率, 本文提出一种结合向前状态预测与隐空间约束的表示学习方法(regularized predictive representation learning, RPRL). 帮助智能体从高维视觉输入中学习并提取状态特征, 以此来提高强化学习样本效率. 该方法用前向的状态转移损失作为辅助损失, 使智能体学习到的特征包含环境转移的相关动态信息. 同时在向前预测的基础上添加正则化项对隐空间的状态表示进行约束, 进一步帮助智能体学习到高维度输入的平滑、规则表示. 该方法在DeepMind Control (DMControl)环境中与其他的基于模型的方法以及加入了表示学习的无模型方法进行比较, 都获得了更好的性能.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号