首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 171 毫秒
1.
为了完成非结构化环境中的机器人轴孔装配任务,提出了一种融入模糊奖励机制的深度确定性策略梯度(DDPG)变参数导纳控制算法,来提升未知环境下的装配效率。建立了轴孔装配接触状态力学模型,并开展轴孔装配机理研究,进而指导机器人装配策略的制定。基于导纳控制器实现柔顺轴孔装配,采用DDPG算法在线辨识控制器的最优参数,并在奖励函数中引入模糊规则,避免陷入局部最优装配策略,提高装配操作质量。在5种不同直径的孔上进行装配实验,并与定参数导纳模型装配效果进行比较。实验结果表明,本文算法明显优于固定参数模型,并在算法收敛后10步内可完成装配操作,有望满足非结构环境自主操作需求。  相似文献   

2.
一种基于DTW-GMM的机器人多机械臂多任务协同策略   总被引:1,自引:0,他引:1  
为了控制机器人完成复杂的多臂协作任务, 提出了一种基于动态时间规整?高斯混合模型(Dynamic time warping-Gaussian mixture model, DTW-GMM)的机器人多机械臂多任务协同策略. 首先, 针对机器人示教时轨迹时间长短往往存在较大差异的问题, 采用动态时间规整方法来统一时间的变化; 其次, 基于动态时间规整的多机械臂示教轨迹, 采用高斯混合模型对轨迹的特征进行提取, 并以某一机械臂的位置空间矢量作为查询向量, 基于高斯混合回归泛化输出其余机械臂的执行轨迹; 最后, 在Pepper仿人机器人平台上验证了所提出的多机械臂协同策略, 基于DTW-GMM算法控制机器人完成了双臂协作搬运任务和汉字轨迹的书写任务. 提出的基于DTW-GMM算法的多任务协同策略简单有效, 可以利用反馈信息实时协调各机械臂的任务, 在线生成平滑的协同轨迹, 控制机器人完成复杂的协作操作.  相似文献   

3.
刘环  钱堃  桂博兴  马旭东 《机器人》2019,41(5):574-582
针对机器人示范学习过程中任务泛化与动作轨迹泛化问题,提出了一种将多演示动作轨迹的任务参数化学习与动作序列推理相结合的方法.针对通用动作基元的多演示轨迹样本,利用动态运动基元进行轨迹编码并建立任务参数化模型,利用高斯过程回归学习外部参数与模型参数之间的映射.针对新的任务实例,利用规划域定义语言推理缺失动作序列,任务参数化模型根据新的外部参数泛化出动作的目标轨迹,并修正轨迹误差.在UR5机器人上的实验表明,面对不同任务实例和环境变化,该方法可灵活生成动作序列并调整泛化目标,基于多演示的任务参数化模型能够对给定外部参数泛化出平滑的目标轨迹,泛化效果优于单一演示轨迹,提高了机器人任务泛化的能力.  相似文献   

4.
基于分层强化学习的通用装配序列规划算法   总被引:1,自引:0,他引:1  
对于装配序列规划问题,现有算法大多聚焦于单一的目标构型.对于多目标构型以及大规模问题,现有算法往往存在维数灾难及泛化能力差等问题.为此,利用装配序列规划问题分层结构的特点,提出一种基于分层强化学习的适用于多构型装配任务的通用装配序列规划方法.首先,将装配序列规划问题构建为一个分层的马尔科夫决策过程,其中,上层进行序列规...  相似文献   

5.
强化学习在移动机器人自主导航中的应用   总被引:1,自引:1,他引:1       下载免费PDF全文
概述了移动机器人常用的自主导航算法及其优缺点,在此基础上提出了强化学习方法。描述了强化学习算法的原理,并实现了用神经网络解决泛化问题。设计了基于障碍物探测传感器信息的机器人自主导航强化学习方法,给出了学习算法中各要素的数学模型。经仿真验证,算法正确有效,具有良好的收敛性和泛化能力。  相似文献   

6.
该型号样机的研究目标是研制一台带有多传感器(二维视觉、六维力传感器)、多任务操作、可离线编程的高速、高精度、4轴SCARA平面关节型、直接驱动伺服控制的智能精密装配机器人原型样机。它的主要设计原则是以掌握精密装配机器人的设计与制造技术为主,攻克并集成多项关键技术研制高性能精密装配机器人。 “精密1号”装配机器人的主要总体功能为:具有直接驱动型4轴平面关节,速度高、精度高;  相似文献   

7.
图像质量客观评价广泛应用在图像处理任务中,参考深度学习技术的研究成果,提出了一种基于并行小规模卷积神经网络的无参考图像质量评估算法。卷积操作和并行的多尺度输入能学习到丰富和细微的图像失真特征,首先利用高斯图像金字塔获取不同尺度的失真图像做为4路小规模单层卷积神经网络的输入,经过卷积和池化处理后,输出4路特征矢量,把学习到的特征矢量融合后,通过全连接回归映射为图像质量预测分数。参数优化分2个阶段完成,提高了模型精度。实验测试结果表明,设计的网络模型简单有效,提出的算法性能高于当前主流算法,具有很好的稳定性和较强的泛化能力。   相似文献   

8.
陈鑫  魏海军  吴敏  曹卫华 《自动化学报》2013,39(12):2021-2031
提高适应性、实现连续空间的泛化、降低维度是实现多智能体强化学习(Multi-agent reinforcement learning,MARL)在连续系统中应用的几个关键. 针对上述需求,本文提出连续多智能体系统(Multi-agent systems,MAS)环境下基于模型的智能体跟踪式学习机制和算法(MAS MBRL-CPT).以学习智能体适应同伴策略为出发点,通过定义个体期望即时回报,将智能体对同伴策略的观测融入环境交互效果中,并运用随机逼近实现个体期望即时回报的在线学习.定义降维的Q函数,在降低学习空间维度的同时,建立MAS环境下智能体跟踪式学习的Markov决策过程(Markov decision process,MDP).在运用高斯回归建立状态转移概率模型的基础上,实现泛化样本集Q值函数的在线动态规划求解.基于离散样本集Q函数运用高斯回归建立值函数和策略的泛化模型. MAS MBRL-CPT在连续空间Multi-cart-pole控制系统的仿真实验表明,算法能够使学习智能体在系统动力学模型和同伴策略未知的条件下,实现适应性协作策略的学习,具有学习效率高、泛化能力强等特点.  相似文献   

9.
陈平  李灿  雷学军 《控制与决策》2023,38(4):963-970
面向机器人柔顺装配圆轴与圆孔零件,建立基于3D、单目视觉与导纳控制的机器人自动装配系统,提出基于三维点云的轴线位姿估计算法、图像深度学习目标检测、导纳控制结合的圆轴孔零件的装配策略.针对3D视觉估计圆孔零件位姿问题,重点研究基于三维点云的轴线位姿估计算法.首先,介绍三维点云关键点选取方法;然后,以点云表面法线与轴线的几何约束为基础,提出并分析轴线粗估计的算法;最后,在轴线粗估计的基础上,提出并分析基于迭代鲁棒最小二乘的轴线位姿优化的算法.实验结果表明:轴线位姿估计的角度均方根误差为0.248°,位置均方根误差为0.463 mm,与现有流行的轴线估计方法相比,所提方法的精度更高,使装配策略很好地满足了机器人圆形轴孔零件装配的精度高、稳定可靠的要求.  相似文献   

10.
深度强化学习在机械臂路径规划的应用中仍面临样本需求量大和获取成本高的问题.针对这些问题,本文基于数据增强的思路,提出了深度强化学习与旋量法的融合算法.本算法通过旋量法将与环境交互所得的自然轨迹进行有效复制,使深度强化学习样本利用率和算法训练效率得到提高;复制轨迹的同时对被控物体、障碍物等环境元素进行同步复制,以此提高机械臂在非结构环境中的泛化性能.最后,在具备物理模拟引擎的Mujoco仿真平台中,通过Fetch机械臂和UR5机械臂在非结构化环境下进行实验对比分析,结果表明了本文算法对于提升深度强化学习样本利用率和机械臂模型泛化性能的可行性及有效性.  相似文献   

11.
多机器人动态编队的强化学习算法研究   总被引:8,自引:0,他引:8  
在人工智能领域中,强化学习理论由于其自学习性和自适应性的优点而得到了广泛关注.随着分布式人工智能中多智能体理论的不断发展,分布式强化学习算法逐渐成为研究的重点.首先介绍了强化学习的研究状况,然后以多机器人动态编队为研究模型,阐述应用分布式强化学习实现多机器人行为控制的方法.应用SOM神经网络对状态空间进行自主划分,以加快学习速度;应用BP神经网络实现强化学习,以增强系统的泛化能力;并且采用内、外两个强化信号兼顾机器人的个体利益及整体利益.为了明确控制任务,系统使用黑板通信方式进行分层控制.最后由仿真实验证明该方法的有效性.  相似文献   

12.
Recently, robot learning through deep reinforcement learning has incorporated various robot tasks through deep neural networks, without using specific control or recognition algorithms. However, this learning method is difficult to apply to the contact tasks of a robot, due to the exertion of excessive force from the random search process of reinforcement learning. Therefore, when applying reinforcement learning to contact tasks, solving the contact problem using an existing force controller is necessary. A neural-network-based movement primitive (NNMP) that generates a continuous trajectory which can be transmitted to the force controller and learned through a deep deterministic policy gradient (DDPG) algorithm is proposed for this study. In addition, an imitation learning algorithm suitable for NNMP is proposed such that the trajectories similar to the demonstration trajectory are stably generated. The performance of the proposed algorithms was verified using a square peg-in-hole assembly task with a tolerance of 0.1 mm. The results confirm that the complicated assembly trajectory can be learned stably through NNMP by the proposed imitation learning algorithm, and that the assembly trajectory is improved by learning the proposed NNMP through the DDPG algorithm.  相似文献   

13.
In this work, we combined the model based reinforcement learning (MBRL) and model free reinforcement learning (MFRL) to stabilize a biped robot (NAO robot) on a rotating platform, where the angular velocity of the platform is unknown for the proposed learning algorithm and treated as the external disturbance. Nonparametric Gaussian processes normally require a large number of training data points to deal with the discontinuity of the estimated model. Although some improved method such as probabilistic inference for learning control (PILCO) does not require an explicit global model as the actions are obtained by directly searching the policy space, the overfitting and lack of model complexity may still result in a large deviation between the prediction and the real system. Besides, none of these approaches consider the data error and measurement noise during the training process and test process, respectively. We propose a hierarchical Gaussian processes (GP) models, containing two layers of independent GPs, where the physically continuous probability transition model of the robot is obtained. Due to the physically continuous estimation, the algorithm overcomes the overfitting problem with a guaranteed model complexity, and the number of training data is also reduced. The policy for any given initial state is generated automatically by minimizing the expected cost according to the predefined cost function and the obtained probability distribution of the state. Furthermore, a novel Q(λ) based MFRL method scheme is employed to improve the policy. Simulation results show that the proposed RL algorithm is able to balance NAO robot on a rotating platform, and it is capable of adapting to the platform with varying angular velocity.   相似文献   

14.
针对现有基于策略梯度的深度强化学习方法应用于办公室、走廊等室内复杂场景下的机器人导航时,存在训练时间长、学习效率低的问题,本文提出了一种结合优势结构和最小化目标Q值的深度强化学习导航算法.该算法将优势结构引入到基于策略梯度的深度强化学习算法中,以区分同一状态价值下的动作差异,提升学习效率,并且在多目标导航场景中,对状态价值进行单独估计,利用地图信息提供更准确的价值判断.同时,针对离散控制中缓解目标Q值过估计方法在强化学习主流的Actor-Critic框架下难以奏效,设计了基于高斯平滑的最小目标Q值方法,以减小过估计对训练的影响.实验结果表明本文算法能够有效加快学习速率,在单目标、多目标连续导航训练过程中,收敛速度上都优于柔性演员评论家算法(SAC),双延迟深度策略性梯度算法(TD3),深度确定性策略梯度算法(DDPG),并使移动机器人有效远离障碍物,训练得到的导航模型具备较好的泛化能力.  相似文献   

15.
机器人动态神经网络导航算法的研究和实现   总被引:1,自引:0,他引:1  
针对Pioneer3-DX 移动机器人, 提出了基于强化学习的自主导航策略, 完成了基于动态神经网络的移动机器人导航算法设计. 动态神经网络可以根据机器人环境状态的复杂程度自动地调整其结构, 实时地实现机器人的状态与其导航动作之间的映射关系, 有效地解决了强化学习中状态变量表的维数爆炸问题. 通过对Pioneer3-DX移动机器人导航进行仿真和实物实验, 证明该方法的有效性, 且导航效果明显优于人工势场法.  相似文献   

16.
Human–Robot Collaboration (HRC) is a term used to describe tasks in which robots and humans work together to achieve a goal. Unlike traditional industrial robots, collaborative robots need to be adaptive; able to alter their approach to better suit the situation and the needs of the human partner. As traditional programming techniques can struggle with the complexity required, an emerging approach is to learn a skill by observing human demonstration and imitating the motions; commonly known as Learning from Demonstration (LfD). In this work, we present a LfD methodology that combines an ensemble machine learning algorithm (i.e. Random Forest (RF)) with stochastic regression, using haptic information captured from human demonstration. The capabilities of the proposed method are evaluated using two collaborative tasks; co-manipulation of an object (where the human provides the guidance but the robot handles the objects weight) and collaborative assembly of simple interlocking parts. The proposed method is shown to be capable of imitation learning; interpreting human actions and producing equivalent robot motion across a diverse range of initial and final conditions. After verifying that ensemble machine learning can be utilised for real robotics problems, we propose a further extension utilising Weighted Random Forest (WRF) that attaches weights to each tree based on its performance. It is then shown that the WRF approach outperforms RF in HRC tasks.  相似文献   

17.
在经典的基于混合高斯模型减背景算法的基础上,在脉冲耦合神经网络(PCNN)对前景和背景的分割过程中,运用了多阈值思想,其迭代次数由简化的最大熵准则决定,并且提出了一种新的模型学习率。经过实验证明,该算法在检测能力、抑制噪声、稳定性等方面得到了较好的改进。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号