首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到16条相似文献,搜索用时 140 毫秒
1.
针对传统煤矸石分拣机械臂控制算法如抓取函数法、基于费拉里法的动态目标抓取算法等依赖于精确的环境模型、且控制过程缺乏自适应性,传统深度确定性策略梯度(DDPG)等智能控制算法存在输出动作过大及稀疏奖励容易被淹没等问题,对传统DDPG算法中的神经网络结构和奖励函数进行了改进,提出了一种适合处理六自由度煤矸石分拣机械臂的基于强化学习的改进DDPG算法。煤矸石进入机械臂工作空间后,改进DDPG算法可根据相应传感器返回的煤矸石位置及机械臂状态进行决策,并向相应运动控制器输出一组关节角状态控制量,根据煤矸石位置及关节角状态控制量控制机械臂运动,使机械臂运动到煤矸石附近,实现煤矸石分拣。仿真实验结果表明:改进DDPG算法相较于传统DDPG算法具有无模型通用性强及在与环境交互中可自适应学习抓取姿态的优势,可率先收敛于探索过程中所遇的最大奖励值,利用改进DDPG算法控制的机械臂所学策略泛化性更好、输出的关节角状态控制量更小、煤矸石分拣效率更高。  相似文献   

2.
针对现有双足机器人智能控制算法存在的轨迹偏差大、效率低等问题,提出了一种基于D-DQN强化学习的控制算法;先分析双足机器人运动中的坐标变换关系和关节连杆补偿过程,然后基于Q值网络实现对复杂运动非线性过程降维处理,采用了Q值网络权值和辅助权值的双网络权值设计方式,进一步强化DQN网络性能,并以Tanh函数作为神经网络的激活函数,提升DQN网络的数值训练能力;在数据训练和交互中经验回放池发挥出关键的辅助作用,通过将奖励值输入到目标函数中,进一步提升对双足机器人的控制精度,最后通过虚拟约束控制的方式提高双足机器人运动中的稳定性;实验结果显示:在D-DQN强化学习的控制算法,机器人完成第一阶段测试的时间仅为115 s,综合轨迹偏差0.02 m,而且步态切换极限环测试的稳定性良好。  相似文献   

3.
基于深度强化学习的双足机器人斜坡步态控制方法   总被引:1,自引:0,他引:1  
为提高准被动双足机器人斜坡步行稳定性, 本文提出了一种基于深度强化学习的准被动双足机器人步态控制方法. 通过分析准被动双足机器人的混合动力学模型与稳定行走过程, 建立了状态空间、动作空间、episode过程与奖励函数. 在利用基于DDPG改进的Ape-X DPG算法持续学习后, 准被动双足机器人能在较大斜坡范围内实现稳定行走. 仿真实验表明, Ape-X DPG无论是学习能力还是收敛速度均优于基于PER的DDPG. 同时, 相较于能量成型控制, 使用Ape-X DPG的准被动双足机器人步态收敛更迅速、步态收敛域更大, 证明Ape-X DPG可有效提高准被动双足机器人的步行稳定性.  相似文献   

4.
为了解决初始和终端确定的一类离散时间非线性系统有限时间优化控制,利用动态规划原理求解过程中遇到维数灾的问题,提出了基于神经网络的自适应动态规划近似优化控制.在分析动态规划求解遇到维数灾的基础上,进而给出了迭代ADP算法,并采用神经网络近似代价函数和控制律来实现迭代ADP算法,设计近似优化控制器.通过mat lab实验仿真结果表明,采用迭代ADP算法能够避免求解中遇到的维数灾,从而有效地实现了一类离散时间非线性系统的有限时间近似优化控制.  相似文献   

5.
针对深度确定性策略梯度算法(DDPG)收敛速度比较慢,训练不稳定,方差过大,样本应用效率低的问题,提出了一种基于随机方差减小梯度方法的深度确定性策略梯度算法(SVR-DDPG)。该算法通过利用随机方差减小梯度技术(SVRG)提出一种新的创新优化策略,将之运用到DDPG算法之中,在DDPG算法的参数更新过程中,加入了随机方差减小梯度技术,利用该方法的更新方式,使得估计的梯度方差有一个不断减小的上界,令方差不断缩小,从而在小的随机训练子集的基础上找到更加精确的梯度方向,以此来解决了由近似梯度估计误差引发的问题,加快了算法的收敛速度。将SVR-DDPG算法以及DDPG算法应用于Pendulum和Mountain Car问题,实验结果表明,SVR-DDPG算法具有比原算法更快的收敛速度,更好的稳定性,以此证明了算法的有效性。  相似文献   

6.
针对连续状态空间的非线性系统控制问题,提出一种基于残差梯度法的神经网络Q学习算法。该算法采用多层前馈神经网络逼近Q值函数,同时利用残差梯度法更新神经网络参数以保证收敛性。引入经验回放机制实现神经网络参数的小批量梯度更新,有效减少迭代次数,加快学习速度。为了进一步提高训练过程的稳定性,引入动量优化。此外,采用Softplus函数代替一般的ReLU激活函数,避免了ReLU函数在负数区域值恒为零所导致的某些神经元可能永远无法被激活,相应的权重参数可能永远无法被更新的问题。通过CartPole控制任务的仿真实验,验证了所提算法的正确性和有效性。  相似文献   

7.
针对步行双足机器人实时步态规划问题,提出了一种改进的非线性模型预测控制(NMPC)方法.采用扩展的关节坐标,将单腿支撑相(SSP)和双腿支撑相(DSP)统一表示为一个非线性动力学模型.通过对SSP和DSP的3个阶段设定运动学和动力学虚拟约束,将复杂实时步态规划问题转化为4个以预测时域内控制量二次型为代价函数的NMPC问题.采用直接法将连续优化问题参数化为有限维优化问题,并采用惩罚函数法将状态变量约束转化为代价函数中的惩罚项,从而得到能够用渐进二次规划(SQP)求解的有限维静态优化问题.仿真结果表明,应用该方法对BIP机器人模型进行实时步态规划,实现了包含足部转动的动态步行,且机器人满足稳定性条件,不发生侧滑,从而证明了该方法的有效性和可实现性.  相似文献   

8.
为了提高AGV(automatic guided vehicle)在复杂未知环境下的搜索能力,提出了一种改进的深度确定性策略梯度(deep deterministic policy gradient, DDPG)算法。该算法通过构建经验回放矩阵和双层网络结构提高算法的收敛速度,并将波尔兹曼引入到ε-greedy搜索策略中,解决了AGV在选择最优动作时的局部最优问题;针对深度神经网络训练速度缓慢的问题,将优先级采样应用于深度确定性策略梯度算法中;为解决普通优先级采样复杂度过高的问题,提出了利用小批量优先采样方法训练网络。为了验证方法的有效性,通过栅格法建模并在不同的复杂环境下进行仿真实验对比,比较了不同算法的损失函数、迭代次数和回报值。实验结果表明,所提改进算法与原算法相比损失函数减小、迭代次数减少、回报值增加,验证了算法的有效性,同时为AGV在复杂环境下能够更加安全且快速地完成规划任务提供了新的思路。  相似文献   

9.
针对控制时滞及带饱和的一类离散时间非线性系统的最优控制问题,通过重构性能指标函数和对应的系统变换,处理了性能指标函数中的控制耦合项;继而引入一个合适的泛函,解决了控制带饱和问题.给出了一个新的性能指标函数,利用迭代自适应动态规划(ADP)算法获得最优控制.为实现该算法,采用神经网络逼近函数来求解最优控制问题.仿真结果验证了方法的有效性.  相似文献   

10.
王凡  欧勇盛 《集成技术》2012,1(1):15-19
通过已知质心精确反解计算仿人机器人各关节的角度是一个经常遇到的问题。在双足行走,平衡控制等领域都很常见。但对于自由度高的仿人机器人系统,质心逆运算比较困难,尤其在双足支撑情况下,问题变为一个多自由度的并联机构,此时需要额外的约束和限制条件,使得计算非常复杂。本文基于Levenberg-Marquardt算法来解决复杂关节的逆解问题,研究在给定踝关节的情况下,用假定质心固定身体上的简化模型来使得真实质心逼近目标点,然后通过重复逼近缩小误差。我们通过NAO仿人机器人模型上的模拟验证了该算法实现了较高的准确性和计算效率。  相似文献   

11.
基于零力矩点(ZMP)的预测控制是目前双足机器人步行控制中最先进的方法,但是预测控制需要比较精确的预测模型,在环境扰动导致模型失配时,预测控制的性能下降较快。为了解决这个问题,利用仿人智能控制对环境误差具有较强抑制的特点改进预测控制。探讨了在步行控制中引入仿人智能控制的必要性和仿人智能控制改进预测控制的可行性,并设计了仿人预测控制器。最后通过仿真实验验证了新的控制器对双足机器人步行控制的有效性。  相似文献   

12.
为了提高无人机(Unmanned Aerial Vehicle,UAV)系统的智能避障性能,提出了一种基于双延迟深度确定性策略梯度(Twin Delayed Deep Deterministic Policy Gradient,TD3)的改进算法(Improved Twin Delayed Deep Deterministic Policy Gradient,I-TD3)。该算法通过设置两个经验缓存池分离成功飞行经验和失败飞行经验,并根据两个经验缓存池的不同使用目的分别结合优先经验回放(Prioritized Experience Replay)方法和经验回放(Experience Replay)方法,提高有效经验的采样效率,缓解因无效经验过高导致的训练效率低问题。改进奖励函数,解决因奖励设置不合理导致的训练效果差问题。在AirSim平台上实现仿真实验,结果表明在四旋翼无人机的避障问题上,I-TD3算法的避障效果优于TD3算法和深度确定性策略梯度(Deep Deterministic Policy Gradient,DDPG)算法。  相似文献   

13.
深度确定性策略梯度算法(Deep Deterministic Policy Gradient,DDPG)作为深度强化学习中的经典算法,在连续控制问题上有着较大的优势,被应用于自动驾驶领域。针对DDPG缺少策略动作过滤导致的非法策略比例较高引起的训练效率低、收敛速度慢等问题,提出基于失败经验纠错的深度确定性策略梯度算法。通过分离经验缓存池,根据驾驶表现选择失败数据训练,并将策略网络单输出转化为油门和刹车控制量,通过正态分布噪声改善探索策略。TORCS平台仿真实验表明,所提算法相对于DDPG算法与DQN(Deep Q-learning Network)算法,训练效率明显提升,非法驾驶策略降低为0。  相似文献   

14.
深度强化学习善于解决控制的优化问题,连续动作的控制因为精度的要求,动作的数量随着动作维度的增加呈指数型增长,难以用离散的动作来表示。基于Actor-Critic框架的深度确定性策略梯度(Deep Deterministic Policy Gradient,DDPG)算法虽然解决了连续动作控制问题,但是仍然存在采样方式缺乏科学理论指导、动作维度较高时的最优动作与非最优动作之间差距被忽视等问题。针对上述问题,提出一种基于DDPG算法的优化采样及精确评价的改进算法,并成功应用于选择顺应性装配机器臂(Selective Compliance Assembly Robot Arm,SCARA)的仿真环境中,与原始的DDPG算法对比,取得了良好的效果,实现了SCARA机器人快速自动定位。  相似文献   

15.
为了提高栈式稀疏去噪自编码器(SSDA)的图像去噪性能,解决计算复杂度高,参数不易调节,训练收敛速度慢等问题,提出了一种栈式边缘化稀疏去噪自编码器(SMSDA)的图像去噪方法。首先,由于边缘化去噪自编码器(MDA)具有收敛速度快这一特性,对SDA网络损失函数作边缘化处理,形成边缘化稀疏去噪自编码器(MSDA),使其同时满足边缘性和稀疏性。其次,将多个MSDA堆叠构成深度神经网SMSDA,为避免模型参数局部最优,采用非监督逐层训练法分别训练每一层网络,再用BP算法对整个网络微调,从而获得最优权重。最后,用SMSDA对给定图像去噪。仿真结果表明,较SSDA而言,所提算法在降低计算复杂度、提高收敛速度的同时,拥有较高峰值信噪比(PSNR),且保留了更多原始图像的细节信息,具有更好的降噪性能。  相似文献   

16.
近年来,深度学习技术广泛应用于侧信道攻击(side channel attack,SCA)领域。针对在基于深度学习的侧信道攻击中训练集数量不足的问题,提出了一种用于侧信道攻击的功耗轨迹扩充技术,使用条件生成对抗网络(conditional generate against network,CGAN)实现对原始功耗轨迹的扩充,并使用深度神经网络进行侧信道攻击。通过选择密码运算中间值的汉明重量(hamming weight,HW)作为CGAN的约束条件,将CGAN生成模拟功耗轨迹作为多层感知器(multi-layer perceptron,MLP)神经网络的训练数据,构建模型实现密钥恢复。通过实验对不同类型训练集的攻击效果进行比较,结果表明,使用CGAN生成的功耗轨迹和原始功耗轨迹具有相同的特征,使用扩充后的功耗轨迹对MLP神经网络进行训练和测试,训练精度和测试精度分别提高15.3%和14.4%。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号