期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

靳栋银李跃邵振洲施智平关永《计算机工程与应用》2022,58(19):302-308

针对基于深度强化学习的机械臂轨迹规划方法学习效率较低,规划策略鲁棒性差的问题,提出了一种基于语音奖励函数的机械臂轨迹规划方法,利用语音定义规划任务的不同状态,并采用马尔科夫链对状态进行建模,为轨迹规划提供全局指导,降低深度强化学习优化的盲目性。提出的方法结合了基于语音的全局信息和基于相对距离的局部信息来设计奖励函数,在每个状态根据相对距离与语音指导的契合程度对机械臂进行奖励或惩罚。实验证明,设计的奖励函数能够有效地提升基于深度强化学习的机械臂轨迹规划的鲁棒性和收敛速度。相似文献

2.

基于改进动态运动基元的6D轨迹规划

王健发王耀南陈文锐刁强《控制理论与应用》2022,39(5):809-818

动态运动基元(DMPs)轨迹规划方法可以简化机械臂控制中参数调整的复杂过程,快速生成运动轨迹,但是面对姿态的流形特性以及跨零点情况,现有的DMPs很难达到预期的效果.本文提出了一种基于改进DMPs的笛卡尔空间6D轨迹规划方法.该方法采用四元数描述姿态,实现了位置轨迹与姿态轨迹的无奇异表示.通过解耦强迫函数与起–终点状态差值项之间的关联,消除了跨零点引起的轨迹抖动、无法生成与翻转等问题.此外,基于机械臂和障碍物间的距离与偏角建立了虚拟阻抗关系,并将其耦合到动力学模型中,实现了机械臂末端的避障控制,避免了避障行为过早问题,有利于减少消耗.机械臂6D轨迹规划仿真和实验表明,本文提出的改进DMPs方法有效. 相似文献

3.

基于改进蚁群算法的六自由度机械臂轨迹规划

米汤《工业控制计算机》2023,(9):67-70

为了解决六自由度械臂末端轨迹的平稳性和效率的问题,针对多关节机械臂末端轨迹提出了一种基于改进蚁群算法的多关节机械臂轨迹规划。采用了关节空间轨迹方法包括B样条插值、三次多项式插值和五次多项式插值进行实验分析论证,同时根据改进的蚁群算法对机械臂的轨迹进行规划,对比位置的准确性、轨迹的连续性、加速度的变化率,确定最后的轨迹规划算法为改进的蚁群算法与多项式轨迹规划相结合效果最好。相似文献

4.

基于强化学习的挖掘机时间最优轨迹规划

张韵悦孙志毅孙前来王银《控制与决策》2024,39(5):1433-1440

针对挖掘机的自主作业场景,提出基于强化学习的时间最优轨迹规划方法.首先,搭建仿真环境用于产生数据,以动臂、斗杆和铲斗关节的角度、角速度为状态观测变量,以各关节的角加速度值为动作信息,通过状态观测信息实现仿真环境与自主学习算法的交互;然后,设计以动臂、斗杆和铲斗关节运动是否超出允许范围、完成任务总时间和目标相对距离为奖励函数对策略网络参数进行训练;最后,利用改进的近端策略优化算法(proximal policy optimization, PPO)实现挖掘机的时间最优轨迹规划.与此同时,与不同连续动作空间的强化学习算法进行对比,实验结果表明:所提出优化算法效率更高,收敛速度更快,作业轨迹更平滑,可有效避免各关节受到较大冲击,有助于挖掘机高效、平稳地作业. 相似文献

5.

基于强化学习的煤矸石分拣机械臂智能控制算法研究

张永超于智伟丁丽林《工矿自动化》2021,47(1):36-42

针对传统煤矸石分拣机械臂控制算法如抓取函数法、基于费拉里法的动态目标抓取算法等依赖于精确的环境模型、且控制过程缺乏自适应性,传统深度确定性策略梯度(DDPG)等智能控制算法存在输出动作过大及稀疏奖励容易被淹没等问题,对传统DDPG算法中的神经网络结构和奖励函数进行了改进,提出了一种适合处理六自由度煤矸石分拣机械臂的基于强化学习的改进DDPG算法。煤矸石进入机械臂工作空间后,改进DDPG算法可根据相应传感器返回的煤矸石位置及机械臂状态进行决策,并向相应运动控制器输出一组关节角状态控制量,根据煤矸石位置及关节角状态控制量控制机械臂运动,使机械臂运动到煤矸石附近,实现煤矸石分拣。仿真实验结果表明:改进DDPG算法相较于传统DDPG算法具有无模型通用性强及在与环境交互中可自适应学习抓取姿态的优势,可率先收敛于探索过程中所遇的最大奖励值,利用改进DDPG算法控制的机械臂所学策略泛化性更好、输出的关节角状态控制量更小、煤矸石分拣效率更高。相似文献

6.

基于能耗优化的深海电动机械臂轨迹规划

白云飞张奇峰范云龙翟新宝田启岩唐元贵张艾群《机器人》2020,42(3):301-308

由于深海电动机械臂动力学模型较为复杂,难以基于动力学模型构建精确的能耗优化目标函数,因此,本文提出一种利用径向基函数（RBF）神经网络构建机械臂功耗模型的方法．首先,利用机械臂水下运动实验数据集训练所构建的RBF神经网络．利用基于该神经网络的功耗模型,结合机械臂关节空间轨迹规划多项式,建立机械臂能耗目标函数．然后,采用自适应粒子群优化（PSO）算法求解最优轨迹参数．结果显示,RBF功耗网络均方根误差（RMSE）为20.89 W;经过优化的轨迹的能耗比实验轨迹的能耗均值降低410.8 J（18.3%）．实验结果表明基于自适应PSO算法的轨迹规划方法实现了能耗优化的目标．相似文献

7.

基于模型的强化学习在无人机路径规划中的应用

杨思明单征曹江郭佳郁高原郭洋王平王景王晓楠《计算机工程》2022,48(12):255

针对当前强化学习算法在无人机升空平台路径规划任务中样本效率低、算法鲁棒性较差的问题,提出一种基于模型的内在奖励强化学习算法。采用并行架构将数据收集操作和策略更新操作完全解耦,提升算法学习效率,并运用内在奖励的方法提高智能体对环境的探索效率,避免收敛到次优策略。在策略学习过程中,智能体针对模拟环境的动态模型进行学习,从而在有限步内更好地预测状态、奖励等信息。在此基础上,通过结合有限步的规划计算以及神经网络的预测,提升价值函数的预测精准度,以利用较少的经验数据完成智能体的训练。实验结果表明,相比同样架构的无模型强化学习算法,该算法达到相同训练水平所需的经验数据量减少近600幕数据,样本效率和算法鲁棒性都有大幅提升,相比传统的非强化学习启发类算法,分数提升接近8 000分,与MVE等主流的基于模型的强化学习算法相比,平均分数可以提升接近2 000分,且在样本效率和稳定性上都有明显提高。相似文献

8.

基于改进灰狼算法的机械臂力矩最优轨迹研究

李克讷贺之祥唐春怡胡旭初《电子制作．电脑维护与应用》2023,(15):70-73

针对求解机械臂关节驱动力矩最小化问题，提出一种改进灰狼算法（GWO）对机械臂关节驱动力矩进行优化。首先，以五次多项式对机械臂进行轨迹插值，以机械臂各关节的角度、角速度、角加速度为约束条件，以各关节最小驱动力矩均值和为目标函数，建立了I力矩最优轨迹规划问题的数学模型；其次，为提高传统灰狼算法(GWO)的性能，提出了一种基于非线性控制参数策略的改进灰狼算法，用GWO对I机械臂运行轨迹进行优化求解，得到机械臂关节力矩均值和最小的运行路径，并与GWO、粒子群算法（PSO）进行对比。仿真实验表明，GWO收敛时间更短，所得最优力矩和更小，且规划出的机械臂各关节角度、速度曲线光滑、加速度曲线连续，验证了该力矩优化方法的有效性。相似文献

9.

基于HS-RRV算法的空间机械臂在轨装配运动规划

蔡鹏岳晓奎《机器人》2023,(2):166-178

提出一种基于RRV(rapidly-exploring random vine)的混合采样算法（HS-RRV），以解决空间机械臂在拥挤杂乱环境下进行装配操作时运动规划效率低下的问题。首先，提出同时在工作空间和构形空间采样的策略，且采样权重随着算法进程动态调节，从而能够在保证算法完备性的前提下充分利用工作空间信息缩小采样范围以提高算法规划效率。其次，在局部规划器设计中，利用分层二次最小二乘规划方法，考虑了机械臂运动学和动力学特性与约束，提高了所规划轨迹的可执行性。当算法陷入局部复杂区域时，利用桥测试和主成分分析法对局部空间类型进行辨识，从而获取更加高效的拓展方向。最后，对所提方法与现有方法在多种装配场景下进行对比仿真，结果表明本方法有更高的运行效率和规划成功率，以及较短的轨迹长度。相似文献

10.

基于力觉引导的机械臂自适应开门旋拧方法

蒋元陈刘宏伟刘满禄张俊俊《计算机应用研究》2021,38(6):1804-1808

针对核应急环境中,环境模型未知、人工开门危险性较大的问题,提出了一种基于力觉引导的机械臂自适应开门旋拧方法.该方法通过机械臂末端的六维力传感器获得力和力矩信息,将实际力或力矩与期望力或力矩之间的差值作为深度确定性策略梯度算法的状态输入,同时输出动作;利用机械臂末端所受两个方向力的函数关系,设置基础奖励函数,通过机械臂的期望运动方向,设置引导性奖励函数,使机械臂自动适应力与力矩的变化,完成旋拧门把手任务.仿真数据结果表明,在有引导性奖励的情况下,基于力觉引导的机械臂自适应旋拧方法能够在更短的时间内达到收敛,完成机械臂旋拧门把手的任务. 相似文献

11.

Human-robot collaboration while sharing production activities in dynamic environment: SPADER system

《Robotics and Computer》2017

Interactive robot doing collaborative work in hybrid work cell need adaptive trajectory planning strategy. Indeed, systems must be able to generate their own trajectories without colliding with dynamic obstacles like humans and assembly components moving inside the robot workspace. The aim of this paper is to improve collision-free motion planning in dynamic environment in order to insure human safety during collaborative tasks such as sharing production activities between human and robot. Our system proposes a trajectory generating method for an industrial manipulator in a shared workspace. A neural network using a supervised learning is applied to create the waypoints required for dynamic obstacles avoidance. These points are linked with a quintic polynomial function for smooth motion which is optimized using least-square to compute an optimal trajectory. Moreover, the evaluation of human motion forms has been taken into consideration in the proposed strategy. According to the results, the proposed approach is an effective solution for trajectories generation in a dynamic environment like a hybrid workspace. 相似文献

12.

电能表检验台体串联机械臂时间最优轨迹规划

下载免费PDF全文

欧新周璐张鸷吴月家赵云斌《计算机工程与应用》2022,58(6):250-255

时间最优轨迹规划有助于缩短机械臂运动时间,提高工作效率,在机械臂实际应用场景中起着至关重要的作用.针对串联机械臂点到点运动的时间最优轨迹规划问题,提出一种基于改进多种群遗传算法的最优轨迹规划方法.通过五次多项式插值对机械臂运动路径进行拟合,利用改进的多种群遗传算法对机械臂运动时间进行优化,改进之处包括:设计含有惩罚项的... 相似文献

13.

AL-ProMP: Force-relevant skills learning and generalization method for robotic polishing

《Robotics and Computer》2023

Skill learning in robot polishing is gaining attention and becoming a hot issue. Current studies on skill learning in robot polishing are mainly about trajectory skills, and force-relevant skills learning models are less studied. A skill learning method with good generalization and robustness is one of the elements worth investigating. In this study, a force-relevant skills learning method called arc-length probabilistic movement primitives (AL-ProMP) is proposed to improve the efficiency of robot polishing force planning. AL-ProMP learns the mapping between the contact force and polishing trajectory, and the temporal scaling factor and force scaling factor in AL-ProMP enable better robustness of force planning in speed scaling tasks and polishing tasks in different scenarios. Speed scaling is an important property for adaptation of the polishing policy. For the generalization of polishing skills to different polishing tools in robotics disc polishing tasks of unknown geometric model workpieces, a novel force scaling factor for different polishing discs is proposed according to the contact force model. In addition, polishing contact position learning provides the basis for polishing trajectory generalization. Finally, it is experimentally verified that the proposed method is effective in learning and generalizing the demonstrated skills and improving the polishing surface quality of the workpiece with unknown geometric model. 相似文献

14.

面向稀疏奖励的机器人操作技能学习

吴培良张彦毛秉毅陈雯柏高国伟《控制理论与应用》2024,41(1):99-108

基于深度强化学习的机器人操作技能学习成为研究热点, 但由于任务的稀疏奖励性质, 学习效率较低. 本文提出了基于元学习的双经验池自适应软更新事后经验回放方法, 并将其应用于稀疏奖励的机器人操作技能学习问题求解. 首先, 在软更新事后经验回放算法的基础上推导出可以提高算法效率的精简值函数, 并加入温度自适应调整策略, 动态调整温度参数以适应不同的任务环境; 其次, 结合元学习思想对经验回放进行分割, 训练时动态调整选取真实采样数据和构建虚拟数的比例, 提出了DAS-HER方法; 然后, 将DAS-HER算法应用到机器人操作技能学习中, 构建了一个稀疏奖励环境下具有通用性的机器人操作技能学习框架; 最后, 在Mujoco下的Fetch和Hand环境中, 进行了8项任务的对比实验, 实验结果表明, 无论是在训练效率还是在成功率方面, 本文算法表现均优于其他算法. 相似文献

15.

空间机器人最优能耗捕获目标的自适应跟踪控制 总被引：1，自引：0，他引：1

柳强金明河刘宏王滨《机器人》2022,44(1):77-89

提出了一种能够引导末端执行器以期望速度跟踪目标的轨迹规划方法。该方法可以实现避障并满足关节限制要求。基于轨迹规划方法,设计了一种利用自由飘浮空间机器人跟踪与捕获章动自旋卫星的自适应控制策略。此外,该控制策略还考虑了最优能耗、测量误差和优化误差。首先,为了使执行器的跟踪误差和机械臂的能耗最小,将空间机器人的控制策略描述为一个关于关节速度、力矩和避障距离的不等式约束优化问题。然后,推导出一个系数为下三角矩阵的显式状态方程,并对目标函数进行解耦和线性化。设计了一种关节速度和力矩分段优化方法去代替传统的凸二次规划方法求解最优问题,这种方法具有较高的计算效率。最后,利用李雅普诺夫稳定性理论验证了所提控制方法的收敛性。相似文献

16.

人群环境中基于深度强化学习的移动机器人避障算法

孙立香孙晓娴刘成菊靖文《信息与控制》2022,51(1):107-118

为了控制移动机器人在人群密集的复杂环境中高效友好地完成避障任务,本文提出了一种人群环境中基于深度强化学习的移动机器人避障算法。首先,针对深度强化学习算法中值函数网络学习能力不足的情况,基于行人交互（crowd interaction）对值函数网络做了改进,通过行人角度网格（angel pedestrian grid）对行人之间的交互信息进行提取,并通过注意力机制（attention mechanism）提取单个行人的时序特征,学习得到当前状态与历史轨迹状态的相对重要性以及对机器人避障策略的联合影响,为之后多层感知机的学习提供先验知识;其次,依据行人空间行为（human spatial behavior）设计强化学习的奖励函数,并对机器人角度变化过大的状态进行惩罚,实现了舒适避障的要求;最后,通过仿真实验验证了人群环境中基于深度强化学习的移动机器人避障算法在人群密集的复杂环境中的可行性与有效性。相似文献

17.

基于多智能体强化学习的微装配任务规划方法

下载免费PDF全文

徐兴辉唐大林顾书豪左佳祺王晓东任同群《计算机测量与控制》2023,31(8):217-223

现有装配任务规划方式多为人工规划，存在低效、高成本、易误操作等问题，为此分析了微装配操作的任务特点，以及对微装配中多操作臂协作与竞争关系进行了详细分析，并提出多智能体强化学习中符合微装配任务特点的动作空间、状态空间以及奖励函数的构建方法；利用CoppeliaSim仿真软件构建合理的仿真模型，对已有设备进行物理建模，构建了基于多智能体深度确定性策略梯度算法的学习模型并进行训练，在仿真环境中对设计的状态、动作空间以及奖励函数进行了逐项实验验证，最终获得了稳定的路径以及完整的任务实施方案；仿真结果表明，提出的环境构建方法，更契合直角坐标运动为主要框架的微装配任务，能够克服现有规划方法的不足，能够实现可实际工程化的多臂协同操作，提高任务的效率以及规划的自动化程度。相似文献

18.

基于Lagrangian支持向量机的机械手鲁棒自适应控制

刘红平《计算机工程与应用》2015,51(5):266-270

提出了一种基于Lagrangian支持向量机的不确定机械手鲁棒自适应控制方法。Lagrangian支持向量机采用梯度投影法学习机械手系统的未知部分,来对机械手系统进行非线性补偿。根据Lyapunov稳定性理论设计自适应律进一步在线调整支持向量机的参数,并叠加一个滑模控制项,以保证控制系统的稳定性和鲁棒性。对两关节机械手的仿真结果证明了以上控制方法的有效性。相似文献

19.

改进深度强化学习的室内移动机器人路径规划

下载免费PDF全文

成怡郝密密《计算机工程与应用》2021,57(21):256-262

为了解决传统深度强化学习在室内未知环境下移动机器人路径规划中存在探索能力差和环境状态空间奖励稀疏的问题,提出了一种基于深度图像信息的改进深度强化学习算法。利用Kinect视觉传感器直接获取的深度图像信息和目标位置信息作为网络的输入,以机器人的线速度和角速度作为下一步动作指令的输出。设计了改进的奖惩函数,提高了算法的奖励值,优化了状态空间,在一定程度上缓解了奖励稀疏的问题。仿真结果表明,改进算法提高了机器人的探索能力,优化了路径轨迹,使机器人有效地避开了障碍物,规划出更短的路径,简单环境下比DQN算法的平均路径长度缩短了21.4%,复杂环境下平均路径长度缩短了11.3%。相似文献