期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

《传感器与微系统》2020,(1)

针对机械臂突发单关节故障的情况,提出一种基于深度强化学习的机械臂容错控制方法。在建立环境模型和奖罚机制的基础上,针对机械臂正常运行和故障运行的情况,使用无模型的强化学习算法进行离线训练。在Rviz中建立机械臂模型并使用上述网络进行在线控制。实验证明:该算法可以有效完成机械臂的正常控制和容错控制。相似文献

2.

基于深度强化学习的机械臂避障路径规划研究

《软件工程师》2019,(3):12-15

为了解决现有的机械臂焊接系统调整动作的难度大,缺乏灵活性的问题,本文采用了深度强化学习算法来解决机械臂的路径规划问题;该方法使用一个三层的DNN网络,输入为机械臂的状态信息,输出为机械臂的运动关节角度,通过离线训练,机械臂能够自行训练出一条接近于最优的运动轨迹,能够成功地避开障碍物到达目标点;仿真在一个三自由度点焊机器人的模拟平台上进行,仿真实验表明,采用深度强化学习技术的机械臂能为焊接机械臂规划出一条无碰撞的路径,具有较强的避障能力。相似文献

3.

基于深度强化学习的机械臂控制快速训练方法

赵寅甫冯正勇《计算机工程》2022,48(8):113-120

人工智能在机器人控制中得到广泛应用,机器人控制算法也逐渐从模型驱动转变为数据驱动。深度强化学习算法可在复杂环境中感知并决策,能够解决高维度和连续状态空间下的机械臂控制问题。然而,目前深度强化学习中数据驱动的训练过程非常依赖计算机GPU算力,且训练时间成本较大。提出基于深度强化学习的先简化模型（2D模型）再复杂模型（3D模型）的机械臂控制快速训练方法。采用深度确定性策略梯度算法代替机械臂传统控制算法中的逆运动学解算方法,直接通过数据驱动的训练过程控制机械臂末端到达目标位置,从而减小训练时间成本。同时,对于状态向量和奖励函数形式,使用不同的设置方式。将最终训练得到的算法模型在真实机械臂上进行实现和验证,结果表明,其控制效果达到了分拣物品的应用要求,相比于直接在3D模型中的训练,能够缩短近52%的平均训练时长。相似文献

4.

基于深度强化学习与多参数域随机化的水下机械手自适应抓取研究

王聪张子扬陈言壮张奇峰李硕王晓辉王森《信息与控制》2022,51(6):651-661

以水下机械手自主作业的应用需求为背景,针对水下机械手动力学参数时变、工作环境复杂、传感器限制、控制精度低等问题,基于强化学习与多参数域随机化理论提出一个具有通用性的水下机械手作业框架。首先,建立基本的机器人强化学习控制系统,然后采用多参数域随机化方法增强强化学习训练策略的稳定性与策略迁移效果,包括机械手动力学参数、水动力参数、状态空间与动作空间的噪声和延时等;最后,将训练的策略分别迁移到一个新的机器人仿真环境与一款真实的工作级水下机械手上进行实验。大量实验验证了本文所提方法的有效性,为未来真实海域自主作业奠定了基础。相似文献

5.

面向机械臂轨迹规划的强化学习奖励函数设计

下载免费PDF全文

靳栋银李跃邵振洲施智平关永《计算机工程与应用》2022,58(19):302-308

针对基于深度强化学习的机械臂轨迹规划方法学习效率较低,规划策略鲁棒性差的问题,提出了一种基于语音奖励函数的机械臂轨迹规划方法,利用语音定义规划任务的不同状态,并采用马尔科夫链对状态进行建模,为轨迹规划提供全局指导,降低深度强化学习优化的盲目性。提出的方法结合了基于语音的全局信息和基于相对距离的局部信息来设计奖励函数,在每个状态根据相对距离与语音指导的契合程度对机械臂进行奖励或惩罚。实验证明,设计的奖励函数能够有效地提升基于深度强化学习的机械臂轨迹规划的鲁棒性和收敛速度。相似文献

6.

基于深度强化学习的二连杆机械臂运动控制方法

王建平王刚毛晓彬马恩琪《计算机应用》2021,41(6):1799-1804

针对二连杆机械臂的运动控制问题,提出了一种基于深度强化学习的控制方法.首先,搭建机械臂仿真环境,包括二连杆机械臂、目标物与障碍物;然后,根据环境模型的目标设置、状态变量和奖罚机制来建立三种深度强化学习模型进行训练,最后实现二连杆机械臂的运动控制.对比分析所提出的三种模型后,选择深度确定性策略梯度(DDPG)算法进行进一... 相似文献

7.

基于深度强化学习的固体放射性废物抓取方法研究

周祺杰刘满禄李新茂张华《计算机应用研究》2020,37(11)

针对固体放射性废物分拣作业中,放射性废物杂乱无序、远程遥操作抓取效率低、人工分拣危险性大等典型问题,提出一种基于深度强化学习的放射性固体废物抓取方法。该方法使用改进深度Q网络算法,通过获取的图像信息,使机器人与环境不断进行交互并获得回报奖励,回报奖励由机械臂动作执行结果和放射性区域内放射性活度的高低构成,根据◢Q◣值的大小得到机械臂的最佳抓取位置。用V-REP软件对UR5机械臂建立仿真模型,在仿真环境中完成不同类型固体放射性废物抓取的训练与测试。仿真结果表明,固体废物在松散放置时该方法可使机械臂抓取成功率大于90%,在紧密放置时抓取成功率大于65%,机械臂不会受到废物堆叠的影响,并且会优先抓取放射性区域内具有高放射性活度的物体。相似文献

8.

基于强化学习的煤矸石分拣机械臂智能控制算法研究

张永超于智伟丁丽林《工矿自动化》2021,47(1):36-42

针对传统煤矸石分拣机械臂控制算法如抓取函数法、基于费拉里法的动态目标抓取算法等依赖于精确的环境模型、且控制过程缺乏自适应性,传统深度确定性策略梯度(DDPG)等智能控制算法存在输出动作过大及稀疏奖励容易被淹没等问题,对传统DDPG算法中的神经网络结构和奖励函数进行了改进,提出了一种适合处理六自由度煤矸石分拣机械臂的基于强化学习的改进DDPG算法。煤矸石进入机械臂工作空间后,改进DDPG算法可根据相应传感器返回的煤矸石位置及机械臂状态进行决策,并向相应运动控制器输出一组关节角状态控制量,根据煤矸石位置及关节角状态控制量控制机械臂运动,使机械臂运动到煤矸石附近,实现煤矸石分拣。仿真实验结果表明:改进DDPG算法相较于传统DDPG算法具有无模型通用性强及在与环境交互中可自适应学习抓取姿态的优势,可率先收敛于探索过程中所遇的最大奖励值,利用改进DDPG算法控制的机械臂所学策略泛化性更好、输出的关节角状态控制量更小、煤矸石分拣效率更高。相似文献

9.

基于深度强化学习与旋量法的机械臂路径规划EI北大核心CSCD

王寅王永华尹泽中万频《控制理论与应用》2023,40(3):516-524

深度强化学习在机械臂路径规划的应用中仍面临样本需求量大和获取成本高的问题.针对这些问题,本文基于数据增强的思路,提出了深度强化学习与旋量法的融合算法.本算法通过旋量法将与环境交互所得的自然轨迹进行有效复制,使深度强化学习样本利用率和算法训练效率得到提高;复制轨迹的同时对被控物体、障碍物等环境元素进行同步复制,以此提高机械臂在非结构环境中的泛化性能.最后,在具备物理模拟引擎的Mujoco仿真平台中,通过Fetch机械臂和UR5机械臂在非结构化环境下进行实验对比分析,结果表明了本文算法对于提升深度强化学习样本利用率和机械臂模型泛化性能的可行性及有效性. 相似文献

10.

基于神经网络和模糊补偿的水下机械臂控制

下载免费PDF全文

高阳张晓晖高玉儿尚婷杨启航《计算机工程与应用》2022,58(15):317-323

针对水下机械臂动力学模型建模复杂且滑模控制的抖振问题,利用Lagrange法和Morison方程精准建立二连杆串联水下机械臂的动力学模型,对模型中参数的不确定项使用4个RBF神经网络分别进行逼近,并且对摩擦项使用模糊控制进行补偿的方法,精准迅速地实现了对水下机械臂控制系统跟踪控制。通过进行仿真分析,基于神经网络和模糊补偿控制的方法与滑模控制、整体RBF神经网络控制和分块RBF神经网络控制相比,控制系统的平均误差分别降低了85.5%、71.8%、93.1%。结果表明,此方法有效降低了控制系统的跟踪误差,并同时提高了稳态性和抗干扰性。相似文献

11.

基于稀疏学习的连续型机械臂自适应控制器

江达蔡志勤刘忠振彭海军吴志刚《控制与决策》2023,38(9):2563-2568

探讨空间连续型机械臂执行在轨操作任务过程中的自适应轨迹跟踪控制器设计问题.首先,对于具有显著非线性特征的连续型机械臂动力学模型,考虑运动过程中存在的建模误差和外部干扰因素,设计变结构动力学控制器;然后,基于深度强化学习(deep reinforcement learning, DRL)对变结构控制器参数进行在线调整,实时优化控制器性能;最后,提出一种针对强化学习网络稀疏训练方法,训练过程中采用具有随机稀疏拓扑结构的稀疏连接层代替神经网络的全连接层,并以一定概率对连接薄弱的网络进行迭代剪枝,使得DRL的策略网络由初始稀疏拓扑结构演化为无标度网络,在不降低训练精度的基础上压缩网络规模.仿真结果表明,所提出基于强化学习的自适应控制器能够有效地进行连续型机械臂的跟踪控制,通过稀疏学习的方法,控制器在保证控制精度的同时,双隐层网络节点参数量下降99%,大幅降低了计算成本. 相似文献

12.

基于PPO的机械臂控制研究方法

郭坤武曲张义《数字社区&智能家居》2021,(4):222-225

目前应用于机械臂控制中有许多不同的算法,如传统的自适应PD控制、模糊自适应控制等,这些大多需要基于数学模型.也有基于强化学习的控制方法,如:DQN(Deep Q Network)、Sarsa等.但这些强化学习算法在连续高维的动作空间中存在学习效率不高、回报奖励设置困难、控制效果不佳等问题.论文对基于PPO(Proxim... 相似文献

13.

面向轨迹规划的深度强化学习奖励函数设计

下载免费PDF全文

李跃邵振洲赵振东施智平关永《计算机工程与应用》2020,56(2):226-232

现有基于深度强化学习的机械臂轨迹规划方法在未知环境中学习效率偏低,规划策略鲁棒性差。为了解决上述问题,提出了一种基于新型方位奖励函数的机械臂轨迹规划方法A-DPPO,基于相对方向和相对位置设计了一种新型方位奖励函数,通过降低无效探索,提高学习效率。将分布式近似策略优化（DPPO）首次用于机械臂轨迹规划,提高了规划策略的鲁棒性。实验证明相比现有方法,A-DPPO有效地提升了学习效率和规划策略的鲁棒性。相似文献

14.

基于深度强化学习的自主避障技术研究

王凌邹昊东杜元翰汤铭梅竹《微型电脑应用》2023,(5):47-50

针对变电站自动巡检这一场景,研究机器人的自主避障。当机器人的感知仅限于单目视觉时,由于缺乏3D信息,避障将变得更具挑战性。传统的路径规划等避障技术难以适用新场景。对此,提出一种基于策略迭代(DPPO)的自主避障深度强化学习模型,该模型仅以原始的RGB图像为训练数据,实现机器人的快速灵活控制。仿真实验表明,相比于基于值迭代的方法,该模型避障性能更佳。相似文献

15.

基于强化学习的波动鳍推进水下作业机器人悬停控制

马睿宸白雪剑王宇王睿王硕《控制理论与应用》2022,39(11):2092-2099

本文针对波动鳍推进水下作业机器人的悬停控制问题开展研究. 首先, 给出了波动鳍推进水下作业机器人的运动学模型、动力学模型和波动鳍的参数–力映射模型, 建立了基于马尔可夫决策过程的悬停控制训练框架. 其次, 基于模型结构和训练策略, 使用强化学习的方法进行网络训练, 得到最佳的悬停控制器. 最终, 在室内水池中完成了波动鳍推进水下作业机器人的悬停控制实验, 实验结果验证了所提方法的有效性. 相似文献

16.

基于任务空间网格分割的强化学习算法

祖立鹏王文学《小型微型计算机系统》2023,(12):2633-2639

强化学习中设计合理的奖励函数具有重要的意义,但这也是具有挑战性的,尤其是在实际机器人控制任务中.因此,能够在稀疏奖励的环境中探索有效的强化学习算法是当前持续关注的问题.目前虽然已经有许多在稀疏奖励下的强化学习算法研究,但从结果来看,这些算法在机器人的控制精度以及训练时间等方面均需要很大程度的优化和提升.本文提出了一种基于任务空间网格分割的强化学习算法,能够在稀疏奖励函数下,以较快的训练速度实现较高控制精度的机器人的任务成功率.该算法首先优化行为克隆损失函数梯度的系数,来获得更快的训练收敛效果;随后基于任务空间分割的策略获取优质示范样本补充到示范样本库中来实现更高的任务成功率.仿真实验结果表明,该算法在机械臂抓取控制任务中能够有效地提高训练速度和任务成功率,在5mm控制精度要求下平均任务成功率可达到90%以上. 相似文献

17.

一种基于行为控制的两自由度机械臂智能控制器

叶剑乔俊飞李明爱阮晓钢《控制理论与应用》2007,24(3):440-444

基于行为的控制方法相对于传统的控制方法在解决未知环境中的机器人中有着更好的鲁棒性和实时性.本文提出了一种基于反应式行为控制的智能控制器,以强化学习作为智能控制器的学习算法.通过采用评价-控制模型,该智能控制器能够不依赖于系统模型,通过连续地在线学习得到机器人的行为.将该智能控制器应用到两自由度仿真机械臂的控制中,仿真结果表明该智能控制器可以实现对两自由度机械臂的连续控制,使其能够迅速达到目标位置. 相似文献

18.

基于SAC算法的多源信息融合机械臂控制方法

权双璐郭艳婕费逢宇瑜熙敬宋小云辛顺恒王超《自动化应用》2024,(5):52-54

融合多源传感器信息可实现机械臂的精准控制。提出了一种基于深度强化学习的多源信息融合控制方法,设计并搭建了可实现多源信息融合的机械臂控制实验平台,融合视觉、触觉、编码器3种模态信息,并选取学习效率较高的SAC算法实现机械臂自主精准控制。在实验平台上,开展了3个由易到难的机械臂运动控制任务,以验证所提多源信息融合机械臂控制方案的有效性。相似文献

19.

深度强化学习中稀疏奖励问题研究综述 总被引：1，自引：0，他引：1

杨惟轶白辰甲蔡超赵英男刘鹏《计算机科学》2020,47(3):182-191

强化学习作为机器学习的重要分支,是在与环境交互中寻找最优策略的一类方法。强化学习近年来与深度学习进行了广泛结合,形成了深度强化学习的研究领域。作为一种崭新的机器学习方法,深度强化学习同时具有感知复杂输入和求解最优策略的能力,可以应用于机器人控制等复杂决策问题。稀疏奖励问题是深度强化学习在解决任务中面临的核心问题,在实际应用中广泛存在。解决稀疏奖励问题有利于提升样本的利用效率,提高最优策略的水平,推动深度强化学习在实际任务中的广泛应用。文中首先对深度强化学习的核心算法进行阐述;然后介绍稀疏奖励问题的5种解决方案,包括奖励设计与学习、经验回放机制、探索与利用、多目标学习和辅助任务等;最后对相关研究工作进行总结和展望。相似文献

20.

基于深度强化学习和社会力模型的移动机器人自主避障

李恒刘轻尘马麒超《信息技术与网络安全》2023,(3):68-73+79

深度强化学习在移动机器人自主避障领域已得到广泛应用,其基本原理是通过模拟环境中的不断试错,结合奖励机制提升机器人的避障性能。然而,针对不同任务场景,网络训练效率存在显著差异。同时,在人群密集的场景中,机器人的行为可能对人类造成干扰。为了应对训练效率低下和机器人行为不符合社会规范的问题,提出了一种将社会力模型融入深度强化学习的自主避障策略。该策略首先将人类未来的运动轨迹考虑进奖励函数,以确保机器人理解人类意图并避免闯入人类的舒适区。其次,在训练过程中引入先验的传统控制器模型,并设计了一种基于概率的切换开关,以随机切换控制器输出,提高机器人的探索效率。实验结果表明,所提出的方法能够增加机器人与人类之间的安全距离,同时实现平稳导航。相似文献