期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

张永超于智伟丁丽林《工矿自动化》2021,47(1):36-42

针对传统煤矸石分拣机械臂控制算法如抓取函数法、基于费拉里法的动态目标抓取算法等依赖于精确的环境模型、且控制过程缺乏自适应性,传统深度确定性策略梯度(DDPG)等智能控制算法存在输出动作过大及稀疏奖励容易被淹没等问题,对传统DDPG算法中的神经网络结构和奖励函数进行了改进,提出了一种适合处理六自由度煤矸石分拣机械臂的基于强化学习的改进DDPG算法。煤矸石进入机械臂工作空间后,改进DDPG算法可根据相应传感器返回的煤矸石位置及机械臂状态进行决策,并向相应运动控制器输出一组关节角状态控制量,根据煤矸石位置及关节角状态控制量控制机械臂运动,使机械臂运动到煤矸石附近,实现煤矸石分拣。仿真实验结果表明:改进DDPG算法相较于传统DDPG算法具有无模型通用性强及在与环境交互中可自适应学习抓取姿态的优势,可率先收敛于探索过程中所遇的最大奖励值,利用改进DDPG算法控制的机械臂所学策略泛化性更好、输出的关节角状态控制量更小、煤矸石分拣效率更高。相似文献

2.

基于PPO的机械臂控制研究方法

郭坤武曲张义《数字社区&智能家居》2021,(4)

目前应用于机械臂控制中有许多不同的算法,如传统的自适应PD控制、模糊自适应控制等,这些大多需要基于数学模型。也有基于强化学习的控制方法,如:DQN(Deep Q Network)、Sarsa等。但这些强化学习算法在连续高维的动作空间中存在学习效率不高、回报奖励设置困难、控制效果不佳等问题。论文对基于PPO(Proximal Policy Optimization近端策略优化)算法实现任意位置的机械臂抓取应用进行研究,并将实验数据与Actor-Critic(演员-评论家)算法的进行对比,验证了使用PPO算法的控制效果良好,学习效率较高且稳定。相似文献

3.

基于深度强化学习的二连杆机械臂运动控制方法

王建平王刚毛晓彬马恩琪《计算机应用》2021,41(6):1799-1804

针对二连杆机械臂的运动控制问题,提出了一种基于深度强化学习的控制方法。首先,搭建机械臂仿真环境,包括二连杆机械臂、目标物与障碍物;然后,根据环境模型的目标设置、状态变量和奖罚机制来建立三种深度强化学习模型进行训练,最后实现二连杆机械臂的运动控制。对比分析所提出的三种模型后,选择深度确定性策略梯度（DDPG）算法进行进一步研究来改进其适用性,从而缩短机械臂模型的调试时间,顺利避开障碍物到达目标。实验结果表明,所提深度强化学习方法能够有效控制二连杆机械臂的运动,改进后的DDPG算法控制模型的收敛速度提升了两倍并且收敛后的稳定性增强。相较于传统控制方法,所提深度强化学习控制方法效率更高,适用性更强。相似文献

4.

多智能体同时到达多目标点的协同强化学习算法

李瑞群王若冰田涛郑重张越《计算机应用与软件》2021,38(9):199-204

针对动态未知环境下多智能体多目标协同问题,为实现在动态未知环境下多个智能体能够同时到达所有目标点,设计函数式奖励函数,对强化学习算法进行改进.智能体与环境交互,不断重复"探索-学习-决策"过程,在与环境的交互中积累经验并优化策略,在未预先分配目标点的情况下,智能体通过协同决策,能够避开环境中的静态障碍物和动态障碍物,同时到达所有目标点.仿真结果表明,该算法相比现有多智能体协同方法的学习速度平均提高约42.86％,同时智能体能够获得更多的奖励,可以做到自主决策自主分配目标,并且实现同时到达所有目标点的目标. 相似文献

5.

基于加权值函数分解的多智能体分层强化学习技能发现方法

邹启杰李文雪高兵赵锡玲张汝波《计算机应用研究》2023,(9):2743-2748+2754

针对目前大多数多智能体强化学习算法在智能体数量增多以及环境动态不稳定的情况下导致的维度爆炸和奖励稀疏的问题，提出了一种基于加权值函数分解的多智能体分层强化学习技能发现算法。首先，该算法将集中训练分散执行的架构与分层强化学习相结合，在上层采用加权值函数分解的方法解决智能体在训练过程中容易忽略最优策略而选择次优策略的问题；其次，在下层采用独立Q学习算法使其能够在多智能体环境中分散式地处理高维复杂的任务；最后，在底层独立Q学习的基础上引入技能发现策略，使智能体之间相互学习互补的技能。分别在简易团队运动和星际争霸Ⅱ两个仿真实验平台上对该算法与多智能体强化学习算法和分层强化学习算法进行对比，实验表明，该算法在奖励回报以及双方对抗胜率等性能指标上都有所提高，提升了整个多智能体系统的决策能力和收敛速度，验证了算法的可行性。相似文献

6.

基于深度强化学习的机械臂控制快速训练方法

赵寅甫冯正勇《计算机工程》2022,48(8):113-120

人工智能在机器人控制中得到广泛应用,机器人控制算法也逐渐从模型驱动转变为数据驱动。深度强化学习算法可在复杂环境中感知并决策,能够解决高维度和连续状态空间下的机械臂控制问题。然而,目前深度强化学习中数据驱动的训练过程非常依赖计算机GPU算力,且训练时间成本较大。提出基于深度强化学习的先简化模型（2D模型）再复杂模型（3D模型）的机械臂控制快速训练方法。采用深度确定性策略梯度算法代替机械臂传统控制算法中的逆运动学解算方法,直接通过数据驱动的训练过程控制机械臂末端到达目标位置,从而减小训练时间成本。同时,对于状态向量和奖励函数形式,使用不同的设置方式。将最终训练得到的算法模型在真实机械臂上进行实现和验证,结果表明,其控制效果达到了分拣物品的应用要求,相比于直接在3D模型中的训练,能够缩短近52%的平均训练时长。相似文献

7.

基于数字孪生和强化学习的低空智联网协同认知干扰

沈高青蔡圣所雷磊贲德《数据采集与处理》2024,(1):15-30

针对低空智联网协同认知干扰决策过程中,多架电子干扰无人机对抗多部多功能雷达的干扰资源分配问题,提出了一种基于数字孪生和深度强化学习的认知干扰决策方法。首先,将协同电子干扰问题建模为马尔可夫决策问题,建立认知干扰决策系统模型,综合考虑干扰对象、干扰功率和干扰样式选择约束,构建智能体动作空间、状态空间和奖励函数。其次,在近端策略优化（Proximal policy optimization, PPO）深度强化学习算法的基础上,提出了自适应学习率近端策略优化（Adaptive learning rate proximal policy optimization, APPO）算法。同时,为了以高保真的方式提高深度强化学习算法的训练速度,提出了一种基于数字孪生的协同电子干扰决策模型训练方法。仿真结果表明,与已有的深度强化学习算法相比,APPO算法干扰效能提升30%以上,所提训练方法能够提高50%以上的模型训练速度。相似文献

8.

基于深度强化学习的水下机械臂自主控制研究

李忻阳卢倪斌吕诗为刘海瑞《控制与信息技术》2023,(6):45-50

受限于水下环境和观察角度,精确地控制水下机械臂完成水下自主作业任务具有很大的挑战性。针对这一问题,考虑到强化学习算法对环境具有强大的自适应能力,文章提出一种水下机械臂自主控制方法。首先,其设计了一种近端策略优化（PPO）结合行动器-评判器（AC）的强化学习算法训练自主控制策略;其次,对训练过程中出现的稀疏奖励问题,提出了一种基于人工势场法的奖励塑造方法;最后,在仿真试验环境中对基于上述方法训练得到的自主控制策略进行了验证。验证结果表明,该策略可以有效收敛并自主控制水下机械臂向目标位置精确移动,移动快速、过程流畅,末端执行器运动轨迹平滑、稳定。相似文献

9.

基于力觉引导的机械臂自适应开门旋拧方法

蒋元陈刘宏伟刘满禄张俊俊《计算机应用研究》2021,38(6):1804-1808

针对核应急环境中,环境模型未知、人工开门危险性较大的问题,提出了一种基于力觉引导的机械臂自适应开门旋拧方法.该方法通过机械臂末端的六维力传感器获得力和力矩信息,将实际力或力矩与期望力或力矩之间的差值作为深度确定性策略梯度算法的状态输入,同时输出动作;利用机械臂末端所受两个方向力的函数关系,设置基础奖励函数,通过机械臂的期望运动方向,设置引导性奖励函数,使机械臂自动适应力与力矩的变化,完成旋拧门把手任务.仿真数据结果表明,在有引导性奖励的情况下,基于力觉引导的机械臂自适应旋拧方法能够在更短的时间内达到收敛,完成机械臂旋拧门把手的任务. 相似文献

10.

稀疏奖励场景下基于个体落差情绪的多智能体协作算法

王浩汪京方宝富《模式识别与人工智能》2022,(5):451-460

针对在多智能体环境中强化学习面临的稀疏奖励问题,借鉴情绪在人类学习和决策中的作用,文中提出基于个体落差情绪的多智能体协作算法.对近似联合动作值函数进行端到端优化以训练个体策略,将每个智能体的个体动作值函数作为对事件的评估.预测评价与实际情况的差距产生落差情绪,以该落差情绪模型作为内在动机机制,为每个智能体产生一个内在情绪奖励,作为外在奖励的有效补充,以此缓解外在奖励稀疏的问题.同时内在情绪奖励与具体任务无关,因此具有一定的通用性.在不同稀疏程度的多智能体追捕场景中验证文中算法的有效性和鲁棒性. 相似文献

11.

基于多智能体强化学习的微装配任务规划方法

下载免费PDF全文

徐兴辉唐大林顾书豪左佳祺王晓东任同群《计算机测量与控制》2023,31(8):217-223

现有装配任务规划方式多为人工规划，存在低效、高成本、易误操作等问题，为此分析了微装配操作的任务特点，以及对微装配中多操作臂协作与竞争关系进行了详细分析，并提出多智能体强化学习中符合微装配任务特点的动作空间、状态空间以及奖励函数的构建方法；利用CoppeliaSim仿真软件构建合理的仿真模型，对已有设备进行物理建模，构建了基于多智能体深度确定性策略梯度算法的学习模型并进行训练，在仿真环境中对设计的状态、动作空间以及奖励函数进行了逐项实验验证，最终获得了稳定的路径以及完整的任务实施方案；仿真结果表明，提出的环境构建方法，更契合直角坐标运动为主要框架的微装配任务，能够克服现有规划方法的不足，能够实现可实际工程化的多臂协同操作，提高任务的效率以及规划的自动化程度。相似文献

12.

基于博弈论及Q学习的多Agent协作追捕算法

郑延斌樊文鑫韩梦云陶雪丽《计算机应用》2020,40(6):1613-1620

多Agent协作追捕问题是多Agent协调与协作研究中的一个典型问题。针对具有学习能力的单逃跑者追捕问题，提出了一种基于博弈论及Q学习的多Agent协作追捕算法。首先,建立协作追捕团队，并构建协作追捕的博弈模型；其次,通过对逃跑者策略选择的学习，建立逃跑者有限的Step-T累积奖赏的运动轨迹，并把运动轨迹调整到追捕者的策略集中；最后,求解协作追捕博弈得到Nash均衡解，每个Agent执行均衡策略完成追捕任务。同时,针对在求解中可能存在多个均衡解的问题，加入了虚拟行动行为选择算法来选择最优的均衡策略。C#仿真实验表明，所提算法能够有效地解决障碍环境中单个具有学习能力的逃跑者的追捕问题，实验数据对比分析表明该算法在同等条件下的追捕效率要优于纯博弈或纯学习的追捕算法。相似文献

13.

基于改进SAC算法的移动机器人路径规划

李永迪李彩虹张耀玉张国胜《计算机应用》2023,43(2):654-660

为解决SAC算法在移动机器人局部路径规划中训练时间长、收敛速度慢等问题,通过引入优先级经验回放（PER）技术,提出了PER-SAC算法。首先从等概率从经验池中随机抽取样本变为按优先级抽取,使网络优先训练误差较大的样本,从而提高了机器人训练过程的收敛速度和稳定性;其次优化时序差分（TD）误差的计算,以降低训练偏差;然后利用迁移学习,使机器人从简单环境到复杂环境逐步训练,从而提高训练速度;另外,设计了改进的奖励函数,增加机器人的内在奖励,从而解决了环境奖励稀疏的问题;最后在ROS平台上进行仿真测试。仿真结果表明,在不同的障碍物环境中,PER-SAC算法均比原始算法收敛速度更快、规划的路径长度更短,并且PER-SAC算法能够减少训练时间,在路径规划性能上明显优于原始算法。相似文献

14.

基于奖励预测误差的内在好奇心方法

谭庆李辉吴昊霖王壮邓书超《计算机应用》2022,42(6):1822-1828

针对状态预测误差直接作为内在好奇心奖励,在状态新颖性与奖励相关度低的任务中强化学习智能体不能有效探索环境的问题,提出一种基于奖励预测误差的内在好奇心模块（RPE-ICM）。RPE-ICM利用奖励预测误差网络（RPE-Network）学习并修正状态预测误差奖励,并将奖励预测误差（RPE）模型的输出作为一种内在奖励信号去平衡探索过度与探索不足,使得智能体能够更有效地探索环境并利用奖励去学习技能,从而达到更好的学习效果。在不同的MuJoCo环境中使用RPE-ICM、内在好奇心模块（ICM）、随机蒸馏网络（RND）以及传统的深度确定性策略梯度（DDPG）算法进行对比实验。结果表明,相较于传统DDPG、ICM-DDPG以及RND-DDPG,基于RPE-ICM的DDPG算法的平均性能在Hopper环境中分别提高了13.85%、13.34%和20.80%。相似文献

15.

基于强化迭代学习的四旋翼无人机轨迹控制

刘旭光杜昌平郑耀《计算机应用》2022,42(12):3950-3956

为进一步提升在未知环境下四旋翼无人机轨迹的跟踪精度,提出了一种在传统反馈控制架构上增加迭代学习前馈控制器的控制方法。针对迭代学习控制（ILC）中存在的学习参数整定困难的问题,提出了一种利用强化学习（RL）对迭代学习控制器的学习参数进行整定优化的方法。首先,利用RL对迭代学习控制器的学习参数进行优化,筛选出当前环境及任务下最优的学习参数以保证迭代学习控制器的控制效果最优;其次,利用迭代学习控制器的学习能力不断迭代优化前馈输入,直至实现完美跟踪;最后,在有随机噪声存在的仿真环境中把所提出的强化迭代学习控制（RL-ILC）算法与未经参数优化的ILC方法、滑模变结构控制（SMC）方法以及比例-积分-微分（PID）控制方法进行对比实验。实验结果表明,所提算法在经过2次迭代后,总误差缩减为初始误差的0.2%,实现了快速收敛;并且与SMC控制方法及PID控制方法相比,RL-ILC算法在算法收敛后不会受噪声影响产生轨迹波动。由此可见,所提算法能够有效提高无人机轨迹跟踪的准确性和鲁棒性。相似文献

16.

基于RDC-Q学习算法的移动机器人路径规划

王子强武继刚《计算机工程》2014,(6):211-214

传统Q算法对于机器人回报函数的定义较为宽泛,导致机器人的学习效率不高。为解决该问题,给出一种回报详细分类Q(RDC-Q)学习算法。综合机器人各个传感器的返回值,依据机器人距离障碍物的远近把机器人的状态划分为20个奖励状态和15个惩罚状态,对机器人每个时刻所获得的回报值按其状态的安全等级分类,使机器人趋向于安全等级更高的状态,从而帮助机器人更快更好地学习。通过在一个障碍物密集的环境中进行仿真实验,证明该算法收敛速度相对传统回报Q算法有明显提高。相似文献

17.

引入通信与探索的多智能体强化学习QMIX算法

邓晖奕李勇振尹奇跃《计算机应用》2023,43(1):202-208

非平稳性问题是多智能体环境中深度学习面临的主要挑战之一,它打破了大多数单智能体强化学习算法都遵循的马尔可夫假设,使每个智能体在学习过程中都有可能会陷入由其他智能体所创建的环境而导致无终止的循环。为解决上述问题,研究了中心式训练分布式执行（CTDE）架构在强化学习中的实现方法,并分别从智能体间通信和智能体探索这两个角度入手,采用通过方差控制的强化学习算法（VBC）并引入好奇心机制来改进QMIX算法。通过星际争霸Ⅱ学习环境（SC2LE）中的微操场景对所提算法加以验证。实验结果表明,与QMIX算法相比,所提算法的性能有所提升,并且能够得到收敛速度更快的训练模型。相似文献

18.

基于多智能体强化学习的无人艇协同围捕方法

夏家伟朱旭芳张建强罗亚松刘忠《控制与决策》2023,38(5):1438-1447

针对多无人艇对海上逃逸目标的围捕问题,提出一种基于多智能体强化学习的围捕算法.首先,以无人艇协同进攻为背景建立无边界围捕问题的环境和运动学模型,并针对快速性和合围性的需求给出围捕成功的判定条件;然后,基于多智能体近端策略优化(MAPPO)算法建立马尔可夫决策过程框架,结合围捕任务需求分别设计兼具伸缩性和排列不变性的状态空间,围捕距离、方位解耦的动作空间,捕获奖励与步长奖励相结合的奖励函数;最后,采用集中式训练、分布式执行的架构完成对围捕策略的训练,训练时采用课程式学习训练技巧,无人艇群共享相同的策略并独立执行动作.仿真实验表明,在无人艇起始数量不同的测试条件下,所提出方法在围捕成功率和时效性上相较于其他算法更具优势.此外,当无人艇节点损毁时,剩余无人艇仍然具备继续执行围捕任务的能力,所提出方法鲁棒性强,具有在真实环境中部署应用的潜力. 相似文献

19.

基于卷积神经网络的机械臂抓取控制系统设计

下载免费PDF全文

朱威汉《计算机测量与控制》2023,31(11):181-186

为保证机械臂的抓取精度,保证物体抓取的稳定性,本文设计基于卷积神经网络的机械臂抓取控制系统。在系统硬件部分,加设图像、位置和压力传感器,改装机械臂抓取控制器和运动驱动器,利用图像传感器设备,获取满足质量要求的机械臂抓取目标图像,为机械臂抓取控制功能提供硬件支持。软件部分利用卷积神经网络算法提取图像特征,确定机械臂抓取目标位置。结合机械臂当前位置的检测结果,规划机械臂抓取路线,预估机械臂抓取角度与抓取力。最终通过机械臂抓取参数控制量的计算,在控制器的支持下实现系统的机械臂抓取控制功能。实验结果表明,所设计系统应用下位置控制误差和速度控制误差的平均值分别为0.192m和0.138m/s,同时物体抓取掉落概率明显降低。相似文献