共查询到20条相似文献,搜索用时 15 毫秒
1.
Manufacturing companies are in constant need for improved agility. An adequate combination of speed, responsiveness, and business agility to cope with fluctuating raw material costs is essential for today’s increasingly demanding markets. Agility in robots is key in operations requiring on-demand control of a robot’s tool position and orientation, reducing or eliminating extra programming efforts. Vision-based perception using full-state or partial-state observations and learning techniques are useful to create truly adaptive industrial robots. We propose using a Deep Reinforcement Learning (DRL) approach to solve path-following tasks using a simplified virtual environment with domain randomisation to provide the agent with enough exploration and observation variability during the training to generate useful policies to be transferred to an industrial robot. We validated our approach using a KUKA KR16HW robot equipped with a Fronius GMAW welding machine. The path was manually drawn on two workpieces so the robot was able to perceive, learn and follow it during welding experiments. It was also found that small processing times due to motion prediction (3.5 ms) did not slow down the process, which resulted in smooth robot operations. The novel approach can be implemented onto different industrial robots to carry out different tasks requiring material deposition. 相似文献
2.
《计算机工程》2024,51(3)
针对机器人清洁作业过程中现有曲面覆盖方法难以适应曲面变化且覆盖效率低的问题, 提出一种自适应奖励函数的近端策略优化(PPO)曲面覆盖方法(SC-SRPPO)。首先, 将目标曲面离散化, 以球查询方式获得协方差矩阵, 求解点云的法向量, 建立3D曲面模型; 其次, 以曲面局部点云的覆盖状态特征和曲率变化特征作为曲面模型观测值以构建状态模型, 有利于机器人移动轨迹拟合曲面, 提高机器人对曲面变化的适应能力; 接着, 基于曲面的全局覆盖率和与时间相关的指数模型构建一种自适应奖励函数, 引导机器人向未覆盖区域移动, 提高覆盖效率; 最后, 将曲面局部状态模型、奖励函数、PPO强化学习算法相融合, 训练机器人完成曲面覆盖路径规划任务。在球形、马鞍形、立体心形等3种曲面模型上, 以点云覆盖率与覆盖完成时间作为主要评价指标进行实验, 结果表明, SC-SRPPO的平均覆盖率为90.72%, 与NSGA Ⅱ、PPO、SAC这3种方法对比, 覆盖率分别提升4.98%、14.56%、27.11%, 覆盖完成时间分别缩短15.20%、67.18%、62.64%。SC-SRPPO能够在适应曲面变化的基础上使机器人更加高效地完成曲面覆盖任务。 相似文献
3.
李淑怡;阳波;陈灵;沈玲;唐文胜 《计算机工程》2025,51(3):86-94
针对机器人清洁作业过程中现有曲面覆盖方法难以适应曲面变化且覆盖效率低的问题,提出一种自适应奖励函数的近端策略优化(PPO)曲面覆盖方法(SC-SRPPO)。首先,将目标曲面离散化,以球查询方式获得协方差矩阵,求解点云的法向量,建立3D曲面模型;其次,以曲面局部点云的覆盖状态特征和曲率变化特征作为曲面模型观测值以构建状态模型,有利于机器人移动轨迹拟合曲面,提高机器人对曲面变化的适应能力;接着,基于曲面的全局覆盖率和与时间相关的指数模型构建一种自适应奖励函数,引导机器人向未覆盖区域移动,提高覆盖效率;最后,将曲面局部状态模型、奖励函数、PPO强化学习算法相融合,训练机器人完成曲面覆盖路径规划任务。在球形、马鞍形、立体心形等3种曲面模型上,以点云覆盖率与覆盖完成时间作为主要评价指标进行实验,结果表明,SC-SRPPO的平均覆盖率为90.72%,与NSGA II、PPO、SAC这3种方法对比,覆盖率分别提升4.98%、14.56%、27.11%,覆盖完成时间分别缩短15.20%、67.18%、62.64%。SC-SRPPO能够在适应曲面变化的基础上使机器人更加高效地完成曲面覆盖任务。 相似文献
4.
深度强化学习是指利用深度神经网络的特征表示能力对强化学习的状态、动作、价值等函数进行拟合,以提升强化学习模型性能,广泛应用于电子游戏、机械控制、推荐系统、金融投资等领域。回顾深度强化学习方法的主要发展历程,根据当前研究目标对深度强化学习方法进行分类,分析与讨论高维状态动作空间任务上的算法收敛、复杂应用场景下的算法样本效率提高、奖励函数稀疏或无明确定义情况下的算法探索以及多任务场景下的算法泛化性能增强问题,总结与归纳4类深度强化学习方法的研究现状,同时针对深度强化学习技术的未来发展方向进行展望。 相似文献
5.
6.
针对动态在线任务分配策略难以有效利用历史数据进行学习、同时未考虑当前决策对未来收益的影响的问题,提出基于深度强化学习的空间众包任务分配策略.首先,以最大化长期累积收益为优化目标,基于马尔科夫决策过程从单个众包工作者的角度建模,将任务分配问题转化为对状态动作价值Q的求解及工作者与任务的一对一分配.然后采用改进的深度强化学... 相似文献
7.
现有基于云边协同的深度神经网络(DNN)推理仅涉及边缘设备同构情况下的静态划分策略,未考虑网络传输速率、边缘设备资源、云服务器负载等变化对DNN推理计算最佳划分点的影响,以及异构边缘设备集群间DNN推理任务的最佳卸载策略。针对以上问题,提出基于深度强化学习的自适应DNN推理计算划分和任务卸载算法。以最小化DNN推理时延为优化目标,建立自适应DNN推理计算划分和任务卸载的数学模型。通过定义状态、动作空间和奖励,将DNN推理计算划分和任务卸载组合优化问题转换为马尔可夫决策过程下的最优策略问题。利用深度强化学习方法,从经验池中学习动态环境下边缘设备与云服务器间DNN推理计算划分和异构边缘集群间任务卸载的近似最优策略。实验结果表明,与经典DNN推理算法相比,该算法在异构动态环境下的DNN推理时延约平均降低了28.83%,能更好地满足DNN推理的低时延需求。 相似文献
8.
《计算机工程》2024,51(3)
教育信息化的发展为促进教学内容多样化提供了更多方案。为了丰富程序化交易课程的内涵, 对量化策略的探讨研究提出了新的案例教学方法。由于在股票趋势预测的任务中, 公司股票的预测会受到相关联公司及多方面的隐性层面高管关系的影响。为了有效应对股票市场波动中的动量溢出效应, 就高管因素的影响提出一个基于多层图卷积神经网络(GCNN)的股票趋势预测及智能量化交易模型, 将其应用于实际课堂教学中充实课堂实例教学任务。该模型首先结合股票历史数据和市场媒体信息, 然后利用多层GCNN提取股票之间包含的具有交叉效应的公司间显性关系和高管间隐性关系等信息进行趋势预测, 最后通过强化学习(RL)进行策略训练。该模型不仅有效提高了股票趋势预测的准确性, 而且有效提升了投资组合优化收益。在CSI100E和CSI300E数据集上的实验结果表明, 该模型得到60.19%和57.44%的准确率, 而图卷积网络(GCN)模型得到51.58%和55.79%的准确率。通过分析得出该模型的股票趋势预测效果更好, 加入了预测结果的智能投资决策也更有效。该研究的方法和实验结果为金融课程提供了实际案例, 可帮助学生理解复杂市场动态和量化交易策略。 相似文献
9.
针对深度Q网络(DQN)算法因过估计导致收敛稳定性差的问题,在传统时序差分(TD)的基础上提出N阶TD误差的概念,设计基于二阶TD误差的双网络DQN算法。构造基于二阶TD误差的值函数更新公式,同时结合DQN算法建立双网络模型,得到两个同构的值函数网络分别用于表示先后两轮的值函数,协同更新网络参数,以提高DQN算法中值函数估计的稳定性。基于Open AI Gym平台的实验结果表明,在解决Mountain Car和Cart Pole问题方面,该算法较经典DQN算法具有更好的收敛稳定性。 相似文献
10.
多智能体高效协作是多智能体深度强化学习的重要目标,然而多智能体决策系统中存在的环境非平稳、维数灾难等问题使得这一目标难以实现。现有值分解方法可在环境平稳性和智能体拓展性之间取得较好平衡,但忽视了智能体策略网络的重要性,并且在学习联合动作值函数时未充分利用经验池中保存的完整历史轨迹。提出一种基于多智能体多步竞争网络的多智能体协作方法,在训练过程中使用智能体网络和价值网络对智能体动作评估和环境状态评估进行解耦,同时针对整条历史轨迹完成多步学习以估计时间差分目标,通过优化近似联合动作值函数的混合网络集中且端到端地训练分散的多智能体协作策略。实验结果表明,该方法在6种场景中的平均胜率均优于基于值分解网络、单调值函数分解、值函数变换分解、反事实多智能体策略梯度的多智能体协作方法,并且具有较快的收敛速度和较好的稳定性。 相似文献
11.
针对现有电力物资车辆路径问题(EVRP)优化时考虑目标函数较为单一、约束不够全面,并且传统求解算法效率不高的问题,提出一种基于深度强化学习(DRL)的电力物资配送多目标路径优化模型和求解算法。首先,充分考虑了电力物资配送区域的加油站分布情况、物资运输车辆的油耗等约束,建立了以电力物资配送路径总长度最短、成本最低、物资需求点满意度最高为目标的多目标电力物资配送模型;其次,设计了一种基于DRL的电力物资配送路径优化算法DRL-EVRP求解所提模型。DRL-EVRP使用改进的指针网络(Ptr-Net)和Q-学习(Q-learning)算法结合的深度Q-网络(DQN)来将累积增量路径长度的负值与满意度之和作为奖励函数。所提算法在进行训练学习后,可直接用于电力物资配送路径规划。仿真实验结果表明,DRL-EVRP求解得到的电力物资配送路径总长度相较于扩展C-W(ECW)节约算法、模拟退火(SA)算法更短,且运算时间在可接受范围内,因此所提算法能更加高效、快速地进行电力物资配送路径优化。 相似文献
12.
面对车载终端数据计算量的爆炸式增长,计算卸载是缓解车辆资源不足的有效手段。相比于单独研究云计算或边缘计算,让两者相互协作可以实现优势互补,提高系统的整体服务质量。在车联网中,制定适应环境动态性的卸载决策存在较大困难,其中任务的紧急程度也是一个不容忽视的因素。构建一个基于软件定义网络的边云协作任务卸载架构,并设计任务优先级的度量标准,将动态环境中的任务卸载决策问题建模为马尔可夫决策过程,从而最大化由时延和成本构成的任务平均效用。为了求解任务卸载决策,提出基于双深度Q网络的任务卸载决策算法以及基于优先级的资源分配方案,并设计一种卸载比例计算方法,以保障卸载的任务量能够在通信时间内上传完成的同时最小化任务处理时延。实验结果表明,相比于全部本地、全部卸载和平均分配资源3种固定的卸载算法,该算法时延和效用性能提高了2倍以上,在车辆数目适中的情况下,任务的完成比例可以稳定保持在100%。 相似文献
13.
在C-V2X通信中,Mode 4资源分配方式使用基于感知的半持续调度(SB-SPS)算法进行资源分配,但该算法以最大功率传输安全消息,在高密度交通流状态下会导致系统的可靠性下降。为对SB-SPS算法进行优化,提出一种基于深度强化学习的联合资源分配与功率控制算法。车辆在感知到信道后,为安全消息选择干扰最小的子信道,并根据信道状态自适应调整传输功率,通过与环境交互学习的方式求解最优的子信道选择方案和功率控制方案。仿真结果表明,与SB-SPS优化算法相比,该算法在高密度公路场景下分组接收率提高5%,有效提升了车间通信的可靠性。 相似文献
14.
堆垛机调度是物流仓储自动化中的重要任务,任务中的出入库效率、货物存放等情况影响仓储系统的整体效益。传统调度方法在面对较大规模调度问题时,因处理大状态空间从而导致性能受限和收益降低。与此同时,库位优化与调度运行联系密切,但现有多数工作在处理调度问题时未能考虑到库位优化问题。为解决仓储中堆垛机调度问题,提出一种基于深度强化学习算法的近端策略优化调度方法。将调度问题视为序列决策问题,通过智能体与环境的持续交互进行自我学习,以在不断变化的环境中优化调度。针对调度中伴生的库位优化问题,提出一种基于多任务学习的调度、库位推荐联合算法,并基于调度网络构建适用于库位推荐的Actor网络,通过与Critic网络进行交互反馈,促进整体的联动和训练,从而提升整体效益。实验结果表明,与原算法模型相比,该调度方法的累计回报值指标平均提升了33.6%,所提的多任务学习的联合算法能有效地应对堆垛机调度和库位优化的应用场景,可为该类多任务问题提供可行的解决方案。 相似文献
15.
在移动边缘计算(MEC)服务器计算资源有限且计算任务具有时延约束的情况下,为缩短任务完成时间并降低终端能耗,提出针对卸载决策与资源分配的联合优化方法.在多用户多服务器MEC环境下设计一种新的目标函数以构建数学模型,结合深度强化学习理论提出改进的Nature Deep Q-learning算法Based DQN.实验结果... 相似文献
16.
王华华;黄梁;陈甲杰;方杰宁 《计算机应用》2025,45(2):571-577
针对低轨(LEO)卫星在多波束场景下的资源分配问题;由于在实际卫星通信环境中;波束间信号的干扰和噪声等因素复杂多变;常规的子载波动态分配算法无法动态调整参数以适应通信环境的变化。通过结合传统的通信调度算法与强化学习技术;以最小化用户丢包率为目标;动态调整用户调度情况并动态分配整个卫星通信系统的资源以适应环境的变化。通过时隙划分离散化LEO卫星的动态特性模型;并根据LEO卫星资源分配场景的建模提出一种基于深度强化学习(DRL)的资源分配策略。通过调整卫星调度的排队情况;增加大时延用户的调度机会;即调节单颗LEO卫星各个波束中的资源块以对应用户的资格性;从而在保证一定公平性的同时;降低用户丢包率。仿真实验结果表明;在满足总功率约束的条件下;所提出的基于深度强化学习的资源分配算法(DRL-RA)中的用户传输公平性和系统吞吐量比较稳定;且DRL-RA中时延较大的用户因优先级提升而获得了更多的调度机会;而DRL-RA的数据丢包率相较于比例公平算法和最大负载/干扰(Max C/I)算法分别降低了13.9%和15.6%。可见;所提算法有效解决了数据传输过程中丢包的问题。 相似文献
17.
《计算机应用》2024,45(2)
针对低轨(LEO)卫星在多波束场景下的资源分配问题;由于在实际卫星通信环境中;波束间信号的干扰和噪声等因素复杂多变;常规的子载波动态分配算法无法动态调整参数以适应通信环境的变化。通过结合传统的通信调度算法与强化学习技术;以最小化用户丢包率为目标;动态调整用户调度情况并动态分配整个卫星通信系统的资源以适应环境的变化。通过时隙划分离散化LEO卫星的动态特性模型;并根据LEO卫星资源分配场景的建模提出一种基于深度强化学习(DRL)的资源分配策略。通过调整卫星调度的排队情况;增加大时延用户的调度机会;即调节单颗LEO卫星各个波束中的资源块以对应用户的资格性;从而在保证一定公平性的同时;降低用户丢包率。仿真实验结果表明;在满足总功率约束的条件下;所提出的基于深度强化学习的资源分配算法(DRL-RA)中的用户传输公平性和系统吞吐量比较稳定;且DRL-RA中时延较大的用户因优先级提升而获得了更多的调度机会;而DRL-RA的数据丢包率相较于比例公平算法和最大负载/干扰(Max C/I)算法分别降低了13.9%和15.6%。可见;所提算法有效解决了数据传输过程中丢包的问题。 相似文献
18.
针对当前多智能体强化学习算法难以适应智能体规模动态变化的问题,文中提出序列多智能体强化学习算法(SMARL).将智能体的控制网络划分为动作网络和目标网络,以深度确定性策略梯度和序列到序列分别作为分割后的基础网络结构,分离算法结构与规模的相关性.同时,对算法输入输出进行特殊处理,分离算法策略与规模的相关性.SMARL中的... 相似文献
19.
针对空中对接任务中的目标自主跟踪问题,提出了一种基于深度强化学习的端到端的目标跟踪方法。该方法采用近端策略优化算法,Actor网络与Critic网络共享前两层的网络参数,将无人机所拍摄图像作为卷积神经网络的输入,通过策略网络控制多旋翼无人机电机转速,实现端到端的目标跟踪,同时采用shaping方法以加速智能体训练。通过物理引擎Pybullet搭建仿真环境并进行训练验证,仿真结果表明该方法能够达到设定的目标跟踪要求且具有较好的鲁棒性。 相似文献
20.
在云网融合背景下,承载软件即服务(SaaS)业务功能的云基础设施可能横跨多个数据中心和归属网络,难以保证云资源安全可控。为缩短SaaS业务服务的处理时延,设计基于冗余执行和交叉检验的SaaS组合服务模式,并对容器、Hypervisor和云基础设施的安全威胁进行建模,建立拟态化虚拟网络功能映射模型和安全性优化机制。在此基础上,提出基于近端策略优化的PJM算法。实验结果表明,与CCMF、JEGA和QVNE算法相比,PJM算法在满足安全性约束的条件下,能够降低约12.2%业务端到端时延。 相似文献