期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

王唯鉴王勇杨骁章俊哲彭程星《制造业自动化》2023,(5):202-206

为提升复杂场景下多AGV系统任务分配效率,适配动态多变的现代物流搬运场景,提出一种基于多智能体深度强化学习的任务分配方法。首先,根据问题约束条件和优化目标按照强化学习范式对问题进行建模,利用栅格地图建立了算法训练环境,并规定了智能体动作和环境可观测状态,其次应用IDQN算法训练生成指导AGVS任务分配的动作价值函数,最后,在不同问题规模下通过实验证明了IDQN方法相较于传统算法解决同一问题的效率优势,并展示了模型在不同尺度地图中的泛化能力。相似文献

2.

考虑任务复杂性的人机联合任务分配问题研究

孔繁森高天宇李惠敏卢振林《机械工程学报》2021,57(7):204-214

在生产线中,机器人加入的直接目的是降低人的劳动强度,提高生产线的效率.关于人机联合任务分配问题多以成本和时间为目标进行任务分配,则建立了考虑任务复杂性的人机联合任务分配模型,旨在获得最优资源利用方案.首先从操作过程和决策过程两方面给出了人机联合装配操作复杂度的评价方法;其次,开发了基于操作复杂度的人机联合任务分配模型,... 相似文献

3.

基于人机合作的核运维机器人轴孔装配研究

宋宇胡莉刘满禄张华徐冬苓《制造业自动化》2022,(6):132-138

为了提高核设施日常运行维护的效率,同时降低工作人员的受辐射剂量,针对CAP1400核电厂示范工程项目的任务需求,重点考虑核电厂堆外核测探测器安装过程中探测器与仪器井的轴孔柔顺装配问题,提出一种基于人机合作的核运维机器人轴孔装配方法。根据核运维机器人在核电厂环境中的运行特点,将轴孔装配任务分为搜索阶段和插入阶段。在搜索阶段搭建主从机械臂遥操作控制系统,将销钉放置在孔的中心位置。在插入阶段基于深度强化学习算法模型,以从端机械臂末端的力反馈和销钉位姿两种信息为依据构建马尔科夫决策过程,通过训练得到从端机械臂当前状态与动作的映射关系从而获取最优控制策略,依据力反馈信息实时调整销钉的位置和方向,控制销钉插入孔中。最后通过在真实场景中搭建的主从异构遥操作系统以及在仿真环境webots中建立的简化轴孔装配仿真验证了上述方法的可行性。相似文献

4.

基于深度强化学习的作业车间调度问题优化

乔东平段绿旗黎宏磊肖艳秋《制造技术与机床》2023,(4):148-155

针对作业车间调度问题求解的复杂性,以最小化最大完工时间为目标,提出基于深度强化学习优化算法求解作业车间调度问题。首先,基于析取图模型构建深度强化学习的调度环境,并建立三通道状态特征,设计20种复合启发式调度规则作为动作空间,将奖励函数等价为机器利用率;利用深度卷积神经网络搭建动作网络和目标网络,以状态作为输入,输出每个动作的Q值,进而使用行动有效性探索和利用策略选取动作;最后,计算即时奖励和更新调度环境。使用标准案例验证了算法可以平衡求解质量和时间,训练好的智能体对非零初始状态下调度问题具有很好的泛化性。相似文献

5.

基于深度强化学习的旋转机械故障诊断策略

龙舰涵《机械设计与制造》2021,368(10):288-294

由于传统深度学习方法无法挖掘原始振动数据与旋转机械状态之间的非线性映射关系,提出了一种基于堆叠式自动编码器与深度Q网络相结合的深度强化学习旋转机械故障诊断方法.首先建立故障诊断博弈模型,该博弈模型可以为故障诊断代理提供观察、行动和获得奖励的交互式环境.然后,堆叠式自动编码器采用完全连接模型进行逐级的内在特征学习从而... 相似文献

6.

基于深度强化学习的作业车间节能调度研究

李子晨;苑明海;黄涵钰;裴凤雀《制造技术与机床》2024,(6):161-169

针对绿色制造背景下的作业车间调度问题,提出一种基于析取图的调度框架,该框架可以应对复杂多变的生产调度环境,并实时反映车间生产状态和机床能耗。在将调度问题转化为马尔可夫决策过程中,定义2个静态矩阵和5个动态矩阵作为状态空间,设计有关节能策略的组合调度规则,通过全局和局部两种方式描述奖励函数。最后,使用竞争深度Q网络训练模型。通过与调度规则、遗传算法等其他优化算法测试对比,证明了文章所提方法能够有效缩短完工时间和降低车间总能耗。相似文献

7.

基于深度强化学习的锂电池快速充电控制策略

唐鑫欧阳权黄俍卉王志胜马瑞《机械工程学报》2022,58(22):69-78

安全高效的锂电池充电控制策略对于电动汽车的发展具有重要推动作用。针对锂电池的快速充电问题,提出一种综合考虑锂电池充电速度、能量损耗、安全约束多目标优化充电控制策略。基于动作-评价网络框架,利用基于近端策略优化的深度强化学习算法,训练出使得充电目标对应的奖励函数最大的充电策略神经网络和策略评估神经网络。然后,利用训练完成的充电策略神经网络根据当前电价和电池SOC智能决策出最优的充电电流。该充电控制策略的优势在于能够在保证快速充电的同时,实现充电花费最小化。同时,充电策略神经网络在线运算量较小,与基于模型的在线优化算法相比更能满足充电控制的实时性要求。最后,仿真结果表明,该充电控制策略与传统恒流-恒压法相比,具有兼顾充电速度与电费支出的优势,满足快速充电任务需求的同时,最高可降低25%的充电成本。相似文献

8.

基于深度强化学习的流水线预测性维护决策

崔鹏浩王军强张文沛李洋《计算机集成制造系统》2021,27(12):3416-3428

预测性维护是一种以设备工作状态为依据的维护决策方式,旨在降低维护成本的同时提高设备乃至生产系统的运作效率.针对考虑机器劣化过程的多机流水线,以产线性能评估为基础,分析系统运行过程中机器的维护时机,研究流水线预测性维护决策问题.首先,分析了机器故障和维护活动对系统状态转移过程的影响,基于马尔科夫链构建了流水线瞬态性能评估模型,揭示了机器故障和维护活动对生产过程影响的作用机理,量化了系统瞬态产出和在制品水平等性能指标.其次,综合考虑在制品库存成本、缺货惩罚成本和预测性维护成本,以最小化系统总成本为目标,基于马尔科夫决策过程建立了流水线预测性维护决策模型.利用所提的瞬态性能评估模型模拟流水线的实时运行过程,产生神经网络训练所需的数据,利用深度强化学习算法对问题进行近似求解,获得了有效的流水线预测性维护策略.仿真实验结果表明,所提预测性维护决策方法既保证了流水线产出,又降低了在制品库存和维护成本. 相似文献

9.

基于深度强化学习算法的机器人浮动打磨执行装置研究

下载免费PDF全文

张一然;杨龙;袁博;李长耿《制造技术与机床》2023,(11):18-22, 28

为实现机器人恒力打磨的需求,文章设计了浮动打磨执行器,进行了打磨控制算法研究和浮动打磨执行器的结构设计,并对浮动打磨执行器系统进行受力分析和动力学建模。在传统PID控制算法的基础上,采用DDPG深度强化学习算法进行PID控制参数的整定,并开展浮动打磨执行器恒力性能实验验证。实验结果表明,文章设计的浮动打磨执行器能够满足恒力控制的要求。通过DDPG深度强化学习算法对PID控制参数整定,减少了繁琐的调参步骤,且具有更好的恒力控制性能。相似文献

10.

基于深度强化学习的变步长LMS算法

下载免费PDF全文

徐君阳张红梅张坤《仪器仪表学报》2025,46(2):70-80

针对定步长LMS算法在收敛速度和稳态误差之间难以取得平衡的问题以及传统变步长算法对初始参数选择依赖程度高、工作量大且存在主观性的缺陷,提出了一种基于深度强化学习的变步长LMS算法。该算法对初始参数的依赖性小,规避了繁琐的调参流程。首先,构建了一个融合深度强化学习和自适应滤波的算法模型,该模型利用深度强化学习智能体控制步长因子的变化,代替了传统变步长算法中用于步长调整的非线性函数,从而规避了繁琐的实验调参流程,降低了算法使用的复杂性。其次,提出了基于误差的状态奖励和基于步长的动作奖励函数,引入动态奖励与负奖励机制,有效提升算法的收敛速度。此外,设计了基于欠完备编码器的网络结构,提高了强化学习策略的推理能力。通过实验验证,相较于其他较新的变步长算法,所提出的算法具有更快的收敛速度和更小的稳态误差,在不同初始参数下均能快速调整至合理的步长值,减少了实验调参的工作量。将训练完成的网络应用到系统辨识、信号去噪以及截流区龙口水域水位信号的滤波等实际领域中,均取得了良好的性能表现,证明了算法具有一定的泛化能力,并进一步证实了其有效性。相似文献

11.

基于深度强化学习的机械臂避障轨迹规划研究

下载免费PDF全文

曹毅;郭银辉;李磊;朱柏宇;赵治华《机械传动》2023,47(12):40-46

针对传统路径规划算法在机械臂避障运动时存在规划时间长、路径冗长等问题,提出了一种基于深度强化学习（DeepReinforcementLearning,DRL）的运动规划方法。首先,构建了机械臂数学模型和运动环境,并在PyBullet中搭建了DOBOT机械臂与操作环境,设置了DRL所需的奖励函数、动作变量和状态变量等参数。其次,针对静态障碍物规避问题的特点,采用深度确定性策略梯度（DeepDeterministicPolicyGradient,DDPG）算法,进行了运动仿真试验。仿真结果表明,相较于快速扩展随机树（Rapid-exploringRandomTree,RRT）算法以及改进RRT算法,所提出的DDPG算法在规划时间和路径长度方面均有一定程度提高。最后,在实验室中采用DOBOT机械臂对DDPG算法在多种障碍物环境下避障操作的有效性进行了验证。相似文献

12.

基于深度强化学习的非置换流水车间调度问题

肖鹏飞张超勇孟磊磊洪辉戴稳《计算机集成制造系统》2021,27(1):192-205

针对传统调度算法不能有效利用历史数据进行学习,实时性较差而难以应对复杂多变的实际生产调度环境等问题,首次提出一种基于时序差分法的深度强化学习算法.该方法综合神经网络和强化学习实时性、灵活性的优势,直接依据输入的加工状态进行行为策略选取,更贴近实际订单响应式生产制造系统的调度决策过程.通过将调度问题转化为多阶段决策问题,... 相似文献

13.

基于深度强化学习的风电拉挤板生产智能排程

杨逢海;杨晓英;裴志杰;武亚琪;张志伟《现代制造工程》2025,(1):23-32

针对具有包装顺序齐套和产品换型调整等复杂特征的风电拉挤板生产排程问题,构建了最大化当期开动设备平均利用率和最大化订单履约率的多目标协同优化模型;将风电拉挤板生产排程问题转化为马尔科夫序列决策问题,设计了10种不同排程策略作为动作空间,提炼适当的状态特征和奖励函数;提出一种基于决斗双深度Q网络(D3QN)的排程算法。通过某企业实际数据的仿真试验,与Double DQN和Dueling DQN算法对比验证所提算法有效性;并比较4种不同求解方法在10个算例下得到的目标值,验证了所提出的改进D3QN算法可以得到问题的高质量解,为风电拉挤板制造企业生产排程提供了一种智能化的方法和参考。相似文献

14.

基于深度强化学习多用户移动边缘计算轻量任务卸载优化

张文献杜永文《测试科学与仪器》2021,12(4):489-500

移动边缘计算(MEC)在提高移动设备的计算体验质量方面具有一定的应用前景.它可以为支持传统通信和MEC服务的切片式无线接入网提供紧密邻近的计算功能.然而,这种密集计算问题是一种高维的NP难问题,一些机器学习方法在解决该问题的时候不能取得良好的效果.针对这些问题,本文将最佳计算卸载问题建模为马尔可夫决策过程,目标是最大化长期效用性能,从而根据队列状态、能量队列状态以及移动用户与BS之间的信道质量做出卸载决策.为了降低状态空间中高维性的问题,提出了应用深度确定性策略梯度的基于候选网络优化边缘计算优化卸载ECOO算法,从而产生一种用于解决随机任务卸载的新型学习算法.通过仿真实验证明,ECOO算法在能耗和时延方面优于一些深度强化学习算法,在处理高维问题时效果更好. 相似文献

15.

基于神经网络深度强化学习的分拣机器人避障规划技术

丁玲《工业仪表与自动化装置》2023,(2):46-50

分拣机器人的避障决策过程较为复杂,为提高分拣机器人的工作效果,设计基于神经网络深度强化学习的分拣机器人避障规划技术。首先,在动力学场景中设置障碍物,利用马尔科夫决策过程获取分拣机器人的运动状态后,判断障碍目标。在对神经网络实施深度优化学习后,设置了导引奖赏机制,并结合人工势场法建立连续型奖励函数,引导机器人向正确方向运动。将分拣机器人运动状态输入到神经网络中,在导引奖赏机制的引导下实现分拣机器人的避障。在环境中设置了障碍物,实现环境搭建,仿真测试实验结果表明:该方法具有较高的避障能力,可引导机器人在运动过程中做出正确的动作,进而实现精准避障。相似文献

16.

基于深度强化学习的柔性作业车间调度方法

下载免费PDF全文

崔雪艳;万烂军;赵昊鑫;李长云《制造技术与机床》2023,(12):165-170

由于传统的调度方法在求解大规模柔性作业车间调度问题中存在短视性、计算时间过长和算法参数难以确定等问题,因此提出了一种有效求解大规模柔性作业车间调度问题的深度强化学习方法。首先,将柔性作业车间调度问题转化为一个多智能体马尔科夫决策过程。然后,构建一个用于求解柔性作业车间调度问题的演员评论家模型,演员网络根据状态输出调度规则,智能体根据调度规则选择合适的工序,评论家网络根据状态和奖励对演员网络的动作进行评估。最后,采用不同规模的柔性作业车间调度问题实例验证该方法的性能。实验结果表明,该方法的求解质量优于启发式调度规则,求解效率优于元启发式算法。相似文献

17.

复杂动态环境下基于深度强化学习的AGV避障方法

蔡泽胡耀光闻敬谦张立祥《计算机集成制造系统》2023,(1):236-245

为提升自动导引车(AGV)在智能工厂复杂动态环境下的避障能力,使其能在全局路径引导下安全、高效地完成避障任务,提出一种基于深度强化学习的局部避障方法。首先,将避障问题表示为部分观测马尔可夫决策过程,详细描述了观测空间、动作空间、奖励函数和最优避障策略,通过设置不同的奖励实现以全局路径引导局部避障规划;然后,在此基础上,采用深度确定性策略梯度算法训练避障策略;最后,建立了仿真实验环境,并设计多种实验场景来验证所提方法的有效性。实验结果表明,所提方法可以应对复杂动态环境,减小避障时间与距离,提高运行效率。相似文献

18.

基于免疫强化学习机制的多机器人动态协作

高云园彭勇刚韦巍《制造业自动化》2007,29(7):21-26,66

利用免疫系统中T细胞对抗体的调节作用，本文提出的免疫强化学习方法以强化学习形式，动态调整抗体间相互作用系数，优化网络结构，充分利用了免疫系统的自学习、自适应和免疫记忆特性。将免疫强化学习应用于机器人系统，机器人基于行为集，在实际运行中在线学习未知环境信息，优化行为选择。在基于免疫学习的单机器人系统基础上，考虑多机器人协作性，并应用于多机器人多目标探测中。仿真验证了基于免疫学习机制的多机器人系统对未知动态环境的学习能力和动态协作的有效性。相似文献

19.

基于深度强化学习的含需求响应热电联产系统调度优化

《流体测量与控制》2021,2(2)

相似文献

20.

基于深度强化学习的自动化码头堆场场桥调度方法

王无印黄子钊庄子龙方怀瑾秦威《机械工程学报》2024,60(6):44-57

场桥是自动化码头堆场中的核心作业机械,场桥的合理调度是集装箱作业效率提升的关键。针对场桥调度问题具有的复杂时空耦合特性和高度的动态性,以最小化自动导引车(Automatic guided vehicle,AGV)和外集卡的等待时间为优化目标构建数学规划模型,并提出一种新颖的深度强化学习方法进行求解。算法设计贴近实际堆场作业环境的智能体,并在智能体与环境的交互部分通过指针网络、注意力机制和演员-评论家(Actor-critic,A-C)架构的设计提高了获取状态中的隐藏模式的能力。在基于洋山四期自动化码头实际数据生成的不同规模的算例上展开试验,所提算法能实现场桥调度方案的高效输出,相较于一些启发式规则算法有17%左右的性能提升。试验结果表明所提调度方法是有效且优越的,能够在实际中为堆场作业提供动态决策支持。相似文献