首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 0 毫秒
1.
为提升复杂场景下多AGV系统任务分配效率,适配动态多变的现代物流搬运场景,提出一种基于多智能体深度强化学习的任务分配方法。首先,根据问题约束条件和优化目标按照强化学习范式对问题进行建模,利用栅格地图建立了算法训练环境,并规定了智能体动作和环境可观测状态,其次应用IDQN算法训练生成指导AGVS任务分配的动作价值函数,最后,在不同问题规模下通过实验证明了IDQN方法相较于传统算法解决同一问题的效率优势,并展示了模型在不同尺度地图中的泛化能力。  相似文献   

2.
在生产线中,机器人加入的直接目的是降低人的劳动强度,提高生产线的效率.关于人机联合任务分配问题多以成本和时间为目标进行任务分配,则建立了考虑任务复杂性的人机联合任务分配模型,旨在获得最优资源利用方案.首先从操作过程和决策过程两方面给出了人机联合装配操作复杂度的评价方法;其次,开发了基于操作复杂度的人机联合任务分配模型,...  相似文献   

3.
为了提高核设施日常运行维护的效率,同时降低工作人员的受辐射剂量,针对CAP1400核电厂示范工程项目的任务需求,重点考虑核电厂堆外核测探测器安装过程中探测器与仪器井的轴孔柔顺装配问题,提出一种基于人机合作的核运维机器人轴孔装配方法。根据核运维机器人在核电厂环境中的运行特点,将轴孔装配任务分为搜索阶段和插入阶段。在搜索阶段搭建主从机械臂遥操作控制系统,将销钉放置在孔的中心位置。在插入阶段基于深度强化学习算法模型,以从端机械臂末端的力反馈和销钉位姿两种信息为依据构建马尔科夫决策过程,通过训练得到从端机械臂当前状态与动作的映射关系从而获取最优控制策略,依据力反馈信息实时调整销钉的位置和方向,控制销钉插入孔中。最后通过在真实场景中搭建的主从异构遥操作系统以及在仿真环境webots中建立的简化轴孔装配仿真验证了上述方法的可行性。  相似文献   

4.
针对作业车间调度问题求解的复杂性,以最小化最大完工时间为目标,提出基于深度强化学习优化算法求解作业车间调度问题。首先,基于析取图模型构建深度强化学习的调度环境,并建立三通道状态特征,设计20种复合启发式调度规则作为动作空间,将奖励函数等价为机器利用率;利用深度卷积神经网络搭建动作网络和目标网络,以状态作为输入,输出每个动作的Q值,进而使用行动有效性探索和利用策略选取动作;最后,计算即时奖励和更新调度环境。使用标准案例验证了算法可以平衡求解质量和时间,训练好的智能体对非零初始状态下调度问题具有很好的泛化性。  相似文献   

5.
由于传统深度学习方法无法挖掘原始振动数据与旋转机械状态之间的非线性映射关系,提出了一种基于堆叠式自动编码器与深度Q网络相结合的深度强化学习旋转机械故障诊断方法.首先建立故障诊断博弈模型,该博弈模型可以为故障诊断代理提供观察、行动和获得奖励的交互式环境.然后,堆叠式自动编码器采用完全连接模型进行逐级的内在特征学习从而...  相似文献   

6.
预测性维护是一种以设备工作状态为依据的维护决策方式,旨在降低维护成本的同时提高设备乃至生产系统的运作效率.针对考虑机器劣化过程的多机流水线,以产线性能评估为基础,分析系统运行过程中机器的维护时机,研究流水线预测性维护决策问题.首先,分析了机器故障和维护活动对系统状态转移过程的影响,基于马尔科夫链构建了流水线瞬态性能评估模型,揭示了机器故障和维护活动对生产过程影响的作用机理,量化了系统瞬态产出和在制品水平等性能指标.其次,综合考虑在制品库存成本、缺货惩罚成本和预测性维护成本,以最小化系统总成本为目标,基于马尔科夫决策过程建立了流水线预测性维护决策模型.利用所提的瞬态性能评估模型模拟流水线的实时运行过程,产生神经网络训练所需的数据,利用深度强化学习算法对问题进行近似求解,获得了有效的流水线预测性维护策略.仿真实验结果表明,所提预测性维护决策方法既保证了流水线产出,又降低了在制品库存和维护成本.  相似文献   

7.
安全高效的锂电池充电控制策略对于电动汽车的发展具有重要推动作用。针对锂电池的快速充电问题,提出一种综合考虑锂电池充电速度、能量损耗、安全约束多目标优化充电控制策略。基于动作-评价网络框架,利用基于近端策略优化的深度强化学习算法,训练出使得充电目标对应的奖励函数最大的充电策略神经网络和策略评估神经网络。然后,利用训练完成的充电策略神经网络根据当前电价和电池SOC智能决策出最优的充电电流。该充电控制策略的优势在于能够在保证快速充电的同时,实现充电花费最小化。同时,充电策略神经网络在线运算量较小,与基于模型的在线优化算法相比更能满足充电控制的实时性要求。最后,仿真结果表明,该充电控制策略与传统恒流-恒压法相比,具有兼顾充电速度与电费支出的优势,满足快速充电任务需求的同时,最高可降低25%的充电成本。  相似文献   

8.
针对传统调度算法不能有效利用历史数据进行学习,实时性较差而难以应对复杂多变的实际生产调度环境等问题,首次提出一种基于时序差分法的深度强化学习算法.该方法综合神经网络和强化学习实时性、灵活性的优势,直接依据输入的加工状态进行行为策略选取,更贴近实际订单响应式生产制造系统的调度决策过程.通过将调度问题转化为多阶段决策问题,...  相似文献   

9.
分拣机器人的避障决策过程较为复杂,为提高分拣机器人的工作效果,设计基于神经网络深度强化学习的分拣机器人避障规划技术。首先,在动力学场景中设置障碍物,利用马尔科夫决策过程获取分拣机器人的运动状态后,判断障碍目标。在对神经网络实施深度优化学习后,设置了导引奖赏机制,并结合人工势场法建立连续型奖励函数,引导机器人向正确方向运动。将分拣机器人运动状态输入到神经网络中,在导引奖赏机制的引导下实现分拣机器人的避障。在环境中设置了障碍物,实现环境搭建,仿真测试实验结果表明:该方法具有较高的避障能力,可引导机器人在运动过程中做出正确的动作,进而实现精准避障。  相似文献   

10.
移动边缘计算(MEC)在提高移动设备的计算体验质量方面具有一定的应用前景.它可以为支持传统通信和MEC服务的切片式无线接入网提供紧密邻近的计算功能.然而,这种密集计算问题是一种高维的NP难问题,一些机器学习方法在解决该问题的时候不能取得良好的效果.针对这些问题,本文将最佳计算卸载问题建模为马尔可夫决策过程,目标是最大化长期效用性能,从而根据队列状态、能量队列状态以及移动用户与BS之间的信道质量做出卸载决策.为了降低状态空间中高维性的问题,提出了应用深度确定性策略梯度的基于候选网络优化边缘计算优化卸载ECOO算法,从而产生一种用于解决随机任务卸载的新型学习算法.通过仿真实验证明,ECOO算法在能耗和时延方面优于一些深度强化学习算法,在处理高维问题时效果更好.  相似文献   

11.
为提升自动导引车(AGV)在智能工厂复杂动态环境下的避障能力,使其能在全局路径引导下安全、高效地完成避障任务,提出一种基于深度强化学习的局部避障方法。首先,将避障问题表示为部分观测马尔可夫决策过程,详细描述了观测空间、动作空间、奖励函数和最优避障策略,通过设置不同的奖励实现以全局路径引导局部避障规划;然后,在此基础上,采用深度确定性策略梯度算法训练避障策略;最后,建立了仿真实验环境,并设计多种实验场景来验证所提方法的有效性。实验结果表明,所提方法可以应对复杂动态环境,减小避障时间与距离,提高运行效率。  相似文献   

12.
13.
利用免疫系统中T细胞对抗体的调节作用,本文提出的免疫强化学习方法以强化学习形式,动态调整抗体间相互作用系数,优化网络结构,充分利用了免疫系统的自学习、自适应和免疫记忆特性。将免疫强化学习应用于机器人系统,机器人基于行为集,在实际运行中在线学习未知环境信息,优化行为选择。在基于免疫学习的单机器人系统基础上,考虑多机器人协作性,并应用于多机器人多目标探测中。仿真验证了基于免疫学习机制的多机器人系统对未知动态环境的学习能力和动态协作的有效性。  相似文献   

14.
基于深度强化学习与有限元仿真集成的拉深成形控制   总被引:1,自引:0,他引:1  
金属板材拉深过程中的压边力是决定成品质量的关键参数,传统压边力控制方法往往需要对高度非线性的拉深过程进行建模,导致其控制结果与实际存在较大偏差。提出一种基于深度强化学习与有限元仿真集成的金属板材拉深过程控制模型,利用深度神经网络强大的预测能力来提取拉深加工过程中的状态信息并进行可靠预测,结合强化学习的决策能力来进行压边力控制策略的学习优化,避免了精确系统动力学模型的拟合以及先验知识的获取。同时,针对板材拉深加工中常见的拉裂质量缺陷与起皱质量缺陷,建立拉深成形性能评价函数,为深度强化学习提供回报信号来指导学习过程,并利用有限元仿真构成深度强化学习的环境模型。试验表明,深度强化学习模型能够有效地进行压边力控制策略优化,有效提高产品质量。所提出的压边力控制模型利用无模型的深度强化学习,能避免拉深过程的系统模型拟合,可提高压边力控制策略的控制效果,同时结合循环神经网络能解决板材拉深加工过程中的部分可观察性问题。  相似文献   

15.
常规方法定义机器人避障奖赏函数时,仅在机器人到达目标位置后给出奖励,避障奖励稀疏,导致避障路径规划时间和长度较长、规划成功率较低。提出基于深度强化学习的工业机器人避障路径规划方法。利用传感器,探测机器人与障碍物和目标点之间的距离方位,构成状态空间,定义机器人避障决策奖赏函数,包括机器人与目标点的方位奖赏、距离奖赏、到达奖赏、每个避障动作奖赏,将状态空间信息输入神经网络,通过深度强化学习,输出下一时刻奖赏值最大的避障动作,形成最优避障路径。选择工厂厂房作为测试环境,改变障碍物数量和位置,布置工业机器人移动的简单场景和复杂场景,实验结果表明,设计方法减少了避障路径规划时间和长度,提高了规划成功率。  相似文献   

16.
以研究智能混合动力汽车控制技术与深度强化学习算法为目标,首先,在两辆混合动力汽车的跟驰环境中,针对领航车提出一种基于深度值网络算法的能量管理策略,实现深度强化学习对发动机与机械式无级变速器的多目标协同控制;其次,针对跟随车建立基于深度强化学习的分层控制模型,实现面向智能混合动力汽车的上层跟车控制与下层能量管理;最后,仿...  相似文献   

17.
针对双足机器人行走过程中的步态稳定控制问题,提出一种改进深度Q网络的深度强化学习方法.首先,将深度Q网络算法与确定性策略梯度相结合,提出用修正Double-Q网络优化操作一评论网络的评论网络,给出一种改进的深度Q网络;然后,建立双足机器人连杆模型,在常规的平整路面上将改进的深度Q网络用于作为智能体的双足机器人进行步态控...  相似文献   

18.
19.
针对作业车间调度问题(Job shop scheduling problem, JSSP)因NP-难属性难以快速获得优质解,以及生产场景随机扰动所导致的频繁重调度等求解难题,基于深度强化学习提出一种新颖的交互式工序智能体(Interactive operation agent, IOA)调度模型框架。在分析工序间工艺路线和加工设备约束关系的基础上,将Job shop的加工工序构建为工序智能体,设计工序智能体间的交互机制,智能体依据彼此关系进行特征交互并更新自身的特征向量,并基于工序特征和最早加工时间设计拟合动作值函数的深度神经网络,调度模型根据系统状态和工序智能体特征即可生成调度策略。采用Double DQN算法训练IOA调度模型,引入经验回放机制消除序列训练样本间的相关性,训练好的模型可以快速生成高质量的调度方案,并在机器发生故障时能够有效执行重调度策略。试验结果表明所提出的IOA调度方法优于贪婪算法和启发式调度规则,且具有良好鲁棒性和泛化能力。  相似文献   

20.
为了提高数控机床的加工精度,需要进行数控机床的几何误差标定与补偿.采用自由来流与圆柱中心连线的准线性标定方法构建数控机床控制约束参数测量模型,进行数控机床的输出载荷计算和结构力学参数评估,通过特征值屈曲分析的方法进行数控机床的几何误差测量,采用深度化学习的方法进行数控机床几何误差测量和误差补偿控制.仿真结果表明,该方法...  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号