结合逆向强化学习与强化学习的晶圆批处理设备调度方法期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

结合逆向强化学习与强化学习的晶圆批处理设备调度方法

作者姓名：	王卓君张朋张洁

作者单位：	1. 东华大学机械工程学院;2. 东华大学人工智能研究院

基金项目：	国家自然科学基金资助项目(52005099);;中央高校基本科研业务费专项资金资助项目(223202100044)~~;

摘要：	针对晶圆批处理设备调度问题,以最小化生产周期为优化目标,考虑晶圆动态到达、重入加工与不兼容性约束等特点,提出了结合逆向强化学习与强化学习(combine Inverse Reinforcement Learning and Reinforcement Learning, IRL-RL)的晶圆批处理设备调度优化方法。根据批处理设备的加工特性,将问题分解为组批和批次指派两个子问题;由于子问题内部复杂的关联特性使晶圆批处理设备调度内部机理不明,且全局奖励函数设计困难,引入逆向强化学习指导奖励函数的设计;针对晶圆lot的重入加工特性,设计期望流动时间与剩余等待时间关键状态变量;批次指派智能体兼顾考虑任务的紧急程度与工艺类型切换带来的差异生产准备时间进行综合决策,满足批处理设备工艺类型的不兼容性约束;通过设计奖励函数关键参数的非线性特征,解释晶圆lot剩余加工层数与期望流动时间之间的复杂流变关系。24组标准算例的实验数据表明,IRL-RL算法的优化结果与计算效率优于一般强化学习算法和较优规则等方法;经企业实例数据验证,晶圆的生产周期缩短了15%。
关键词：	晶圆批处理调度并行批处理机动态调度逆向强化学习强化学习生产周期重入加工

设为首页 | 免责声明 | 关于勤云 | 加入收藏