首页 | 本学科首页   官方微博 | 高级检索  
     

面向状态可变数据流的集群调度综述
引用本文:许源佳,吴恒,杨晨,吴悦文,张文博,王焘.面向状态可变数据流的集群调度综述[J].计算机学报,2022,45(5):973-992.
作者姓名:许源佳  吴恒  杨晨  吴悦文  张文博  王焘
作者单位:中国科学院大学 北京100190,中国科学院软件研究所软件工程技术研究开发中心 北京 100190,中国科学院大学 北京100190;中国科学院软件研究所软件工程技术研究开发中心 北京 100190,中国科学院软件研究所软件工程技术研究开发中心 北京 100190;中国科学院软件研究所计算机科学国家重点实验室 北京100190
基金项目:国家重点研发计划(2018YFB1003602);;国家自然科学基金(61872344);;北京市自然科学基金(4182070);
摘    要:状态可变数据流(Mutable States Data Flow,MS-DF)是机器学习系统运行时的主要特征,MS-DF可由有向图来表示,其顶点由算子构成,表示机器学习运算逻辑;边代表算子之间的输入输出依赖关系.MS-DF的集群调度是保障机器学习系统高效运行的主要工作,如何高效进行MS-DF的集群调度已经成为机器学习的研究热点.其中,机器学习系统(TensorFlow、PyTorch等)作为中间层解耦了机器学习运算逻辑和资源分配(CPU,GPU,FGPA),从而机器学习无需再“独占式”静态绑定资源,而是由机器学习系统运行时动态管理,而算子是该解耦过程的关键要素,这给MS-DF的集群调度带来了新的挑战,这些挑战主要由算子资源需求刻画的准确性、算子调度决策的适应性和算子调度调整的差异性这三方面导致的.首先介绍算子资源需求的感知、协同两个机制,以克服多种算子组合导致其自身资源需求难以准确刻画的挑战;然后,通过决策约束、决策模型和决策求解来介绍算子调度决策,以应对算子状态频繁变化带来的适应性挑战;接着,介绍迁移、伸缩、挂起恢复等算子调度调整策略,以适用于不同算子状态同步方式带来的差异性挑战.最...

关 键 词:机器学习系统  状态可变数据流  机器学习算子  算子资源需求刻画  算子调度决策  算子调度调整

State-of-the-Art Survey of Cluster Scheduling for Mutable States Data Flow
XU Yuan-Jia,WU Heng,YANG Chen,WU Yue-Wen,ZHANG Wen-Bo,WANG Tao.State-of-the-Art Survey of Cluster Scheduling for Mutable States Data Flow[J].Chinese Journal of Computers,2022,45(5):973-992.
Authors:XU Yuan-Jia  WU Heng  YANG Chen  WU Yue-Wen  ZHANG Wen-Bo  WANG Tao
Abstract:
Keywords:
本文献已被 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号