面向状态可变数据流的集群调度综述 State-of-the-Art Survey of Cluster Scheduling for Mutable States Data Flow期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

面向状态可变数据流的集群调度综述

引用本文：	许源佳,吴恒,杨晨,吴悦文,张文博,王焘.面向状态可变数据流的集群调度综述[J].计算机学报,2022,45(5):973-992.

作者姓名：	许源佳吴恒杨晨吴悦文张文博王焘

作者单位：	中国科学院大学北京100190,中国科学院软件研究所软件工程技术研究开发中心北京 100190,中国科学院大学北京100190;中国科学院软件研究所软件工程技术研究开发中心北京 100190,中国科学院软件研究所软件工程技术研究开发中心北京 100190;中国科学院软件研究所计算机科学国家重点实验室北京100190

基金项目：	国家重点研发计划(2018YFB1003602)；;国家自然科学基金(61872344)；;北京市自然科学基金(4182070)；

摘要：	状态可变数据流(Mutable States Data Flow,MS-DF)是机器学习系统运行时的主要特征,MS-DF可由有向图来表示,其顶点由算子构成,表示机器学习运算逻辑;边代表算子之间的输入输出依赖关系.MS-DF的集群调度是保障机器学习系统高效运行的主要工作,如何高效进行MS-DF的集群调度已经成为机器学习的研究热点.其中,机器学习系统(TensorFlow、PyTorch等)作为中间层解耦了机器学习运算逻辑和资源分配(CPU,GPU,FGPA),从而机器学习无需再“独占式”静态绑定资源,而是由机器学习系统运行时动态管理,而算子是该解耦过程的关键要素,这给MS-DF的集群调度带来了新的挑战,这些挑战主要由算子资源需求刻画的准确性、算子调度决策的适应性和算子调度调整的差异性这三方面导致的.首先介绍算子资源需求的感知、协同两个机制,以克服多种算子组合导致其自身资源需求难以准确刻画的挑战;然后,通过决策约束、决策模型和决策求解来介绍算子调度决策,以应对算子状态频繁变化带来的适应性挑战;接着,介绍迁移、伸缩、挂起恢复等算子调度调整策略,以适用于不同算子状态同步方式带来的差异性挑战.最...
关键词：	机器学习系统状态可变数据流机器学习算子算子资源需求刻画算子调度决策算子调度调整
State-of-the-Art Survey of Cluster Scheduling for Mutable States Data Flow

XU Yuan-Jia,WU Heng,YANG Chen,WU Yue-Wen,ZHANG Wen-Bo,WANG Tao.State-of-the-Art Survey of Cluster Scheduling for Mutable States Data Flow[J].Chinese Journal of Computers,2022,45(5):973-992.

Authors:	XU Yuan-Jia WU Heng YANG Chen WU Yue-Wen ZHANG Wen-Bo WANG Tao

Abstract:

Keywords:
本文献已被万方数据等数据库收录！

设为首页 | 免责声明 | 关于勤云 | 加入收藏