首页 | 本学科首页   官方微博 | 高级检索  
     

分布式训练系统及其优化算法综述
作者姓名:王恩东  闫瑞栋  郭振华  赵雅倩
作者单位:1. 浪潮电子信息产业股份有限公司;3. 浪潮(北京)电子信息产业有限公司
基金项目:山东省自然科学基金项目(ZR2021QF073)资助~~;
摘    要:人工智能利用各种优化技术从海量训练样本中学习关键特征或知识以提高解的质量,这对训练方法提出了更高要求.然而,传统单机训练无法满足存储与计算性能等方面的需求.因此,利用多个计算节点协同的分布式训练系统成为热点研究方向之一.本文首先阐述了单机训练面临的主要挑战.其次,分析了分布式训练系统亟需解决的三个关键问题.基于上述问题归纳了分布式训练系统的通用框架与四个核心组件.围绕各个组件涉及的技术,梳理了代表性研究成果.在此基础之上,总结了基于并行随机梯度下降算法的中心化与去中心化架构研究分支,并对各研究分支优化算法与应用进行综述.最后,提出了未来可能的研究方向.

关 键 词:分布式训练系统  (去)中心化架构  中心化架构算法  (异)同步算法  并行随机梯度下降  收敛速率
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号