面向分布式机器学习的大消息广播设计 |
| |
作者姓名: | 辛逸杰 谢彬 李振兴 |
| |
作者单位: | 华东计算技术研究所, 上海 201808;华东计算技术研究所, 上海 201808;华东计算技术研究所, 上海 201808 |
| |
摘 要: | MPI (Message Passing Interface)专为节点密集型大规模计算集群设计,然而,随着MPI+CUDA (Compute Unified Device Architecture)应用程序以及计算节点拥有GPU的计算机集群的出现,类似于MPI的传统通信库已无法满足.而在机器学习领域,也面临着同样的挑战,如Caff以及CNTK (Microsoft CognitiveToolkit)的深度学习框架,由于训练过程中, GPU会缓存庞大的数据量,而大部分机器学习训练的优化算法具有迭代性特点,导致GPU间的通信数据量大,通信频率高,这些已成为限制深度学习训练性能提升的主要因素之一,虽然推出了像NCCL(Nvidia Collective multi-GPU Communication Library)这种解决深度学习通信问题的集合通信库,但也存在不兼容MPI等问题.因此,设计一种更加高效、符合当前新趋势的通信加速机制便显得尤为重要,为解决上述新形势下的挑战,本文提出了两种新型通信广播机制:(1)一种基于MPIBcast的管道链PC (Pipelined ...
|
关 键 词: | 深度学习 NCCL MPIBcast 管道链通信 拓扑感知 PCIe链路 |
收稿时间: | 2019-06-17 |
修稿时间: | 2019-07-12 |
本文献已被 维普 万方数据 等数据库收录! |
| 点击此处可从《计算机系统应用》浏览原始摘要信息 |
|
点击此处可从《计算机系统应用》下载免费的PDF全文 |
|