基于数据并行的神经语言模型多卡训练分析 Analysis of Data Parallel Training of Neural Language Models via Multiple GPUs期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

基于数据并行的神经语言模型多卡训练分析

引用本文：	李垠桥,阿敏巴雅尔,肖桐,薄乐,朱靖波,张俐. 基于数据并行的神经语言模型多卡训练分析[J]. 中文信息学报, 2018, 32(7): 37-43

作者姓名：	李垠桥阿敏巴雅尔肖桐薄乐朱靖波张俐

作者单位：	东北大学自然语言处理实验室,辽宁沈阳 110819

基金项目：	国家自然科学基金(61672138);国家自然科学基金(61432013);中央高校基本科研业务费

摘要：	数据并行训练神经语言模型,旨在不改变网络结构的同时,大幅度降低训练所带来的时间消耗。但由于多设备之间频繁的数据传输,使得整体加速效果并不理想。该文通过实验对比All-Reduce算法和基于采样的梯度更新策略在数据传输上的加速效果,使用了四块NVIDIA TITAN X (Pascal) GPU设备在循环神经语言模型上进行训练,两种方法分别可获得约25%和41%的速度提升。同时,该文还针对数据并行方法的适用性以及不同的硬件设备连接方式对传输速度的影响进行了讨论。
关键词：	数据并行神经语言模型 All-Reduce 采样
Analysis of Data Parallel Training of Neural Language Models via Multiple GPUs

LI Yinqiao,HAN Ambyer,XIAO Tong,BO Le,ZHU Jingbo,ZHANG Li. Analysis of Data Parallel Training of Neural Language Models via Multiple GPUs[J]. Journal of Chinese Information Processing, 2018, 32(7): 37-43

Authors:	LI Yinqiao HAN Ambyer XIAO Tong BO Le ZHU Jingbo ZHANG Li

Affiliation:	NLP Laboratory, Northeastern University, Shenyang, Liaoning 110819, China

Abstract:	Data parallelism aims at reducing time consumption without changing network structure while training neural language model. However, the result is not satisfactory due to frequent data transmission between multiple devices. In this paper, we compare the effect of gradient update strategies based on the All-Reduce algorithm and the sampling-based approach in data transmission. On four NVIDIA TITAN X (Pascal) GPUs, they achieve an acceleration rate of 25% and 41%, respectively. We also discuss the applicability of data parallelism and influence of hardware connection mode.

Keywords:	data parallelism neural language model All-Reduce sampling

	点击此处可从《中文信息学报》浏览原始摘要信息
	点击此处可从《中文信息学报》下载全文

设为首页 | 免责声明 | 关于勤云 | 加入收藏