首页 | 本学科首页   官方微博 | 高级检索  
     

基于数据并行的神经语言模型多卡训练分析
引用本文:李垠桥,阿敏巴雅尔,肖桐,薄乐,朱靖波,张俐. 基于数据并行的神经语言模型多卡训练分析[J]. 中文信息学报, 2018, 32(7): 37-43
作者姓名:李垠桥  阿敏巴雅尔  肖桐  薄乐  朱靖波  张俐
作者单位:东北大学 自然语言处理实验室,辽宁 沈阳 110819
基金项目:国家自然科学基金(61672138);国家自然科学基金(61432013);中央高校基本科研业务费
摘    要:数据并行训练神经语言模型,旨在不改变网络结构的同时,大幅度降低训练所带来的时间消耗。但由于多设备之间频繁的数据传输,使得整体加速效果并不理想。该文通过实验对比All-Reduce算法和基于采样的梯度更新策略在数据传输上的加速效果,使用了四块NVIDIA TITAN X (Pascal) GPU设备在循环神经语言模型上进行训练,两种方法分别可获得约25%和41%的速度提升。同时,该文还针对数据并行方法的适用性以及不同的硬件设备连接方式对传输速度的影响进行了讨论。

关 键 词:数据并行  神经语言模型  All-Reduce  采样  

Analysis of Data Parallel Training of Neural Language Models via Multiple GPUs
LI Yinqiao,HAN Ambyer,XIAO Tong,BO Le,ZHU Jingbo,ZHANG Li. Analysis of Data Parallel Training of Neural Language Models via Multiple GPUs[J]. Journal of Chinese Information Processing, 2018, 32(7): 37-43
Authors:LI Yinqiao  HAN Ambyer  XIAO Tong  BO Le  ZHU Jingbo  ZHANG Li
Affiliation:NLP Laboratory, Northeastern University, Shenyang, Liaoning 110819, China
Abstract:Data parallelism aims at reducing time consumption without changing network structure while training neural language model. However, the result is not satisfactory due to frequent data transmission between multiple devices. In this paper, we compare the effect of gradient update strategies based on the All-Reduce algorithm and the sampling-based approach in data transmission. On four NVIDIA TITAN X (Pascal) GPUs, they achieve an acceleration rate of 25% and 41%, respectively. We also discuss the applicability of data parallelism and influence of hardware connection mode.
Keywords:data parallelism    neural language model    All-Reduce    sampling  
点击此处可从《中文信息学报》浏览原始摘要信息
点击此处可从《中文信息学报》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号