首页 | 本学科首页   官方微博 | 高级检索  
     

训练语料的不同利用方式对神经机器翻译模型的影响
引用本文:邝少辉,熊德意. 训练语料的不同利用方式对神经机器翻译模型的影响[J]. 中文信息学报, 2018, 32(8): 53
作者姓名:邝少辉  熊德意
作者单位:苏州大学 计算机科学与技术学院,江苏 苏州 215006
基金项目:国家自然科学基金优秀青年基金(61622209)
摘    要:神经机器翻译(NMT)是近两年刚出现的一种新型机器翻译方法,是一种端到端的翻译模型。目前,影响NMT模型效果的因素有很多,其一,当训练语料规模较大时,梯度下降更新方法会对机器的内存要求很高,因此大多研究工作中采用随机梯度下降(SGD)的方法来更新模型的训练参数,即每输入一定数量(批:batch)的训练样例,就利用局部的训练样例更新一次模型参数;其二,参数dropout可以防止系统训练时出现过拟合,提高系统泛化能力;其三,数据打乱(shuffle)也对翻译结果有着重要影响。因此,该文的研究内容主要是探索批、dropout和打乱这三个因素在训练神经机器翻译模型中对模型翻译质量的影响,并得出以下三条结论: 一是批的大小将影响神经机器翻译(NMT)模型的收敛速度,二是dropout可以提升神经机器翻译模型的性能,三是数据打乱可以在一定程度上提升神经机器翻译(NMT)系统的翻译质量。

关 键 词:神经机器翻译    dropout  数据打乱  

The Influence of Different Use of Training Corpus on Neural Machine Translation Model
KUANG Shaohui,XIONG Deyi. The Influence of Different Use of Training Corpus on Neural Machine Translation Model[J]. Journal of Chinese Information Processing, 2018, 32(8): 53
Authors:KUANG Shaohui  XIONG Deyi
Affiliation:School of Computer Sciences and Technology, Soochow University, Suzhou, Jiangsu 215006, China
Abstract:Neural machine translation (NMT) is an emerging end-to-end machine translation paradigm. In NMT, the stochastic gradient descent (SGD) is used to update the model parameters. This paper explores the influence on NMT system resulted from the batch, the dropout and the shuffle in SGD. The results show that the size of batch affects the convergence speed of NMT model, hyper parameter dropout has a huge impact on the performance of the NMT model, and data shuffle can improve the translation quality of NMT system.
Keywords:neural machine translation    batch    dropout    data shuffle  
点击此处可从《中文信息学报》浏览原始摘要信息
点击此处可从《中文信息学报》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号