首页 | 本学科首页   官方微博 | 高级检索  
     

子字粒度切分在蒙汉神经机器翻译中的应用
引用本文:任众,侯宏旭,吉亚图,武子玉,白天罡,雷颖.子字粒度切分在蒙汉神经机器翻译中的应用[J].中文信息学报,2019,33(1):85-92.
作者姓名:任众  侯宏旭  吉亚图  武子玉  白天罡  雷颖
作者单位:内蒙古大学 计算机学院,内蒙古 呼和浩特 010021
基金项目:内蒙古自然科学基金(2018MS06005);内蒙古蒙古语言文字信息化专项扶持项目(MW-2018-MGYWXXH-302);内蒙古自治区研究生科研创新项目(10000-16010109-18)
摘    要:在蒙汉神经机器翻译任务中,由于语料稀少使得数据稀疏问题严重,极大影响了模型的翻译效果。该文对子字粒度切分技术在蒙汉神经机器翻译模型中的应用进行了研究。通过BPE算法将切分粒度控制在字符和词之间的子字粒度大小,将低频词切分成相对高频的子字片段,来缓解数据稀疏问题,从而在有限的数据和硬件资源条件下,更高效地提升模型的鲁棒性。实验表明,在两种网络模型中使用子字粒度切分技术,BLEU值分别提升了4.81和2.96,且随着语料的扩大,训练周期缩短效果也更加显著,说明子字粒度切分技术有助于提高蒙汉神经机器翻译效果。

关 键 词:蒙汉神经机器翻译  数据稀疏  子字粒度切分  

Application of Sub-word Segmentation in Mongolian-Chinese Neural Machine Translation
REN Zhong,HOU Hongxu,JI Yatu,WU Ziyu,BAI Tiangang,LEI Ying.Application of Sub-word Segmentation in Mongolian-Chinese Neural Machine Translation[J].Journal of Chinese Information Processing,2019,33(1):85-92.
Authors:REN Zhong  HOU Hongxu  JI Yatu  WU Ziyu  BAI Tiangang  LEI Ying
Affiliation:School of Computer Technology, Inner Mongolia University, Hohhot, Inner Mongolia 010021, China
Abstract:In the Mongolian-Chinese neural machine translation, the data sparse issue is of substantial effect to the translation quality. This paper applies the sub-word granularity segmentation in the Mongolian-Chinese neural machine translation model. The Byte Pair Encoding algorithm is adopted to alleviate the data sparseness by reducing the low-frequency words into relatively high-frequency sub-units. Experiments show that the sub-word segmentation technique can improve the Mongolian-Chinese neural machine translation, achieving 4.81 and 2.96 improvements in BLEU score, respectively.
Keywords:Mongolian-Chinese neural machine translation  data sparseness  sub-word segmentation  
点击此处可从《中文信息学报》浏览原始摘要信息
点击此处可从《中文信息学报》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号