首页 | 本学科首页   官方微博 | 高级检索  
     

基于数据扩充的翻译记忆库与神经机器翻译融合方法
引用本文:曹骞,熊德意. 基于数据扩充的翻译记忆库与神经机器翻译融合方法[J]. 中文信息学报, 2020, 34(5): 36-43
作者姓名:曹骞  熊德意
作者单位:苏州大学 计算机科学与技术学院,江苏 苏州 215006
基金项目:国家重点研发计划(2019QY1802)
摘    要:神经机器翻译是目前机器翻译领域的主流方法,而翻译记忆是一种帮助专业翻译人员避免重复翻译的工具,其保留之前完成的翻译句对并存储在翻译记忆库中,进而在之后的翻译过程中通过检索去重用这些翻译。该文基于数据扩充提出两种将翻译记忆与神经机器翻译相结合的方法:(1)直接拼接翻译记忆在源语句后面;(2)通过标签向量拼接翻译记忆。该文在中英与英德数据集上进行了实验,实验表明,该方法可以使翻译性能获得显著提升。

关 键 词:神经机器翻译  翻译记忆  数据扩充

Integrating Translation Memory into Neural Machine Translation via Data Augmentation
CAO Qian,XIONG Deyi. Integrating Translation Memory into Neural Machine Translation via Data Augmentation[J]. Journal of Chinese Information Processing, 2020, 34(5): 36-43
Authors:CAO Qian  XIONG Deyi
Affiliation:School of Computer Science and Technology, Soochow University, Suzhou, Jiangsu 215006, China
Abstract:Neural machine translation is currently the most popular method in the field of machine translation, while translation memory is a tool to help professional translators avoid repeated translations. This paper proposes two methods to integrate the translation memory into neural machine translation via data augmentation: (1) directly stitching translation memory after the source sentence; (2) stitching translation memory by tag embedding. Experiments on Chinese-English and English-German datasets show that proposed methods can achieve significant improvements.
Keywords:neural machine translation    translation memory    data augmentation  
点击此处可从《中文信息学报》浏览原始摘要信息
点击此处可从《中文信息学报》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号