基于多任务学习的民汉神经机器翻译数据增强方法 |
| |
引用本文: | 申影利,周毛克,赵小兵.基于多任务学习的民汉神经机器翻译数据增强方法[J].中文信息学报,2023(2):97-106. |
| |
作者姓名: | 申影利 周毛克 赵小兵 |
| |
作者单位: | 1. 中央民族大学中国少数民族语言文学学院;2. 国家语言资源监测与研究少数民族语言中心;3. 中央民族大学信息工程学院 |
| |
摘 要: | 神经机器翻译在资源丰富语言对中取得良好性能,但这种性能的取得通常以大规模的平行语料为前提。在民族语言与汉语之间仅存在小规模双语平行句对的情况下,该文提出把机器翻译中的数据增强技术融入多任务学习框架提升翻译性能。首先,通过对目标端句子进行简单的变换(如词序调整、词替换等)以产生非准确的新句子增强噪声;其次,将上述扩增的伪平行语料作为辅助任务融入一个多任务学习框架中以充分训练编码器,并使神经网络将注意力转移到如何使编码器中的源语言句子拥有更丰富准确的表示。通过在全国机器翻译大会(CCMT 2021)蒙汉、藏汉以及维汉3种机器翻译评测数据集上进行6个方向的互译实验,结果表明,在上述民汉翻译任务上,该文方法均显著优于基线系统及多种常见的机器翻译数据增强方法。
|
关 键 词: | 多任务学习 数据增强 低资源机器翻译 |
|
|