同源语料增强的低资源神经机器翻译 |
| |
作者姓名: | 王琳 刘伍颖 |
| |
作者单位: | 1. 上海外国语大学贤达经济人文学院;2. 鲁东大学山东省语言资源开发与应用重点实验室 |
| |
摘 要: | 缺少平行句对的低资源机器翻译面临跨语言语义转述科学问题。该文围绕具体的低资源印尼语-汉语机器翻译问题,探索了基于同源语料的数据增广方法,并混合同源语料训练出更优的神经机器翻译模型。这种混合语料模型在印尼语-汉语机器翻译实验中提升了3个多点的BLEU4评分。实验结果证明,同源语料能够有效增强低资源神经机器翻译性能,而这种有效性主要是源于同源语言之间的形态相似性和语义等价性。
|
关 键 词: | 同源语料 数据增广 低资源机器翻译 印尼语 马来语 |
|
|