首页 | 本学科首页   官方微博 | 高级检索  
     

低资源语种傣汉神经机器翻译方法
引用本文:高翊,付莎,胡泽林,李淼,冯韬,麻之润.低资源语种傣汉神经机器翻译方法[J].昆明理工大学学报(理工版),2020,45(4):57-63.
作者姓名:高翊  付莎  胡泽林  李淼  冯韬  麻之润
作者单位:云南省少数民族语文指导工作委员会,云南昆明650499;中国科学院合肥智能机械研究所,安徽合肥230031
基金项目:国家自然科学基金;中国科学院信息化专项;云南省民族事务委员会农业信息化项目
摘    要:近年来随着人工智能和深度学习的发展,在神经机器翻译(NMT)的加持下,机器翻译的水平取得了长足的进步,但是在较大语料的情况下才能取得好的效果.此外,NMT的成功需要依赖于大量高质量的双语语料作为训练数据.在英法等丰富资源的语种(Rich resource language)翻译任务上,神经机器翻译机器的表现几乎可以媲美人类的水平.对于一些小语种(俗称低资源语种:Low resource language),无法提供足够多的双语数据,导致NMT出现过拟合问题,从而降低翻译效果.据此本文以低资源的汉傣语翻译为例,针对神经机器在低资源汉傣语机器翻译表现不佳的问题现状,开展了如下研究:(1)构造了以词向量为基础的初始化模型,利用傣汉词向量空间对齐的方法,来初始化神经翻译模型的词嵌入层以提高翻译的性能;(2)设计了傣汉词向量空间的对齐方法;(3)提出了一种基于词对齐的神经机器翻译框架.通过汉/傣、傣/汉双向翻译实验证明,该方法可以分别使汉/傣、傣/汉机器翻译的BLEU值提高2.38个和0.43个BLEU点.

关 键 词:低资源神经机器翻译  初始化模型  词向量对齐  注意力机制
本文献已被 CNKI 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号