首页 | 本学科首页   官方微博 | 高级检索  
     

基于单语语料和词向量对齐的蒙汉神经机器翻译研究
引用本文:曹宜超,高翊,李淼,冯韬,王儒敬,付莎.基于单语语料和词向量对齐的蒙汉神经机器翻译研究[J].中文信息学报,2020,34(2):27-32,37.
作者姓名:曹宜超  高翊  李淼  冯韬  王儒敬  付莎
作者单位:1.中国科学院 合肥智能机械研究所,安徽 合肥 230031;
2.中国科学技术大学,安徽 合肥 230026;
3.云南省少数民族语文指导工作委员会办公室,云南 昆明 650118
基金项目:国家自然科学基金(61572462);中国科学院“十三五”信息化专项科学大数据工程(XXH13505-03-203)
摘    要:近年来,随着人工智能和深度学习的发展,神经机器翻译在某些高资源语言对上取得了接近人类水平的效果。然而对于低资源语言对如汉语和蒙古语,神经机器翻译的效果并不尽如人意。为了提高蒙汉神经机器翻译的性能,该文基于编码器-解码器神经机器翻译架构,提出一种改善蒙汉神经机器翻译结果的方法。首先将蒙古语和汉语的词向量空间进行对齐并用它来初始化模型的词嵌入层,然后应用联合训练的方式同时训练蒙古语到汉语的翻译和汉语到蒙古语的翻译。并且在翻译的过程中,最后使用蒙古语和汉语的单语语料对模型进行去噪自编码的训练,增强编码器的编码能力和解码器的解码能力。实验结果表明该文所提出方法的效果明显高于基线模型,证明该方法可以提高蒙汉神经机器翻译的性能。

关 键 词:蒙汉神经机器翻译  单语语料  词向量对齐

Mongolian-Chinese Neural Machine Translation Based on Monolingual Corpora and Word Embedding Alignment
CAO Yichao,GAO Yi,LI Miao,FENG Tao,WANG Rujing,FU Sha.Mongolian-Chinese Neural Machine Translation Based on Monolingual Corpora and Word Embedding Alignment[J].Journal of Chinese Information Processing,2020,34(2):27-32,37.
Authors:CAO Yichao  GAO Yi  LI Miao  FENG Tao  WANG Rujing  FU Sha
Affiliation:1.Institute of Intelligent Machines, Chinese Academy of Sciences, Hefei, Anhui 230031, China;
2.University of Science and Technology of China, Hefei, Anhui 230026, China;
3.Yunnan Minority Languages Guidance Committee Office, Kunming, Yunnan 650118, China
Abstract:To improve the Mongolian-Chinese neural machine translation performance, this paper proposes a method based on monolingual corpora and word embedding alignment. First, the Mongolian and Chinese word embedding spaces are aligned to initialize the embedding layers of the model. Second, jointly training is employed to train Mongolian-to-Chinese translation and Chinese -to-Mongolian translation at the same time. Finally, Mongolian and Chinese monolingual corpora are utilized to train the model as a denoising autoencoder. Experimental results show that the proposed method outperforms the baseline approach and improves the performance of Mongolian-Chinese neural machine translation.
Keywords:Mongolian-Chinese neural machine translation  monolingual corpora  word embedding alignment  
本文献已被 维普 等数据库收录!
点击此处可从《中文信息学报》浏览原始摘要信息
点击此处可从《中文信息学报》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号