首页 | 本学科首页   官方微博 | 高级检索  
     

汉蒙统计机器翻译中的形态学方法研究
引用本文:杨攀,张建,李淼,乌达巴拉,雪艳.汉蒙统计机器翻译中的形态学方法研究[J].中文信息学报,2009,23(1):50.
作者姓名:杨攀  张建  李淼  乌达巴拉  雪艳
作者单位:1. 中国科学院 合肥智能机械研究所,安徽 合肥 230031;
2. 中国科学技术大学 信息科学技术学院,安徽 合肥 230027;
3. 内蒙古大学 蒙古学学院,内蒙古 呼和浩特 010021
基金项目:中国科学院知识创新工程项目 
摘    要:该文将形态学方法引入到汉蒙统计机器翻译的研究中,尝试解决译文词形选择及语序混乱问题。首先介绍语料库的准备对原始汉蒙平行语料库进行词法分析及标注,得到两组基础语料库,再由基础语料库生成两组用于形态学实验的派生语料库。其次阐述统计模型的训练,包括语言模型、翻译模型及生成模型。同时讨论了解码的扩展问题。最后重点分析两组形态学方法实验词素模型实验和factored方法实验。结果表明,相对于基线(baseline)实验,引入形态学方法后两组实验的BLEU评分均有所提高,译文词形选择及语序混乱问题得到了一定程度的解决。

关 键 词:计算机应用  中文信息处理  形态学  统计机器翻译  语料库  统计模型  解码
  

Morpholog-Processing in Chinese-Mongolian Statistical Machine Translation
YANG Pan,ZHANG Jian,LI Miao,Wudabala,XUE Yan.Morpholog-Processing in Chinese-Mongolian Statistical Machine Translation[J].Journal of Chinese Information Processing,2009,23(1):50.
Authors:YANG Pan  ZHANG Jian  LI Miao  Wudabala  XUE Yan
Affiliation:1. Institute of Intelligent Machines, Chinese Academy of Sciences, Hefei, Anhui 230031, China;
2. School of Information Science and Technology, University of Science and Technology of China,
Hefei, Anhui 230027, China;
3. School of Mongolian, Inner Mongolia University, Huhhot 010021, Inner Mongolia AR, China
Abstract:This paper presents an approach to morphology processing in Chinese-Mongolian statistical machine translation,attempting to resolve problems of the word form selection and the word re-ordering in translation generation.On the basis of the original Chinese-Mongolian parallel corpus which is morphologically analyzed and POS tagged,two corpora are derived for the morphological experiments.Then the statistical models,including the language model,the translation model and the generation model,are established.The...
Keywords:computer application  Chinese information processing  morphology  statistical machine translation  corpus  statistical model  decoding  
本文献已被 CNKI 维普 万方数据 等数据库收录!
点击此处可从《中文信息学报》浏览原始摘要信息
点击此处可从《中文信息学报》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号