首页 | 本学科首页   官方微博 | 高级检索  
     

改进机器翻译中的句子切分模型
引用本文:薛征山,张大鲲,王丽娜,郝 杰.改进机器翻译中的句子切分模型[J].中文信息学报,2017,31(4):50-56.
作者姓名:薛征山  张大鲲  王丽娜  郝 杰
作者单位:东芝(中国)研究开发中心, 北京100600
摘    要:随着统计机器翻译系统训练语料的不断增加,长句子的数量越来越多,如何有效地利用长句子中的信息改进翻译质量是统计机器翻译系统面临的主要问题之一。该文基于Xu的句子切分模型,提出了一种在训练阶段切分长句子的方法,该方法利用自动获取的边界词概率和切分后子句对的长度比例来指导切分过程,从而得到更符合语义信息的句子切分结果。在NIST测试集上的实验结果表明,该方法获得了最大0.5个BLEU值的提升。

关 键 词:统计机器翻译  句子切分模型  边界词概率  

An Improved Sentence Segmentation Model for Machine Translation
XUE Zhengshan,ZHANG Dakun,WANG Lina,HAO Jie.An Improved Sentence Segmentation Model for Machine Translation[J].Journal of Chinese Information Processing,2017,31(4):50-56.
Authors:XUE Zhengshan  ZHANG Dakun  WANG Lina  HAO Jie
Affiliation:Toshiba (China) R & D Center, Beijing 100600,China
Abstract:Long sentence segmentation is a valid issue in optimizing the quality of machine translation. This paper proposes a new method for long sentence segmentation during the training process. This method automatically decides the boundary words and their probabilities without manual intervention, which results more meaningful segmentation in semantics. Also, the length of segmented sub-sentences are balanced through both source and target languages. Experiments on the NIST test sets show an improvement of up to 0.5 BLEU scores.
Keywords:statistical machine translation  sentence segmentation model  word boundary probability  
点击此处可从《中文信息学报》浏览原始摘要信息
点击此处可从《中文信息学报》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号