首页 | 本学科首页   官方微博 | 高级检索  
     

汉英词语对齐规范
引用本文:赵红梅,刘群,张瑞强,吕雅娟,隅田英一郎,吴翠玲.汉英词语对齐规范[J].中文信息学报,2009,23(3):65-88.
作者姓名:赵红梅  刘群  张瑞强  吕雅娟  隅田英一郎  吴翠玲
作者单位:1.中国科学院 计算技术研究所 智能信息处理重点实验室,中国 北京 100190;
2. 日本情报通信研究机构—国际电气通信基础技术研究所,日本 京都 619-0288
摘    要:该文介绍了一个新的汉英词语对齐规范。该规范以现有的LDC汉英词语对齐规范为基础,对其进行了较大的改进和扩展,特别是提出了一种全新的对齐标注方法 —— 将词语对齐区分为真对齐和伪对齐,真对齐又分为强对齐和弱对齐。这种细化的标注方法能够更好地刻画词语对齐的特点。该规范已经实际应用于大规模的人工词语对齐标注中。我们对对齐标注的一致性进行了评价。结果表明,在该规范的指导下,标注者内部和标注者间的对齐都取得了比较理想的一致性,两组强、弱、伪三种对齐的Kappa值分别为0.99、0.98、0.93 和0.96、0.83、0.68。最后,一个简单的实验初步证实了该规范在统计机器翻译中的有效性。

关 键 词:人工智能  机器翻译  汉英词语对齐规范  手工词语对齐  真对齐  伪对齐  强对齐  弱对齐  对齐和标注一致性
  

A Guideline for Chinese-English Word Alignment
ZHAO Hongmei,LIU Qun,ZHANG Ruiqiang,LV Yajuan,Eiichiro SUMITA,ChooiLing GOH.A Guideline for Chinese-English Word Alignment[J].Journal of Chinese Information Processing,2009,23(3):65-88.
Authors:ZHAO Hongmei  LIU Qun  ZHANG Ruiqiang  LV Yajuan  Eiichiro SUMITA  ChooiLing GOH
Affiliation:1. Institute of Computing Technology, Chinese Academy of Sciences, Beijing 100190, China;
2. NICT-ATR, Kyoto, Japan 619-0288
Abstract:This paper presents a new guideline for Chinese-English word alignment.Starting from the existing Guidelines for Chinese-English Word Alignment(Linguistic Data Consortium,2006),we propose a completely different classification for word alignment annotation: genuine link(involving strong link and weak link) and pseudo link.This explicit distinction can represent the characteristic of cross-lingual word alignment.The proposedguideline has been successfully applied in a large-scale task for Chinese-English Word...
Keywords:artificial intelligence  machine translation  annotation guidelines for Chinese-English word alignment  manual word alignment  genuine link  pseudo link  strong link  weak link  alignment and annotation agreement  
本文献已被 CNKI 维普 万方数据 等数据库收录!
点击此处可从《中文信息学报》浏览原始摘要信息
点击此处可从《中文信息学报》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号