首页 | 本学科首页   官方微博 | 高级检索  
     

Wikipedia跨语言链接发现中的锚文本译项选择
引用本文:郑剑夕,白 宇,郭 程,张桂平.Wikipedia跨语言链接发现中的锚文本译项选择[J].中文信息学报,2016,30(2):196-201.
作者姓名:郑剑夕  白 宇  郭 程  张桂平
作者单位:沈阳航空航天大学 知识工程研究中心,辽宁,沈阳 110136
基金项目:国家科技支撑计划资助项目(2012BAH14F00);国家973计划资助项目(2010CB530401)
摘    要:Wikipedia跨语言链接发现主要研究从源语言Wikipedia文章中自动识别与主题相关的锚文本,并为锚文本推荐一组相关的目标语言链接。该研究涉及三个关键问题: 锚文本识别、锚文本翻译和目标链接发现。在锚文本翻译中,一个锚文本可能存在多个目标译项,如果其译项选择有误,将会直接影响目标链接发现中的链接推荐的准确性。为此,该文提出了一种基于上下文的锚文本译项选择方法,使用基于逐点互信息投票的方式确定锚文本的译项。 对中英文Wikipedia中的人名、术语以及缩略语的译项选择进行测试,实验表明该方法取得了较好的效果。

关 键 词:Wikipedia  跨语言链接发现  锚文本  译项选择  逐点互信息  

The Translation Selection of Anchor Text in Wikipedia Cross-Lingual Link Discovery
ZHENG Jianxi,BAI Yu,GUO Cheng,ZHANG Guiping.The Translation Selection of Anchor Text in Wikipedia Cross-Lingual Link Discovery[J].Journal of Chinese Information Processing,2016,30(2):196-201.
Authors:ZHENG Jianxi  BAI Yu  GUO Cheng  ZHANG Guiping
Affiliation:(Research Center for Knowledge Engineering, Shenyang Aerospace University, Shenyang, Liaoning 110136, China)
Abstract:The research on Wikipedia Cross-Lingual Link Discovery (CLLD) is to automatically identify an anchor text related to topic from source language Wikipedia articles, and recommend a set of relevant target language links to the anchor text. It involves three key problems: anchor text identification, anchor text translation, and target link discovery. To deal with the multiple target translations of an anchor text, we propose a context-based translation selection method, which uses a vote method based on pointwise mutual information (PMI). Experiments on the translation selection of person names, terminology and abbreviation in Chinese and English Wikipedia articles, the results show that the method achieves good performances.
Keywords:Wikipedia  CLLD  anchor text  translation selection  PMI  
点击此处可从《中文信息学报》浏览原始摘要信息
点击此处可从《中文信息学报》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号