首页 | 本学科首页   官方微博 | 高级检索  
     

基于对偶分解的词语对齐搜索算法
作者姓名:沈世奇  刘洋  孙茂松
作者单位:清华大学 计算机科学与技术系 智能技术与系统国家重点实验室,北京 100084
基金项目:国家863计划资助项目,媒体与网络技术教育部—微软重点实验室项目
摘    要:词语对齐旨在计算平行文本中词语之间的对应关系,对机器翻译、双语词典构造等多项自然语言处理任务都具有重要的影响。虽然近年来词语对齐在建模和训练算法方面取得了显著的进展,但搜索算法往往都采用简单的贪心策略,面临着搜索错误较大的问题。该文提出了一种基于对偶分解的词语对齐搜索算法,将复杂问题分解为两个相对简单的子问题,迭代求解直至收敛于最优解。由于对偶分解能够保证求解的收敛性和最优性,该文提出的搜索算法在2005年度863计划词语对齐评测数据集上显著超过GIZA++和判别式词语对齐系统,对齐错误率分别降低4.2%和1.1%。

关 键 词:词语对齐  判别式模型  搜索算法  对偶分解  
本文献已被 万方数据 等数据库收录!
点击此处可从《中文信息学报》浏览原始摘要信息
点击此处可从《中文信息学报》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号