基于对偶分解的词语对齐搜索算法 |
| |
作者姓名: | 沈世奇 刘洋 孙茂松 |
| |
作者单位: | 清华大学 计算机科学与技术系 智能技术与系统国家重点实验室,北京 100084 |
| |
基金项目: | 国家863计划资助项目,媒体与网络技术教育部—微软重点实验室项目 |
| |
摘 要: | 词语对齐旨在计算平行文本中词语之间的对应关系,对机器翻译、双语词典构造等多项自然语言处理任务都具有重要的影响。虽然近年来词语对齐在建模和训练算法方面取得了显著的进展,但搜索算法往往都采用简单的贪心策略,面临着搜索错误较大的问题。该文提出了一种基于对偶分解的词语对齐搜索算法,将复杂问题分解为两个相对简单的子问题,迭代求解直至收敛于最优解。由于对偶分解能够保证求解的收敛性和最优性,该文提出的搜索算法在2005年度863计划词语对齐评测数据集上显著超过GIZA++和判别式词语对齐系统,对齐错误率分别降低4.2%和1.1%。
|
关 键 词: | 词语对齐 判别式模型 搜索算法 对偶分解 |
本文献已被 万方数据 等数据库收录! |
| 点击此处可从《中文信息学报》浏览原始摘要信息 |
|
点击此处可从《中文信息学报》下载全文 |
|