首页 | 本学科首页   官方微博 | 高级检索  
     

多策略汉维句子对齐
引用本文:田生伟,吐尔根·依布拉音,禹龙,加米拉·吾守尔,杨飞宇. 多策略汉维句子对齐[J]. 计算机科学, 2010, 37(4): 215
作者姓名:田生伟  吐尔根·依布拉音  禹龙  加米拉·吾守尔  杨飞宇
作者单位:1. 新疆大学信息科学与工程学院,乌鲁木齐,830046
2. 新疆大学网络中心,乌鲁木齐,830046
3. 新疆大学国际文化交流学院,乌鲁木齐,830046
基金项目:国家自然科学基金项目(60663006,60963017);;新疆维吾尔自治区高等学校科学研究计划(XJEDU2009I05)资助
摘    要:提出了一种错误抑制的多策略算法对齐汉维语句子。针对长度对齐算法无法避免错误蔓延的特点,提出了一种新的错误蔓延抑制策略:利用双语语料的词汇共现信息,自动抽取汉维语词汇搭配,结合句子长度特征,寻找1:1模式的句对作为锚点,将错误蔓延抑制在锚点内;在锚点之间,利用标点符号和长度混合方法进行句子对齐。算法实验结果验证了该多策略算法寻找的锚点的精度高,有效抑制了对齐错误的蔓延;采用的混合对齐算法,避免了基于词汇对齐算法的高时间复杂度的弱点,比传统的对齐算法性能有了较大提高,对齐准确率由95.0%提高到97.6%,召回率由96.8%提高到98.2%,采用的对齐正确性评价算法可以有效发现自动对齐中的噪音对齐。

关 键 词:双语语料  错误抑制  句子对齐  混合策略  汉维句子  
收稿时间:2009-05-20
修稿时间:2009-08-05

Chinese-Uyhur Sentence Alignment Based on Hybrid Strategy
TIAN Sheng-wei,TURGUN Ibrahim,YU Long,JAMILA Wushouer,YANG Fei-yu. Chinese-Uyhur Sentence Alignment Based on Hybrid Strategy[J]. Computer Science, 2010, 37(4): 215
Authors:TIAN Sheng-wei  TURGUN Ibrahim  YU Long  JAMILA Wushouer  YANG Fei-yu
Affiliation:Information Science and Engineering Technology Institute/a>;Xinjiang University/a>;Urumqi 830046/a>;China;Net Center/a>;China;International Cultural Exchange College/a>;Xinjiang Unversity/a>;China
Abstract:This paper proposed a hybrid algorithm of sentence alignment in Chinese-Uyhur parallel corpora.Aiming at the shortcoming of mistake spread in alignment algorithm based on length,this paper presented a new kind of suppression strategy for mistake spread.By using csentence length and Chinese-Uyhur correspondence information,the anchor points with 1:1 pattern sentence pairs are identify to suppress mistakes spread.Among anchor points,a approach based on both length and punctuation is used to align sentences.Ex...
Keywords:Bilingual corpora  Error curb  Hybrid strategy  Sentence alignment  Chinese-Uyhur sentence  
本文献已被 CNKI 万方数据 等数据库收录!
点击此处可从《计算机科学》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号