首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
基于译文的英汉双语句子自动对齐   总被引:5,自引:0,他引:5  
双语语料库的自动对齐已成为机器翻译研究中的一个重要研究课题。目前的句子对齐方法有基于长度的方法和基于词汇的方法,该文先分析了基于长度的方法,然后提出了基于译文的方法:通过使用一部翻译较完整的词典作为桥梁,把英汉句子之间的对应关系连接起来。根据英语文本中的单词,在词典中找到其对应的译文,并以译文到汉语句子中去匹配,根据评价函数和动态规则算法找到对齐句对,实验结果证明这种对齐方法消除了基于长度做法中错  相似文献   

2.
基于译文的英汉双语句子自动对齐   总被引:1,自引:0,他引:1  
本文利用英汉互译译文间的内在联系,提出了基于译文的方法,通过使用一部翻译较完整的词典作为桥梁,将英汉句子间的对应关系连结起来,根据英语文本中的单词,在词典中找其对应的译文,并以译文到汉语句子中去匹配,根据评价函数和动态规划算法找到对齐句对,实验结果证明这种对齐方法消除了基于长度做法中错误蔓延的情况。并且普遍适用于任何文本,它大大地提高了对齐的精度,其效果是令人满意的。  相似文献   

3.
基于序列相交的短语译文获取   总被引:2,自引:2,他引:0  
短语译文获取技术是基于实例的机器翻译(EBMT)中的核心技术之一,其准确率直接影响到EBMT系统的性能。该文提出了一种基于序列相交的短语译文获取方法,该方法将句子视为词的序列,利用对中日句对齐语料库中包含待译短语的所有源语句子对应的目标语句子进行序列相交的方式,在不需要词对齐、句法分析及词典等资源的情况下,通过充分挖掘句对齐双语语料库的信息,获得高质量的短语译文。实验表明,该方法获得的短语译文准确率超过80%。  相似文献   

4.
基于自动抽取词汇信息的双语句子对齐   总被引:9,自引:0,他引:9  
刘昕  周明  朱胜火  黄昌宁 《计算机学报》1998,21(Z1):151-158
双语语料库句子对齐已成为新一代机器翻译研究中的一个至关重要的问题.对齐方法主要有基于长度的方法和基于词汇的方法,两者各具特点:前者实现简单、效率高,但精度低;后者精度高但实现复杂.本文提出一种新的对齐方法,首先利用基于长度的方法对文本进行粗对齐,然后在双语平行文本中确定锚点并自动抽取双语对应的关键词汇,降低了对齐问题的复杂度并减少了错误的蔓延.最后再利用所得到的词汇对应信息进行句子的对齐.这种方法融合了基于长度和基于词汇方法的优点,实验表明,它很大程度地提高了对齐的精度.  相似文献   

5.
双语语料库建设及其自动对齐研究对计算语言学的发展具有重要意义。双语对齐技术是加工双语文本的核心,对齐效果的好坏直接影响了以后工作的进行。基于汉藏双语的实际情况,提出了一种利用句子长度、相似度和锚点信息的汉藏双语句子对齐方法,该方法用相似度找到句子的锚点,用锚点将双语文本分割成几个分块,在对应双语分块中用基于长度的对齐实现句子的对齐。通过测试数据进行的实验结果显示,这种方法有着良好的准确率,有效地解决了汉藏双语真实文本的句子对齐问题。  相似文献   

6.
基于锚信息的生物医学文献双语摘要句子对齐   总被引:1,自引:1,他引:0  
双语句子对齐在双语语料库的处理中有着非常重要的地位,是构建双语词典的第一步工作。该文利用基于带权二部图的最大权重匹配模型为生物医学文献双语摘要建模。在无双语词典的情况下,将基于长度的句子对齐方法和句子的位置信息相结合,充分利用医学文献双语摘要语料中的锚信息,将生物医学摘要段落和句子进行分类计算相似度,实现了生物医学文献双语摘要的句子对齐,取得了较好的实验结果。  相似文献   

7.
双语对齐是自然语言处理研究的重要课题之一,结合基于句子长度和基于词典的两种经典的对齐算法,通过段内寻找锚点的算法对双语互译文本进行划分,实现了双语句子对齐,为双语语料库的建设提供了工具,并为双语教学词典的编纂做了基础性工作.  相似文献   

8.
基于词典的汉藏句子对齐研究与实现   总被引:1,自引:0,他引:1  
双语语料库加工的关键技术之一是对齐,构建句子级别的对齐语料是构建语料库最基本的任务。该文参考其他语言句子对齐的成熟的方法,针对藏文语言的特殊性,提出基于词典的汉藏句子对齐。整理了对齐所用双语词典,并对其词语覆盖率进行了评价。在汉藏句子对齐过程中发现汉语与藏文的分词粒度不同的问题,采用在藏汉词典中进一步查词并在汉语句子中比对的方法,使正确句对的得分增加,从而提高对齐正确率。采用该方法准确率为 81.11%。  相似文献   

9.
面向小词典的高效英汉双语语料对齐算法   总被引:1,自引:0,他引:1       下载免费PDF全文
熊伟  陈蓉  刘佳  徐淼  于中华 《计算机工程》2007,33(13):210-212
双语语料自动对齐是自然语言处理的一个重要研究课题。该文针对基于词典译文的英汉句子对齐算法存在的缺点,提出了面向小词典的高效英汉句子对齐算法,该算法在小词典的情况下仍具有较高的准确率,效率比传统算法提高近一倍。通过理论分析、对比实验可知,该算法是有效的。  相似文献   

10.
提出了一种混合算法对齐汉维句子,不需要汉语分词、词性标注预处理,利用双语语料的词汇共现信息,自动抽取汉维语词汇搭配,作为基于词汇对齐的词典,并结合基于长度的方法进行句子对齐,实验结果验证了该混合算法的有效性,汉维语句子对齐的正确率和召回率,达到了97.5%和97.1%。  相似文献   

11.
一种汉英双语句子自动对齐算法   总被引:2,自引:0,他引:2  
双语语料库建设及其自动对齐研究对计算语言学的发展具有重要的意义.双语对齐技术是加工双语文本的核心,对齐效果的好坏直接影响了以后工作(诸如机器辅助翻译)的进行.基于汉英双语的实际情况,提出了一种新的句子对齐混合算法,该算法主要采用一种新的基于长度的对齐算法,并结合基于词典的对齐算法,通过正反双向对齐,进一步提高了句子对齐的准确率.最后通过100个文件,5000多句英汉双语对该算法进行了验证,从对齐效果可以发现,结果比较理想,因而可以证明,该算法在实际工作中是可行的.  相似文献   

12.
汉英双语库自动分段对齐研究   总被引:8,自引:0,他引:8  
王斌  刘群  张祥 《软件学报》2000,11(11):1547-1553
双语库对齐是自然语言处理研究的重 要课题之一.其中,双语库段落对齐是指找出源文和译文中对应的翻译段落的对齐过程.它上 承篇章对齐,下接句子对齐,在整个双语库的对齐中起着承上启下的重要作用.但由于种种原 因,双语库段落对齐在当今研究中没有受到应有的重视.直接进行通用的段落自动对齐具有相 当的难度,也不必要,鉴于此,提出将段落对齐转化成分段对齐进行实现.通过汉英词汇对之 间的特征比较,首先找到可以用于汉英双语库分段的锚点词汇对,在此基础上,通过锚点词所 在句子的匹配获得锚点句子对来进行分段.实验结果表明,该方法具有良好的使用价值,可以 用于其他语言对的对齐.  相似文献   

13.
为提高汉维句子对齐方法的准确率,提出一种分段句子对齐方法。采用词汇信息和长度信息相结合的策略,识别出能作为锚点的一对句子(锚点句对),并将其作为分割标志对全文进行分段,在各片段内使用基于长度的方法实现全部句子的对齐,采用词汇、数字、标点符号和长度信息提高方法的领域移植性,使用分段方法避免复杂的计算过程,从而解决错误蔓延问题。实验结果表明,该方法的准确率达到95.2%,比基于长度的句子对齐方法提高了2.7%。  相似文献   

14.
传统的基于长度的汉英双语句子对齐算法大都以字节作为汉英句子长度的计算单位.提出了几种不同的汉英句子长度计算方法,分别以句子所含动词、名词、形容词、实词、字节及所含全部词语个数作为句子的长度,进行基于长度的汉荚句子对齐.实验结果表明,汉英句子对齐以词语作为句子长度计算单位时,正确率为99.01%,召回率为99.5%.  相似文献   

15.
双语术语词典在生物医学跨语言检索系统中有着非常重要的地位,而双语句子对齐是构建双语词典的第一步工作。为了构想面向生物医学领域的双语词典,该文将分类思想和迁移学习方法引入汉英句子对齐任务中,将句子对齐任务看成一个多类分类任务,考虑生物医学领域双语摘要的锚信息,利用高斯混合模型完成分类目标。同时,在模型训练过程中,该文引入了迁移学习的思想,结合无噪音的《新概念英语》双语语料对模型的句子长度特征进行训练,使得模型在测试语料上句子对齐的正确率得到较大提高。  相似文献   

16.
基于实例的机器翻译系统需要双语句对的支持。为大量获取双语句对,则需要以篇章对齐的双语文本为输入,实现句子的自动对齐。通过分析汉英双语法律文本的特征,提出了法律文本对齐假设。首先识别出法规源文和译文中的结构标识和句子,然后在句子一级对齐法律文本。该方法在150篇汉英法律文本语料上,取得了80.98%的对齐准确率。  相似文献   

17.
基于双语词典的汉英词语对齐算法研究   总被引:1,自引:0,他引:1  
邓丹  刘群  俞鸿魁 《计算机工程》2005,31(16):45-47
研究利用多部人读双语词典扩充双语词典的规模来改善词语对齐质量。介绍了一个在Ker算法基础上用双语词典进行汉英词语对齐的算法。提出了对齐窗口的概念,通过在对齐过程中设置对齐窗口,可以找到多对多的词语对应。  相似文献   

18.
韩汉双语语料库短语对齐对于基于实例的韩汉机器翻译系统具有重要意义,该文从韩国语名词短语结构特点出发,在基于统计和基于词典的词对齐方法进行试验分析的基础上,提出了基于词对齐位置信息的韩汉双语语料库名词短语对齐方法。该方法通过基于统计的方法获得词对齐位置信息,在此基础上利用基于词典方法的相似度计算进行词对齐校正;根据以上结果,该文通过韩国语名词短语左右边界规则抽取名词短语及其汉语译文,利用关联度度量方法进行过滤,实现名词短语对齐。实验结果表明,在较大规模语料库情况下,该方法取得了较好的短语对齐结果。  相似文献   

19.
《计算机工程》2019,(6):211-217
句子对齐是将源文本中的句子映射到目标文本中对应翻译的过程。在神经网络的框架下,基于相互对齐的源端和目标端句子中包含大量相互对齐的单词,提出一种句子对齐方法。使用门关联网络捕获源端句子和目标端句子词对之间的语义关系,并通过语义关系来确定源端句子和目标端句子是否对齐。对非单调文本进行对齐评估,结果表明,该方法F1值达到93.8%,有效提高了句子对齐的准确率。  相似文献   

20.
双语对齐的平行语料库在机器翻译和自然语言处理领域中扮演着非常重要的角色,它的研究和制作具有重要的理论意义和实用价值,双语语料的建设十分必要,其中双语对齐是最基本的环节.文章首先简要介绍了语料库的建设情况,然后结合主流的句子对齐方法提出并实现了基于词典和语言学信息的英汉双语句子对齐.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号