首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到15条相似文献,搜索用时 46 毫秒
1.
提出了一种基于句子级对齐的双语语料库的英汉词对齐方法。它建立在句对的集合表示形式的基础上。通过最小求交模型实现词对齐。使用倒排索引表和集合运算实现高效的最小求交算法。在对齐过程中引入高频干扰词表以提高召回率。实验结果表明,该方法优于使用共现互信息的词对齐和使用双语词典的词对齐方法。  相似文献   

2.
双语短语对齐的输入是源语言(英语)、目标语言(汉语)候选句法分析树集。由于翻译异常现象的大量存在,源语言句法树和目标语言句法树间往往不存在简单的对应关系。如何在翻译异常的情况下,从源语言、目标语言候选句法树集中排除歧义,选出正确的句法树,并揭示其短语层次上的对应关系,是双语短语对齐的主要困难。提出的基于“有效句型”概念和“翻译中相对不变准则”的短语对齐模型基本解决了上述问题。双语短语对齐本身是一个复杂度较高的处理过程,提出的有关定量和算法使系统在保证对齐正确率的前提下,保证了时间效率。  相似文献   

3.
韩汉双语语料库短语对齐对于基于实例的韩汉机器翻译系统具有重要意义,该文从韩国语名词短语结构特点出发,在基于统计和基于词典的词对齐方法进行试验分析的基础上,提出了基于词对齐位置信息的韩汉双语语料库名词短语对齐方法。该方法通过基于统计的方法获得词对齐位置信息,在此基础上利用基于词典方法的相似度计算进行词对齐校正;根据以上结果,该文通过韩国语名词短语左右边界规则抽取名词短语及其汉语译文,利用关联度度量方法进行过滤,实现名词短语对齐。实验结果表明,在较大规模语料库情况下,该方法取得了较好的短语对齐结果。  相似文献   

4.
基于有效句型的英汉双语短语对齐   总被引:4,自引:0,他引:4  
双语短语对齐的输入是源语言 (英语 )、目标语言 (汉语 )候选句法分析树集 由于翻译异常现象的大量存在 ,源语言句法树和目标语言句法树间往往不存在简单的对应关系 如何在翻译异常的情况下 ,从源语言、目标语言候选句法树集中排除歧义 ,选出正确的句法树 ,并揭示其短语层次上的对应关系 ,是双语短语对齐的主要困难 提出的基于“有效句型”概念和“翻译中相对不变准则”的短语对齐模型基本解决了上述问题 双语短语对齐本身是一个复杂度较高的处理过程 ,提出的有关定理和算法使系统在保证对齐正确率的前提下 ,保证了时间效率  相似文献   

5.
单语句法分析指导的双语结构对齐   总被引:2,自引:1,他引:2  
提出了一种单语句法分析指导的双语语料库结构对齐方法.该方法以统计的双语模型——反向转换文法为基础,通过把英语句法分析知识融入到双语模型中,实现英汉双语的结构对齐.与现有方法相比,只需要一种语言的句法分析结果,避开了汉语句法分析的难题,同时保证了双语结构对齐的语法合理性.实验结果表明,这种方法充分利用现有的句法分析知识,有效地提高了结构对齐的正确率.利用该方法获得的结构对齐双语料库对于翻译知识的自动获取研究具有重要意义.  相似文献   

6.
双语对齐是自然语言处理研究的重要课题之一,结合基于句子长度和基于词典的两种经典的对齐算法,通过段内寻找锚点的算法对双语互译文本进行划分,实现了双语句子对齐,为双语语料库的建设提供了工具,并为双语教学词典的编纂做了基础性工作.  相似文献   

7.
基于译文的英汉双语句子自动对齐   总被引:5,自引:0,他引:5  
双语语料库的自动对齐已成为机器翻译研究中的一个重要研究课题。目前的句子对齐方法有基于长度的方法和基于词汇的方法,该文先分析了基于长度的方法,然后提出了基于译文的方法:通过使用一部翻译较完整的词典作为桥梁,把英汉句子之间的对应关系连接起来。根据英语文本中的单词,在词典中找到其对应的译文,并以译文到汉语句子中去匹配,根据评价函数和动态规则算法找到对齐句对,实验结果证明这种对齐方法消除了基于长度做法中错  相似文献   

8.
基于锚点词对的双语词对齐算法   总被引:5,自引:0,他引:5  
双语词对齐是指在源、译文中找到词汇级的对译关系,是自然语言处理领域一个非常有用而又比较困难的研究课题.其中涉及词法、语法、语义以及英汉语言问的固有差异和翻译习惯等诸多问题.文章在词法分析的基础上,利用有限的语言资源(主要只使用了一部双语词典),采取多级匹配和消歧策略,将词对齐问题转化为迭代求解锚点词对的过程,使得词对齐既有较高的准确率又有较高的召回率.经过对真实语料的测试,词对齐准确率达93.0%,召回率迭77.3%.F值达84.2%.基本上满足了有关应用的实际要采.  相似文献   

9.
面向小词典的高效英汉双语语料对齐算法   总被引:1,自引:0,他引:1       下载免费PDF全文
熊伟  陈蓉  刘佳  徐淼  于中华 《计算机工程》2007,33(13):210-212
双语语料自动对齐是自然语言处理的一个重要研究课题。该文针对基于词典译文的英汉句子对齐算法存在的缺点,提出了面向小词典的高效英汉句子对齐算法,该算法在小词典的情况下仍具有较高的准确率,效率比传统算法提高近一倍。通过理论分析、对比实验可知,该算法是有效的。  相似文献   

10.
基于双语词典的汉英词语对齐算法研究   总被引:1,自引:0,他引:1  
邓丹  刘群  俞鸿魁 《计算机工程》2005,31(16):45-47
研究利用多部人读双语词典扩充双语词典的规模来改善词语对齐质量。介绍了一个在Ker算法基础上用双语词典进行汉英词语对齐的算法。提出了对齐窗口的概念,通过在对齐过程中设置对齐窗口,可以找到多对多的词语对应。  相似文献   

11.
双语语料库自动对齐是自然语言处理的一个重要研究课题。针对基于词典的英汉双语句子对齐算法存在的缺点,提出了基于词典和相对位置高效英汉对齐算法,该算法在多数情况下具有较高的准确率,效率比传统算法好,通过理论的分析和实验对比可知,该算法是可行的。  相似文献   

12.
双语词典是跨语言自然语言处理中一项非常重要的资源.目前提取双语词典的方法主要是基于平行语料库和基于可比语料库,但是这两种方法在提取新词或者某些技术术语时都存在双语资源匮乏的问题.相比之下,基于部分双语语料的方法由于利用的是新闻或者百科知识,故可以很好地解决这个问题,然而目前基于部分双语语料的方法主要集中在对文本内容的提...  相似文献   

13.
双语平行网页挖掘系统的设计与实现   总被引:1,自引:0,他引:1       下载免费PDF全文
陈伟  黄蕾  刘峰  赵志宏 《计算机工程》2009,35(14):267-269
针对双语语料是开发统计机器翻译系统的重要资源,提出一种从网络中自动挖掘双语平行网页的方法。与传统从指定网站中挖掘平行网页的方法不同,该方法从整个互联网中自动挖掘平行网页,对新的语言对和内容领域有很强的适应能力,实现双语平行网页挖掘的系统。实验结果显示,该系统可以为统计机器翻译系统提供大量高质量的平行网页。  相似文献   

14.
基于实例的机器翻译系统需要双语句对的支持。为大量获取双语句对,则需要以篇章对齐的双语文本为输入,实现句子的自动对齐。通过分析汉英双语法律文本的特征,提出了法律文本对齐假设。首先识别出法规源文和译文中的结构标识和句子,然后在句子一级对齐法律文本。该方法在150篇汉英法律文本语料上,取得了80.98%的对齐准确率。  相似文献   

15.
基于Web数据的特定领域双语词典抽取   总被引:1,自引:1,他引:1  
双语词典是跨语言检索以及机器翻译等自然语言处理应用的基础资源。本文提出了一种从非平行语料中抽取特定领域双语词典的算法。首先给出了算法的基本假设并回顾了相关的研究方法,然后详细给出了利用词间关系矩阵法从特定领域非平行语料中抽取双语词典的过程,最后通过大量实验分析了种子词选择对词典抽取结果的影响,实验结果表明种子词的数量和频率对词典抽取结果有积极作用。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号