共查询到15条相似文献,搜索用时 46 毫秒
1.
提出了一种基于句子级对齐的双语语料库的英汉词对齐方法。它建立在句对的集合表示形式的基础上。通过最小求交模型实现词对齐。使用倒排索引表和集合运算实现高效的最小求交算法。在对齐过程中引入高频干扰词表以提高召回率。实验结果表明,该方法优于使用共现互信息的词对齐和使用双语词典的词对齐方法。 相似文献
2.
双语短语对齐的输入是源语言(英语)、目标语言(汉语)候选句法分析树集。由于翻译异常现象的大量存在,源语言句法树和目标语言句法树间往往不存在简单的对应关系。如何在翻译异常的情况下,从源语言、目标语言候选句法树集中排除歧义,选出正确的句法树,并揭示其短语层次上的对应关系,是双语短语对齐的主要困难。提出的基于“有效句型”概念和“翻译中相对不变准则”的短语对齐模型基本解决了上述问题。双语短语对齐本身是一个复杂度较高的处理过程,提出的有关定量和算法使系统在保证对齐正确率的前提下,保证了时间效率。 相似文献
3.
韩汉双语语料库短语对齐对于基于实例的韩汉机器翻译系统具有重要意义,该文从韩国语名词短语结构特点出发,在基于统计和基于词典的词对齐方法进行试验分析的基础上,提出了基于词对齐位置信息的韩汉双语语料库名词短语对齐方法。该方法通过基于统计的方法获得词对齐位置信息,在此基础上利用基于词典方法的相似度计算进行词对齐校正;根据以上结果,该文通过韩国语名词短语左右边界规则抽取名词短语及其汉语译文,利用关联度度量方法进行过滤,实现名词短语对齐。实验结果表明,在较大规模语料库情况下,该方法取得了较好的短语对齐结果。 相似文献
4.
基于有效句型的英汉双语短语对齐 总被引:4,自引:0,他引:4
双语短语对齐的输入是源语言 (英语 )、目标语言 (汉语 )候选句法分析树集 由于翻译异常现象的大量存在 ,源语言句法树和目标语言句法树间往往不存在简单的对应关系 如何在翻译异常的情况下 ,从源语言、目标语言候选句法树集中排除歧义 ,选出正确的句法树 ,并揭示其短语层次上的对应关系 ,是双语短语对齐的主要困难 提出的基于“有效句型”概念和“翻译中相对不变准则”的短语对齐模型基本解决了上述问题 双语短语对齐本身是一个复杂度较高的处理过程 ,提出的有关定理和算法使系统在保证对齐正确率的前提下 ,保证了时间效率 相似文献
5.
单语句法分析指导的双语结构对齐 总被引:2,自引:1,他引:2
提出了一种单语句法分析指导的双语语料库结构对齐方法.该方法以统计的双语模型——反向转换文法为基础,通过把英语句法分析知识融入到双语模型中,实现英汉双语的结构对齐.与现有方法相比,只需要一种语言的句法分析结果,避开了汉语句法分析的难题,同时保证了双语结构对齐的语法合理性.实验结果表明,这种方法充分利用现有的句法分析知识,有效地提高了结构对齐的正确率.利用该方法获得的结构对齐双语料库对于翻译知识的自动获取研究具有重要意义. 相似文献
6.
双语对齐是自然语言处理研究的重要课题之一,结合基于句子长度和基于词典的两种经典的对齐算法,通过段内寻找锚点的算法对双语互译文本进行划分,实现了双语句子对齐,为双语语料库的建设提供了工具,并为双语教学词典的编纂做了基础性工作. 相似文献
7.
基于译文的英汉双语句子自动对齐 总被引:5,自引:0,他引:5
双语语料库的自动对齐已成为机器翻译研究中的一个重要研究课题。目前的句子对齐方法有基于长度的方法和基于词汇的方法,该文先分析了基于长度的方法,然后提出了基于译文的方法:通过使用一部翻译较完整的词典作为桥梁,把英汉句子之间的对应关系连接起来。根据英语文本中的单词,在词典中找到其对应的译文,并以译文到汉语句子中去匹配,根据评价函数和动态规则算法找到对齐句对,实验结果证明这种对齐方法消除了基于长度做法中错 相似文献
8.
基于锚点词对的双语词对齐算法 总被引:5,自引:0,他引:5
双语词对齐是指在源、译文中找到词汇级的对译关系,是自然语言处理领域一个非常有用而又比较困难的研究课题.其中涉及词法、语法、语义以及英汉语言问的固有差异和翻译习惯等诸多问题.文章在词法分析的基础上,利用有限的语言资源(主要只使用了一部双语词典),采取多级匹配和消歧策略,将词对齐问题转化为迭代求解锚点词对的过程,使得词对齐既有较高的准确率又有较高的召回率.经过对真实语料的测试,词对齐准确率达93.0%,召回率迭77.3%.F值达84.2%.基本上满足了有关应用的实际要采. 相似文献
9.
10.
11.
陈立弘 《数字社区&智能家居》2009,(21)
双语语料库自动对齐是自然语言处理的一个重要研究课题。针对基于词典的英汉双语句子对齐算法存在的缺点,提出了基于词典和相对位置高效英汉对齐算法,该算法在多数情况下具有较高的准确率,效率比传统算法好,通过理论的分析和实验对比可知,该算法是可行的。 相似文献
12.
13.
14.
基于实例的机器翻译系统需要双语句对的支持。为大量获取双语句对,则需要以篇章对齐的双语文本为输入,实现句子的自动对齐。通过分析汉英双语法律文本的特征,提出了法律文本对齐假设。首先识别出法规源文和译文中的结构标识和句子,然后在句子一级对齐法律文本。该方法在150篇汉英法律文本语料上,取得了80.98%的对齐准确率。 相似文献