共查询到20条相似文献,搜索用时 62 毫秒
1.
基于译文的英汉双语句子自动对齐 总被引:5,自引:0,他引:5
双语语料库的自动对齐已成为机器翻译研究中的一个重要研究课题。目前的句子对齐方法有基于长度的方法和基于词汇的方法,该文先分析了基于长度的方法,然后提出了基于译文的方法:通过使用一部翻译较完整的词典作为桥梁,把英汉句子之间的对应关系连接起来。根据英语文本中的单词,在词典中找到其对应的译文,并以译文到汉语句子中去匹配,根据评价函数和动态规则算法找到对齐句对,实验结果证明这种对齐方法消除了基于长度做法中错 相似文献
2.
基于自动抽取词汇信息的双语句子对齐 总被引:9,自引:0,他引:9
双语语料库句子对齐已成为新一代机器翻译研究中的一个至关重要的问题.对齐方法主要有基于长度的方法和基于词汇的方法,两者各具特点:前者实现简单、效率高,但精度低;后者精度高但实现复杂.本文提出一种新的对齐方法,首先利用基于长度的方法对文本进行粗对齐,然后在双语平行文本中确定锚点并自动抽取双语对应的关键词汇,降低了对齐问题的复杂度并减少了错误的蔓延.最后再利用所得到的词汇对应信息进行句子的对齐.这种方法融合了基于长度和基于词汇方法的优点,实验表明,它很大程度地提高了对齐的精度. 相似文献
3.
传统的基于长度的汉英双语句子对齐算法大都以字节作为汉英句子长度的计算单位.提出了几种不同的汉英句子长度计算方法,分别以句子所含动词、名词、形容词、实词、字节及所含全部词语个数作为句子的长度,进行基于长度的汉荚句子对齐.实验结果表明,汉英句子对齐以词语作为句子长度计算单位时,正确率为99.01%,召回率为99.5%. 相似文献
4.
一种汉英双语句子自动对齐算法 总被引:2,自引:0,他引:2
双语语料库建设及其自动对齐研究对计算语言学的发展具有重要的意义.双语对齐技术是加工双语文本的核心,对齐效果的好坏直接影响了以后工作(诸如机器辅助翻译)的进行.基于汉英双语的实际情况,提出了一种新的句子对齐混合算法,该算法主要采用一种新的基于长度的对齐算法,并结合基于词典的对齐算法,通过正反双向对齐,进一步提高了句子对齐的准确率.最后通过100个文件,5000多句英汉双语对该算法进行了验证,从对齐效果可以发现,结果比较理想,因而可以证明,该算法在实际工作中是可行的. 相似文献
5.
基于译文的英汉双语句子自动对齐 总被引:1,自引:0,他引:1
本文利用英汉互译译文间的内在联系,提出了基于译文的方法,通过使用一部翻译较完整的词典作为桥梁,将英汉句子间的对应关系连结起来,根据英语文本中的单词,在词典中找其对应的译文,并以译文到汉语句子中去匹配,根据评价函数和动态规划算法找到对齐句对,实验结果证明这种对齐方法消除了基于长度做法中错误蔓延的情况。并且普遍适用于任何文本,它大大地提高了对齐的精度,其效果是令人满意的。 相似文献
6.
双语语料对齐是自然语言处理的一个重要研究课题。对双语平行语料库的研究工作主要有构建、对齐和标注等方面,其中研究不同级别的对齐技术是一个重要的中心课题,对齐不仅是进一步利用平行语料库获取一些语言知识的必要前提.也是机器翻译系统利用双语知识的重要前期处理。重点介绍典型的句子对齐方法,并总结出每种方法的优缺点,具体分析了汉维双语句子对齐的方法。 相似文献
7.
基于统计的汉英句子对齐研究 总被引:6,自引:0,他引:6
翻译比较规范的汉英语料适合用统计方法实现句子对齐.但评价函数中的参数计算不能采用处理印欧语种的方法,而要针对汉英语种的特点进行调整.在已有两种评价函数的基础上又提出五种评价函数,并进行了对比研究。 相似文献
8.
双语语料库的自动对齐已成为机器翻译研究中的一个重要研究课题.目前的句子对齐方法有基于长度的方法和基于词汇的方法,该文先分析了基于长度的方法,然后提出了基于译文的方法:通过使用一部翻译较完整的词典作为桥梁,把英汉句子之间的对应关系连接起来.根据英语文本中的单词,在词典中找到其对应的译文,并以译文到汉语句子中去匹配,根据评价函数和动态规划算法找到对齐句对.实验结果证明这种对齐方法消除了基于长度做法中错误蔓延的情况,它大大地提高了对齐的精度,其效果是令人满意的. 相似文献
9.
提出了一种混合算法对齐汉维句子,不需要汉语分词、词性标注预处理,利用双语语料的词汇共现信息,自动抽取汉维语词汇搭配,作为基于词汇对齐的词典,并结合基于长度的方法进行句子对齐,实验结果验证了该混合算法的有效性,汉维语句子对齐的正确率和召回率,达到了97.5%和97.1%。 相似文献
10.
11.
12.
13.
基于未对齐汉英双语库的翻译对抽取 总被引:3,自引:2,他引:3
本文主要研究基于未对齐的汉英双语库翻译对抽取。文章首先介绍了Pascale Fung在这方面设计的两个算法。在此基础上,文章对后一种算法进行了部分的改进,使得其更适合于真实双语文本的翻译对抽取。实现结果表明改进后算法的有效性。本方法可以用于基于大规模双语语料库的短语翻译抽取、词典编纂等应用,具有较高的应用价值。 相似文献
14.
15.
陈立弘 《数字社区&智能家居》2009,(21)
双语语料库自动对齐是自然语言处理的一个重要研究课题。针对基于词典的英汉双语句子对齐算法存在的缺点,提出了基于词典和相对位置高效英汉对齐算法,该算法在多数情况下具有较高的准确率,效率比传统算法好,通过理论的分析和实验对比可知,该算法是可行的。 相似文献
16.
汉语中的零形回指及其在汉英机器翻译中的处理对策 总被引:5,自引:0,他引:5
回指是语篇衔接的重要手段,零形回指是汉语中常见的一种回指形式。由于汉语、英语是不同类型的语言,因此零形回指对汉英机器翻译会产生一定的影响。本文详细分析了汉语零形回指的确认、类型、产生的原因及使用的条件,指出其对汉英机器翻译造成的主要障碍是生成的英语句子在结构上不合语法,并提出在句组层面上解决问题的算法。 相似文献
17.
18.
引入标点处理的层次化汉语长句句法分析方法 总被引:6,自引:1,他引:6
在分析汉语标点符号用法和句法功能的基础上,本文提出了一种新的面向汉语长句的层次化句法分析方法。这种方法和传统的不考虑标点符号的一遍分析方法的主要区别在于两个方面:第一,利用部分标点符号的特殊功能将复杂长句分割成子句序列,从而把整句的句法分析分成两级来进行。这种“分而治之”的策略大大降低了在传统的一遍分析方法中同时识别子句或短语之间的句法关系以及子句和短语内部成分的句法关系的困难。第二,从大规模树库中提取包含所有标点符号的语法规则和相应概率分布信息,有利于句法分析和歧义消解。实验证明我们的方法与传统的一遍图表(chart)分析方法相比,能够大大减少时间消耗和歧义边的个数,并且提高了复杂长句分析的正确率和召回率约7%。 相似文献
19.
现代汉语中基本否定词“不”以及扩充词“从不”、“很不”、“不能”、“不会”等的否定辖域受到学术界重视,但前人研究一般局限于句内,且主要局限于基本否定词,其实否定辖域也涉及多个标点句,否定词的管辖判断也涉及到扩充的否定词。跨标否定词跨标点句管辖的判断和否定词共享问题是整个跨标点句句法共享问题的一个重要组成部分。本文从形式上找到了一些否定词跨标点句的共享规律,即着重从形式角度讨论了否定词跨标点句的辖域问题,对现代汉语长句句法分析有重要作用,并对汉外机器翻译有实用价值。 相似文献
20.
作用效应句是作用句的一个特殊子类,是HNC57组基本句类中一个极富个性的重要句类。从HNC概念网络的角度看,作用效应句主要由使役类动词和逼迫类动词直接形成,或者由一般作用类动词(含泛动类动词) 通过“得”字结构间接形成。由这三类动词形成的作用效应句遵循不同的句类转换和格式转换规则,因此在汉英机器翻译中,需要采取不同的句类转换框架,以确保译文语句句法语义结构的正确性。初步的试验表明,有关作用效应句的这些句类-格式转换规则具有很好的适用性和覆盖率。 相似文献