首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 62 毫秒
1.
基于双语对齐口语语料的翻译词典的自动生成   总被引:2,自引:0,他引:2  
提出了一个基于英汉双语口语对齐语料库的翻译词典的自动生成算法,首先利用释义词典过渡双语文本,得到“过滤词典”,继而通过统计共现概率,计算出所有词对的相互关联值,并且生成“汉英(英汉)相互关联值表”,对于每个源语词汇选取相互关联值最大的若干项目标误作为候选词对,分别赋予信任值1,然后统计每个候选词对人信任值作为翻译词典的分级标准,得到4个不同级别的词典,其中“过滤词典+4级词典”在召回率为93.5%的情况下,正确率达到93.389%。  相似文献   

2.
该文提出了一种从英汉平行语料库中自动抽取术语词典的算法。采用的是已对齐好的双语语料,中文经过了分词处理。利用英文和中文词性标注工具对英文语料和中文语料分辨进行词性标注。统计双语语料库中的名词和名词短语生成候选术集。然后对每个英文候选术语计算与其相关的中文翻译间的翻译概率。再通过设定阈值过滤掉一些与该英文候选词无关的中文翻译,最后通过贪心算法选取概率最大的词作为该英文候选词的中文翻译。  相似文献   

3.
该文提出了一种从英汉平行语料库中自动抽取术语词典的算法。采用的是已对齐好的双语语料,中文经过了分词处理。利用英文和中文词性标注工具对英文语料和中文语料分辨进行词性标注。统计双语语料库中的名词和名词短语生成候选术集。然后对每个英文候选术语计算与其相关的中文翻译间的翻译概率。再通过设定阈值过滤掉一些与该英文候选词无关的中文翻译,最后通过贪心算法选取概率最大的词作为该英文候选词的中文翻译。  相似文献   

4.
基于锚点词对的双语词对齐算法   总被引:5,自引:0,他引:5  
双语词对齐是指在源、译文中找到词汇级的对译关系,是自然语言处理领域一个非常有用而又比较困难的研究课题.其中涉及词法、语法、语义以及英汉语言问的固有差异和翻译习惯等诸多问题.文章在词法分析的基础上,利用有限的语言资源(主要只使用了一部双语词典),采取多级匹配和消歧策略,将词对齐问题转化为迭代求解锚点词对的过程,使得词对齐既有较高的准确率又有较高的召回率.经过对真实语料的测试,词对齐准确率达93.0%,召回率迭77.3%.F值达84.2%.基本上满足了有关应用的实际要采.  相似文献   

5.
在统计机器翻译中,短语翻译概率特征对最终的翻译结果有着重大的影响。传统的估计方法只考虑了双语短语同时出现,满足对齐一致性的情况,而没有对其他情况进行统计,因而短语翻译概率的估计不够准确。该文中,我们修改了传统的短语概率计算公式,在估计概率的过程中充分地考虑短语的各种出现情况。多个测试集上的实验结果证明了我们方法的有效性。  相似文献   

6.
平行语料库中双语术语词典的自动抽取   总被引:7,自引:5,他引:2  
本文提出了一种从英汉平行语料库中自动抽取术语词典的算法。首先采用基于字符长度的改进的统计方法对平行语料进行句子级的对齐,并对英文语料和中文语料分别进行词性标注和切分与词性标注。统计已对齐和标注的双语语料中的名词和名词短语生成候选术语集。然后对每个英文候选术语计算与其相关的中文翻译之间的翻译概率。最后通过设定随词频变化的阈值来选取中文翻译。在对真实语料的术语抽取实验中取得了较好的结果。  相似文献   

7.
为了提高传统翻译系统翻译质量,提出一种基于多译本平行语料库的英汉智能翻译系统。为实现该系统,首先采用网络爬虫算法对英汉语料进行收集和预处理,搭建出多译本平行语料库;然后采用基于上下文向量的词对齐模型和基于余弦相似度计算方式的段落对齐模型作为系统模型,并构建出基于attention注意力机制-LSTM的翻译系统,最后与基于跨语言词向量和基于IBM模型1的词对齐模型进行对比实验。实验结果表明,三种模型中基于上下文向量的词对齐模型正确率高达90.24%,而其余两种模型正确率仅为62.71%和51.06%,可以证明基于多译本平行语料库的英汉智能翻译系统可以有效提升翻译的正确率,达到了预期的翻译效果,可以运用于英汉智能翻译的工作中。  相似文献   

8.
近年来,随着人工智能和深度学习的发展,神经机器翻译在某些高资源语言对上取得了接近人类水平的效果。然而对于低资源语言对如汉语和蒙古语,神经机器翻译的效果并不尽如人意。为了提高蒙汉神经机器翻译的性能,该文基于编码器—解码器神经机器翻译架构,提出一种改善蒙汉神经机器翻译结果的方法。首先将蒙古语和汉语的词向量空间进行对齐并用它来初始化模型的词嵌入层,然后应用联合训练的方式同时训练蒙古语到汉语的翻译和汉语到蒙古语的翻译。并且在翻译的过程中,最后使用蒙古语和汉语的单语语料对模型进行去噪自编码的训练,增强编码器的编码能力和解码器的解码能力。实验结果表明该文所提出方法的效果明显高于基线模型,证明该方法可以提高蒙汉神经机器翻译的性能。  相似文献   

9.
大规模高质量双语平行语料库是构造高质量统计机器翻译系统的重要基础,但语料库中的噪声影响着统计机器翻译系统的性能,因此有必要对大规模语料库中语料进行筛选。区别于传统的语料选择排序模型,本文提出一种基于分类的平行语料选择方法。通过少数句对特征构造差异较大的分类器训练句对,在该训练句对上使用更多的句对特征对分类器进行训练,然后对其他未分类句对进行分类。相比于基准系统,我们的方法不仅缩减40%训练语料规模,同时在NIST测试数据集合上将BLEU值提高了0.87个百分点。  相似文献   

10.
该文提出了一种从维基百科的可比语料中抽取对齐句子的方法。在获取了维基百科中英文数据库备份并进行一定处理后,重构成本地维基语料数据库。在此基础上,统计了词汇数据、构建了命名实体词典,并通过维基百科本身的对齐机制获得了双语可比语料文本。然后,该文在标注的过程中分析了维基百科语料的特点,以此为指导设计了一系列的特征,并确定了“对齐”、“部分对齐”、“不对齐”三分类体系,最终采用SVM分类器对维基百科语料和来自第三方的平行语料进行了句子对齐实验。实验表明:对于语言较规范的可比语料,分类器对对齐句的分类正确率可达到82%,对于平行语料,可以达到92%,这说明该方法是可行且有效的。  相似文献   

11.
篇章结构平行语料库是对具有对译关系的双语文本标注了平行篇章结构信息的语料库。对齐标注是汉英篇章结构平行语料库的核心理论基础。该文提出“结构对齐,关系对齐”的对齐标注策略,应用于切分对齐、层次结构对齐、关系对齐、中心对齐等环节,实现了对齐和标注并行、单位对齐和结构对齐共进的平行语料库工作模式。本策略辅之以相应标注平台和工作程序以及相应难点解决方案,被证明是一种高效的篇章结构平行语料库工作方式。  相似文献   

12.
双语对齐的平行语料库在机器翻译和自然语言处理领域中扮演着非常重要的角色,它的研究和制作具有重要的理论意义和实用价值,双语语料的建设十分必要,其中双语对齐是最基本的环节.文章首先简要介绍了语料库的建设情况,然后结合主流的句子对齐方法提出并实现了基于词典和语言学信息的英汉双语句子对齐.  相似文献   

13.
高质量的自动对齐双语语块,对于机器翻译系统,特别是计算机辅助翻译系统的性能提高有重要作用,而且对于人工翻译以及辞典编纂也都有巨大的应用价值。该文提出基于单词间粘合度与松弛度的语块划分评分方法以及双语语块划分的双向约束算法,使得源语言和目标语言的语块的划分与对齐能相互促进。与传统方法相比,因为无需事先进行双语语块划分,而是在搜索最佳对齐时动态地考察划分效果,故可以减少边界划分错误对对齐结果的影响。该算法获得了远超过传统算法的高正确率。  相似文献   

14.
We present a quantitative evaluation of one well-known word-alignment algorithm, as well as an analysis of frequent errors in terms of this model's underlying assumptions. Despite error rates that range from 22% to 32%, we argue that this technology can be put to good use in certain automated aids for human translators. We support our contention by pointing to several successful applications and outline ways in which text alignments below the sentence level would allow us to improve the performance of other translation support tools.  相似文献   

15.
基于双语语料的单个源语词汇和目标语多词单元的对齐   总被引:4,自引:0,他引:4  
多词单元包括固定搭配、多词习语和多词术语等。本文提供了一个基于双语口语语料库的自动对齐单个源语词汇和目标语多词单元的算法,算法一方面通过计算对应于同一个源语词汇,多个目标语词汇之间的互信息和t值的归一化差值的大小来衡量目标语多个词语之间的关联程度以提取多词单元,另一方面通过计算互信息和t值的平均值作为多词单元和单个源语词汇之间互为相互翻译的衡量程度,用局部最优、首尾禁用词过滤以及长词优先等策略很好地解决了这个问题。另外,对短语翻译词典的分级,有效地减少了高级别词典中非正确翻译项的数目,使得翻译词典具有更好的实用性。  相似文献   

16.
自统计机器翻译技术出现以来,调序一直是语序差异显著的语言对互译系统中的关键问题,基于大规模语料训练的调序方法得到了广泛研究。目前汉蒙双语语料资源十分有限,使得现有的依赖于大规模语料和语言学知识的调序方法难以取得良好效果。该文对已有的相关研究进行了分析,提出了在有限语料条件下的汉蒙统计机器翻译调序方法。该方法依据语言学知识获取对译文语序影响显著的短语类型,研究这些短语类型的调序方案,并融入已有的调序模型实现调序的优化。实验表明该方法在有限语料条件下的效果提升显著。  相似文献   

17.
单语句法分析指导的双语结构对齐   总被引:2,自引:1,他引:2  
提出了一种单语句法分析指导的双语语料库结构对齐方法.该方法以统计的双语模型——反向转换文法为基础,通过把英语句法分析知识融入到双语模型中,实现英汉双语的结构对齐.与现有方法相比,只需要一种语言的句法分析结果,避开了汉语句法分析的难题,同时保证了双语结构对齐的语法合理性.实验结果表明,这种方法充分利用现有的句法分析知识,有效地提高了结构对齐的正确率.利用该方法获得的结构对齐双语料库对于翻译知识的自动获取研究具有重要意义.  相似文献   

18.
韩汉双语语料库短语对齐对于基于实例的韩汉机器翻译系统具有重要意义,该文从韩国语名词短语结构特点出发,在基于统计和基于词典的词对齐方法进行试验分析的基础上,提出了基于词对齐位置信息的韩汉双语语料库名词短语对齐方法。该方法通过基于统计的方法获得词对齐位置信息,在此基础上利用基于词典方法的相似度计算进行词对齐校正;根据以上结果,该文通过韩国语名词短语左右边界规则抽取名词短语及其汉语译文,利用关联度度量方法进行过滤,实现名词短语对齐。实验结果表明,在较大规模语料库情况下,该方法取得了较好的短语对齐结果。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号