共查询到20条相似文献,搜索用时 31 毫秒
1.
We propose Generate and Repair Machine Translation (GRMT), a constraint–based approach to machine translation that focuses on accurate translation output. GRMT performs the translation by generating a Translation Candidate (TC), verifying the syntax and semantics of the TC and repairing the TC when required. GRMT comprises three modules: Analysis Lite Machine Translation (ALMT), Translation Candidate Evaluation (TCE) and Repair and Iterate (RI). The key features of GRMT are simplicity, modularity, extendibility, and multilinguality.
An English–Thai translation system has been implemented to illustrate the performance of GRMT. The system has been developed and run under SWI–Prolog 3.2.8. The English and Thai grammars have been developed based on Head–Driven Phrase Structure Grammar (HPSG) and implemented on the Attribute Logic Engine (ALE). GRMT was tested to generate the translations for a number of sentences/phrases. Examples are provided throughout the article to illustrate how GRMT performs the translation process. 相似文献
An English–Thai translation system has been implemented to illustrate the performance of GRMT. The system has been developed and run under SWI–Prolog 3.2.8. The English and Thai grammars have been developed based on Head–Driven Phrase Structure Grammar (HPSG) and implemented on the Attribute Logic Engine (ALE). GRMT was tested to generate the translations for a number of sentences/phrases. Examples are provided throughout the article to illustrate how GRMT performs the translation process. 相似文献
2.
该文总结了我们近几年来在基于句法的统计机器翻译方面所做的研究工作,特别是基于源语言句法的一系列统计机器翻译模型与方法,具体包括 基于最大熵括号转录语法的翻译模型,基于源语言短语结构树的树到串翻译模型及其相应的基于树的翻译方法,基于森林的翻译方法和句法分析与解码一体化翻译方法,基于源语言依存树的翻译模型。 相似文献
3.
4.
神经机器翻译是目前机器翻译领域的主流方法,而翻译记忆是一种帮助专业翻译人员避免重复翻译的工具,其保留之前完成的翻译句对并存储在翻译记忆库中,进而在之后的翻译过程中通过检索去重用这些翻译。该文基于数据扩充提出两种将翻译记忆与神经机器翻译相结合的方法: (1)直接拼接翻译记忆在源语句后面;(2)通过标签向量拼接翻译记忆。该文在中英与英德数据集上进行了实验,实验表明,该方法可以使翻译性能获得显著提升。 相似文献
5.
资源丰富场景下,利用相似性翻译作为目标端原型序列,能够有效提升神经机器翻译的性能.然而在低资源场景下,由于平行语料资源匮乏,导致不能匹配得到原型序列或序列质量不佳.针对此问题,提出一种基于多种策略进行原型生成的方法.首先结合利用关键词匹配和分布式表示匹配检索原型序列,如未能获得匹配,则利用伪原型生成方法产生可用的伪原型序列.其次,为有效地利用原型序列,对传统的编码器-解码器框架进行改进.编码端使用额外的编码器接收原型序列输入;解码端在利用门控机制控制信息流动的同时,使用改进的损失函数减少低质量原型序列对模型的影响.多个数据集上的实验结果表明,相比基线模型,所提出的方法能够有效提升低资源场景下的机器翻译性能. 相似文献
6.
7.
近几年来神经机器翻译(Neural Machine Translation, NMT)发展迅速,Seq2Seq框架的提出为机器翻译带来了很大的优势,可以在观测到整个输入句子后生成任意输出序列。但是该模型对于长距离信息的捕获能力仍有很大的局限,循环神经网络(RNN)、 LSTM网络都是为了改善这一问题提出的,但是效果并不明显。注意力机制的提出与运用则有效地弥补了该缺陷。Self-Attention模型就是在注意力机制的基础上提出的,本文使用Self-Attention为基础构建编码器-解码器框架。本文通过探讨以往的神经网络翻译模型,分析Self-Attention模型的机制与原理,通过TensorFlow深度学习框架对基于Self-Attention模型的翻译系统进行实现,在英文到中文的翻译实验中与以往的神经网络翻译模型进行对比,表明该模型取得了较好的翻译效果。 相似文献
8.
在机器译文自动评价中,匹配具有相同语义、不同表达方式的词或短语是其中一个很大的挑战。许多研究工作提出从双语平行语料或可比语料中抽取复述来增强机器译文和人工译文的匹配。然而双语平行语料或可比语料不仅构建成本高,而且对少数语言对难以大量获取。我们提出通过构建词的Markov网络,从目标语言的单语文本中抽取复述的方法,并利用该复述提高机器译文自动评价方法与人工评价方法的相关性。在WMT14 Metrics task上的实验结果表明,我们从单语文本中提取复述方法的性能与从双语平行语料中提取复述方法的性能具有很强的可比性。因此,该文提出的方法可在保证复述质量的同时,降低复述抽取的成本。
相似文献
相似文献
9.
神经机器翻译由于无法完全学习源端单词语义信息,往往造成翻译结果中存在着大量的单词翻译错误。该文提出了一种融入单词翻译用以增强源端信息的神经机器翻译方法。首先使用字典方法找到每个源端单词对应的目标端翻译,然后提出并比较两种不同的方式,用以融合源端单词及其翻译信息: ①Factored 编码器: 单词及其翻译信息直接相加; ②Gated 编码器: 通过门机制控制单词翻译信息的输入。基于目前性能最优的基于自注意力机制的神经机器翻译框架Transformer,在中英翻译任务的实验结果表明,与基准系统相比,该文提出的两种融合源端单词译文的方式均能显著提高翻译性能,BLEU值获得了0.81个点的提升。 相似文献
10.
在汉英机器翻译译文生成中,一个主要的问题是如何根据句子的上下文语境获取有关时态、语态、句式和主谓性、数、格等信息,生成具有正确单词形态的译文,如动词的过去式、过去分词、现在式形式;名词的所有相、复数形式;助动词生成以及冠同的生成等.本文提出一种基于SC文法的汉英机器翻译译文词形态生成算法,该方法通过设计一种生成导向的语言特征描述体系,采用译文生成和源文分析一体化的语言分析技术,使得译文生成能够充分利用源又分析过程中所用到的各种知识,准确地形成句子中各个成分的形态特征,并能有效地解决汉英机译译文生成中助动词 相似文献
11.
近年来,深度学习取得了重大突破,融合深度学习技术的神经机器翻译逐渐取代统计机器翻译,成为学术界主流的机器翻译方法。然而,传统的神经机器翻译将源端句子看作一个词序列,没有考虑句子的隐含语义信息,使得翻译结果与源端语义不一致。为了解决这个问题,一些语言学知识如句法、语义等被相继应用于神经机器翻译,并取得了不错的实验效果。语义角色也可用于表达句子语义信息,在神经机器翻译中具有一定的应用价值。文中提出了两种融合句子语义角色信息的神经机器翻译编码模型,一方面,在句子词序列中添加语义角色标签,标记每段词序列在句子中担当的语义角色,语义角色标签与源端词汇共同构成句子词序列;另一方面,通过构建源端句子的语义角色树,获取每个词在该语义角色树中的位置信息,将其作为特征向量与词向量进行拼接,构成含语义角色信息的词向量。在大规模中-英翻译任务上的实验结果表明,相较基准系统,文中提出的两种方法分别在所有测试集上平均提高了0.9和0.72个BLEU点,在其他评测指标如TER(Translation Edit Rate)和RIBES(Rank-based Intuitive Bilingual Evaluation Score)上也有不同程度的性能提升。进一步的实验分析显示,相较基准系统,文中提出的融合语义角色的神经机器翻译编码模型具有更佳的长句翻译效果和翻译充分性。 相似文献
12.
基于微引擎流水线的机器翻译系统结构 总被引:3,自引:0,他引:3
该文比较了现有各种多引擎机器翻译方法的优缺点,提出了基于微引擎流水线的机器翻译系统结构,详细介绍了有关的数据结构和算法.这种结构的优点在于在部件层次上实现多重算法的并存,通过对微引擎的增删和流水线结构的调整可以方便地尝试各种机器翻译方法的组合,而不需要修改系统的整体算法.文章最后介绍了这种机器翻译系统结构在面向新闻领域的汉英机器翻译系统中的具体实现,给出了实验数据,并进行了总结. 相似文献
13.
近年来,基于神经网络的机器翻译成为机器翻译领域的主流方法,但是在低资源翻译领域中仍存在平行语料不足和数据稀疏的挑战.针对维-汉平行语料不足和维吾尔语形态复杂所导致的数据稀疏问题,从维吾尔语的音节特点出发,将单词切分成音节,同时融入BME(Begin,Middle,End)标记思想,提出一种基于带标记音节的神经网络机器翻... 相似文献
14.
神经网络机器翻译是最近几年提出的机器翻译方法,在多数语言对上逐渐超过了统计机器翻译方法,成为当前机器翻译研究前沿热点。该文在藏汉语对上进行了基于注意力的神经网络机器翻译的实验,并采用迁移学习方法缓解藏汉平行语料数量不足问题。实验结果显示,该文提出的迁移学习方法简单有效,相比短语统计机器翻译方法,提高了三个BLEU值。从译文分析中可以看出藏汉神经网络机器翻译的译文比较流畅,远距离调序能力较强,同时也存在过度翻译、翻译不充分、翻译忠实度较低等神经网络机器翻译的共同不足之处。 相似文献
15.
目前汉藏机器翻译的研究主要集中在基于规则的方法上,主要原因在于汉藏的平行语料等基础资源相对匮乏,不方便做大规模的基于统计的汉藏机器翻译实验。该文依据汉藏辅助翻译项目的实际需求,在平行语料资源较少的情况下,提出了一种基于短语串实例的机器翻译方法,为辅助翻译提供候选译文。该方法主要利用词语对齐信息来充分挖掘现有平行语料资源信息。实验结果表明,该文提出的基于短语串实例方法优于传统基于句子实例的翻译,能够检索出任意长度的短语串翻译实例。在实验测试集上,该方法与默认参数下的Moses相比,翻译的BULE值接近Moses,短语翻译实例串的召回率提高了约9.71%。在平均句长为20个词的测试语料上,翻译速度达到平均每句0.175s,满足辅助翻译实时性的要求。 相似文献
16.
17.
18.
19.
该文提出利用一个大型且精度高的神经机器翻译模型(教师模型)从单语数据中提取隐性双语知识,从而改进小型且精度低的神经机器翻译模型(学生模型)的翻译质量。该文首先提出了“伪双语数据”的教学方法,利用教师模型翻译单语数据获得的合成双语数据改进学生模型,然后提出了“负对数似然—知识蒸馏联合优化”教学方法,除了利用合成双语数据,还利用教师模型获得的目标语言词语概率分布作为知识,从而在知识蒸馏框架下提高学生模型的翻译质量。实验证明,在中英和德英翻译任务上,使用该方法训练的学生模型不仅在领域内测试集上显著超过了基线学生模型,而且在领域外测试集上的泛化性能也得到了提高。 相似文献
20.
The Proper Place of Men and Machines in Language Translation 总被引:1,自引:0,他引:1
Martin Kay 《Machine Translation》1997,12(1-2):3-23
The only way in which the power of computers has been brought to bear on the problem of language translation is machine translation, that is, the automation of the entire process. Machine translation is an excellent research vehicle but stands no chance of filling actual needs for translation which are growing at a great rate. In the quarter century during which work on machine translation has been going on, there has been considerable progress in relevant areas of computer science. However, advances in linguistics, important though they may have been, have not touched the core of this problem. The proper thing to do is therefore to adopt the kinds of solution that have proved successful in other domains, namely to develop cooperative man–machine systems. This paper proposes a translator's amanuensis, incorporating into a word processor some simple facilities peculiar to translation. Gradual enhancements of such a system could eventually lead to the original goal of machine translation. 相似文献