首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 156 毫秒
1.
多策略机器翻译系统IHSMTS中候选实例模式检索算法   总被引:2,自引:0,他引:2  
基于实例的机器翻译系统EBMT都需要有一个非常大的实例模式库,其数量级通常在百万句对以上.因此,如何从中快速地选择出一定数量的与待翻译的输入句子比较相似的候选实例,提供给后续句子相似度计算、类比译文构造等模块作进一步的处理,是EBMT系统所必须解决的一大难题.文章基于句子的词表层特征和信息熵提出了一种多层次候选实例模式检索算法,通过在多策略机器翻译系统IHSMTS上的运行测试。结果表明该算法较好的解决了这一难题.  相似文献   

2.
实例匹配是基于实例的机器翻译(Exanlple_Based Machine Translation,简称EBMT)系统实现的关键,它直接关系到EBMT系统本身的翻译质量。在基于模式的实例匹配方法中,模式的构造是基础。依据“谓词(或特殊词) 常见搭配成分”的形式构造汉语中常见的句子模式,并应用于汉英EBMT中的相似实例匹配。该模式构造方法可以有效地提高当前汉英EBMT系统的实现效率与准确率。  相似文献   

3.
提出了一种改进互信息的译文选择方法,认为词语的译文的选择不是孤立进行的,上下文对译文的选择有着重要的意义,通过对已有的互信息公式加入翻译模型特征进行改进,结合翻译模型与互信息来选择最佳译文,经过BLEU(BiLingual Evaluation Understudy)作为机器评价准则的实验结果表明,该方法优于传统的互信息词语译文选择的方法.  相似文献   

4.
传统的神经机器翻译方法在忽略句子层面语境的情况下,利用词层面语境来预测目标语的翻译,这有利于统计机器翻译中的翻译预测;但由于词的主题往往是根据句意和上下文动态变化的,存在一词多义等复杂情况;这会导致翻译的不准确;因此,利用卷积神经网络将句子级上下文表示为潜在的主题表示,并设计了一个主题关注度模型,将源句子级主题上下文信息集成到基于Attention和基于Transformer的神经机器翻译方法中;实验结果表明,提出的方法的BLEU评分最高大约等于40。  相似文献   

5.
多策略机器翻译系统IHSMTS中实例模式泛化匹配算法   总被引:1,自引:1,他引:1  
基于精确匹配的EBMT,由于翻译覆盖率过低,导致其难以大规模实际应用。本文提出一种实例模式泛化匹配算法,试图改善EBMT的翻译覆盖率:以输入的待翻译句子为目标导向,对候选翻译实例有针对性地进行实时泛化,使得算法既能满足实时文档翻译对速度的要求,又能充分利用系统使用过程中用户新添加和修改的翻译知识,从而总体上提高了系统的翻译覆盖率和翻译质量。实验结果表明,在语料规模为16 万句对的情况下,系统翻译覆盖率达到了75 %左右,充分说明了本文算法的有效性。  相似文献   

6.
基于序列相交的短语译文获取   总被引:2,自引:2,他引:0  
短语译文获取技术是基于实例的机器翻译(EBMT)中的核心技术之一,其准确率直接影响到EBMT系统的性能。该文提出了一种基于序列相交的短语译文获取方法,该方法将句子视为词的序列,利用对中日句对齐语料库中包含待译短语的所有源语句子对应的目标语句子进行序列相交的方式,在不需要词对齐、句法分析及词典等资源的情况下,通过充分挖掘句对齐双语语料库的信息,获得高质量的短语译文。实验表明,该方法获得的短语译文准确率超过80%。  相似文献   

7.
面向奥运的汉英RBMT与EBMT研究   总被引:1,自引:0,他引:1  
介绍了采用基于实例的方法和基于规则的方法在面向奥运的汉英机器翻译系统的最新进展.揭示了二者不同的翻译处理过程和翻译知识学习机制.通过2003年和2005年两次863汉英测试的结果比较了二者的性能差别.采用4元Bleu指标作为评分标准,在2005年863评测中RBMT系统的篇章类得分为0.1056,对话类得分为0.1714;EBMT系统的篇章类得分为0.0718,对话类得分为0.1454.  相似文献   

8.
为解决基于短语统计机器翻译存在的调序能力不足的问题,尝试利用句法分析器对基于短语统计机器翻译的输入汉语句子进行句法分析,然后利用转换器进行调序操作,并对部分类型短语进行预先翻译,然后再利用基于短语统计机器翻译的解码器进行翻译。重点测试了汉语中"的"字引导的复杂定语调序、介词短语、特定搭配短语、方位词短语的调序及预翻译产生的效果。实验结果表明,这些调序及预翻译操作可以显著地提高基于短语的统计机器翻译的英文译文结果的BLEU值。  相似文献   

9.
基于实例的机器翻译(Example-Based Machine Translation,简称EBMT)通过模仿实例的翻译实现源文的翻译.在EBMT中,实例的匹配是关键,它直接关系到EBMT本身的翻译质量.文章通过对现有几类实例匹配算法的比较和研究,提出一种基于模式的实例匹配算法.  相似文献   

10.
在单语语料的使用上,统计机器翻译可通过利用语言模型提高性能,而神经机器翻译很难通过这种方法有效利用单语语料.针对此问题,文中提出基于句子级双语评估替补(BLEU)指标挑选数据的半监督神经网络翻译模型.分别利用统计机器翻译和神经机器翻译模型对无标注数据生成候选翻译,然后通过句子级BLEU指标挑选单语候选翻译,加入到有标注的数据集中进行半监督联合训练.实验表明,文中方法能高效利用无标注的单语语料,在NIST汉英翻译任务上,相比仅使用精标的有标注数据单系统,文中方法BLEU值有所提升.  相似文献   

11.
基于词类串的汉语句子结构相似度计算方法   总被引:9,自引:1,他引:9  
句子相似度的衡量是基于实例机器翻译研究中最重要的一个内容。对于基于实例的汉英机器翻译研究,汉语句子相似度衡量的准确性,直接影响到最后翻译结果的输出。本文提出了一种汉语句子结构相似性的计算方法。该方法比较两个句子的词类信息串,进行最优匹配,得到一个结构相似性的值。在小句子集上的初步实验结果表明,该方法可行,有效,符合人的直观判断。  相似文献   

12.
神经机器翻译由于无法完全学习源端单词语义信息,往往造成翻译结果中存在着大量的单词翻译错误。该文提出了一种融入单词翻译用以增强源端信息的神经机器翻译方法。首先使用字典方法找到每个源端单词对应的目标端翻译,然后提出并比较两种不同的方式,用以融合源端单词及其翻译信息: ①Factored 编码器: 单词及其翻译信息直接相加; ②Gated 编码器: 通过门机制控制单词翻译信息的输入。基于目前性能最优的基于自注意力机制的神经机器翻译框架Transformer,在中英翻译任务的实验结果表明,与基准系统相比,该文提出的两种融合源端单词译文的方式均能显著提高翻译性能,BLEU值获得了0.81个点的提升。  相似文献   

13.
针对专利文本翻译中长句翻译的问题,提出了一种句子切分算法,即把长句切分成多个独立的小句后再进行翻译的方法。切分算法使用了概念层次网络(HNC)理论的语义特征来切分小句,切分算法和一个基于规则的基线翻译系统进行了融合,融合后的翻译系统的BLEU值达到0189 8,比融合前的系统提高了30%。实验结果证明,提出的方法可以有效地改进专利翻译效果。  相似文献   

14.
通过以目标信息为指导的卷积体系总结相关源信息,提出了一种系统的处理语言方法;利用在解码过程中使用不同的引导信号,经过特殊设计的卷积+门控体系结构可以查明与预测目标单词相关的源句子部分,并将其与整个源句子的上下文融合在一起形成统一表示形式;研究结果表明,模型将表示形式与目标语言单词一起馈入深度神经网络(DNN),形成更强大的神经网络联合模型(NNJM);通过两个NIST汉英翻译任务的实验验证,在相同设置下,tagCNN和inCNN在Dep2Str基线上的改善幅度分别为+1.28,+1.75 BLEU,所提出的模型分别优于NIST MT04和MT05的平均值+0.36,+0.83 BLEU,比传统DNN机器翻译平均提高了+1.08 BLEU点;模型为统计机器翻译研究提供了新思路。  相似文献   

15.
在中英语料下复现Facebook提出的无监督神经机器翻译方法时,我们发现模型出现了退化现象。该文分析了退化的可能原因并提出三种简单方法来抑制模型退化。方法一,遮蔽非目标语输出;方法二,双语词典逐词翻译退化译文;方法三,在训练过程中,添加10万句对的平行语料。结果显示,三种方法都能有效抑制模型退化。在无监督条件下,方法二的性能更好,BLEU值为7.87;在10万语料的低资源条件下,方法一效果更好,BLEU值为14.28,该文还分析了产生此现象的原因。  相似文献   

16.
一种维吾尔语句子相似度算法的研究   总被引:1,自引:0,他引:1       下载免费PDF全文
基于实例的机器翻译是一种重要的机器翻译技术,句子相似度的衡量是基于实例机器翻译研究中最重要的一个内容。对于基于实例的维吾尔语机器翻译研究,维吾尔语句子相似度衡量的准确性,直接影响到最后翻译结果的输出。提出了一种维吾尔语句子相似度的计算方法,采用的基于词形特征的粗选算法、散列单词倒排索引能够有效提高算法的查找速度,快速从语料库中筛选出候选句子集合;多策略精选算法中采用基于维吾尔语词频的单词区分度算法、连续单词序列抽取算法,可以有效衡量两个维吾尔语句子的相似程度,实验结果证明算法是有效的。  相似文献   

17.
This paper describes an example-based machine translation (EBMT) method based on tree–string correspondence (TSC) and statistical generation. In this method, the translation example is represented as a TSC, which is a triple consisting of a parse tree in the source language, a string in the target language, and the correspondence between the leaf node of the source-language tree and the substring of the target-language string. For an input sentence to be translated, it is first parsed into a tree. Then the TSC forest which best matches the input tree is searched for. Finally the translation is generated using a statistical generation model to combine the target-language strings of the TSCs. The generation model consists of three features: the semantic similarity between the tree in the TSC and the input tree, the translation probability of translating the source word into the target word, and the language-model probability for the target-language string. Based on the above method, we build an English-to-Chinese MT system. Experimental results indicate that the performance of our system is comparable with phrase-based statistical MT systems.  相似文献   

18.
基于句子相似度的机器翻译评价方法及其有效性分析   总被引:5,自引:0,他引:5  
为了帮助开发面向本地化的基于实例的机器翻译(EBMT)系统,提出利用句子相似度评价译文质量的方法.该方法能够较有效地区分不同翻译质量的译文,从而帮助开发者发现EBMT系统存在的问题.为了证明该评价方法的有效性,对比了6个机器翻译系统人工评价和自动评价的结果.通过相关分析和显著性检验,表明了此方法和人工方法存在高度的一致性.最后提出在自动评价结果的基础上利用线性回归预测人工评分方法.  相似文献   

19.
针对目前机器翻译模型存在的曝光偏差和译文多样性差的问题,提出一种基于强化学习和机器翻译质量评估的中朝神经机器翻译模型QR-Transformer.首先,在句子级别引入评价机制来指导模型预测不完全收敛于参考译文;其次,采用强化学习方法作为指导策略,实现模型在句子级别优化目标序列;最后,在训练过程中融入单语语料并进行多粒度数据预处理以缓解数据稀疏问题.实验表明,QR-Transformer有效提升了中朝神经机器翻译性能,与Transformer相比,中—朝语向BLEU值提升了5.39,QE分数降低了5.16,朝—中语向BLEU值提升了2.73,QE分数下降了2.82.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号