首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 171 毫秒
1.
刘颖  姜巍 《计算机工程与应用》2012,48(32):98-101,146
对齐短语是决定统计机器翻译系统质量的核心模块。提出基于短语结构树的层次短语模型,这是利用串-树模型的思想对层次短语模型的扩展。基于短语结构树的层次短语模型是在双语对齐短语的基础之上结合英语短语结构树抽取翻译规则,并利用启发式策略获得翻译规则的扩展句法标记。采用翻译规则的统计机器翻译系统在不同数据集上具有稳定的翻译结果,在训练集和测试集的平均BlEU评分高于短语模型和层次短语模型的BLEU评分。  相似文献   

2.
在统计机器翻译中融入有价值的句法层面的语言学知识,对于推动统计机器翻译的发展,具有重要的理论意义和应用价值。提出了三种由简到繁的把双语最大名词短语融入到统计翻译模型的策略,整体翻译性能逐步上升。Method-III采用“分而治之”的策略,以“硬约束”的方式在统计机器翻译中融入最大名词短语,并在双语最大名词短语层面上,融合了短语翻译模型和层次短语模型,对翻译系统的改善最显著。所述策略显著提高了短语翻译模型的质量,在复杂长句翻译中,Method-III的BLEU值比基于短语的基线翻译模型提高了3.03%。  相似文献   

3.
韩语机器翻译受到韵律格式影响,导致翻译的可靠性不好,提出基于改进神经网络的韩语机器翻译系统设计方法。采用语料库模型建立韩语机器翻译系统的双语平行语料库,建立以深度学习为基础的神经网络翻译语义控制模型,采用规则和模板的匹配方法,采用统计机器翻译的方法,构建以语义综合评估为翻译结构参数模型的韩语机器翻译自然语言处理模型,采用无监督的神经网络学习方法,建立韩语机器翻译的语义对照模型,实现迭代反向翻译和回译。系统构建中,设计了数据库模块、语义推荐模块、数据访问层模块和翻译生成模块,在改进神经网络模型下实现机器翻译系统设计。测试结果表明,该方法进行韩语机器翻译的可靠性较好,具有很好的语义连贯性、翻译一致性和翻译流利性,翻译输出的准确度较高。  相似文献   

4.
双语平行语料库是构造高质量统计机器翻译系统的重要基础。与传统的通过扩大双语平行语料库规模来提高翻译质量的策略不同,本文旨在尽可能地挖掘现有资源的潜力来提高统计机器翻译的性能。文中提出了一种基于信息检索模型的统计机器翻译训练数据选择与优化方法,通过选择现有训练数据资源中与待翻译文本相似的句子组成训练子集,可在不增加计算资源的情况下获得与使用全部数据相当甚至更优的机器翻译结果。通过将选择出的数据子集加入原始训练数据中优化训练数据的分布可进一步提高机器翻译的质量。实验证明,该方法对于有效利用现有数据资源提高统计机器翻译性能有很好的效果。  相似文献   

5.
针对基于层次短语翻译模型的统计机器翻译使用上下文信息有限,时态翻译质量不高的问题,提出一种融合时态特征的日英统计机器翻译方法。该方法通过引入翻译规则的时态分类约束信息,解码器可以根据每条规则的潜在时态分类,为相应时态的句子匹配到最合适的规则进行翻译。首先从双语训练语料中抽取时态特征构建最大熵分类模型,然后再抽取包含各类时态信息的层次短语规则的时态特征,最后将规则的时态分类结果作为一类新特征,融入基于层次短语的翻译系统中。实验结果表明,与基线系统相比,该方法在多个测试集上提高了翻译质量,在一定程度上解决了日英层次短语模型的时态翻译问题。  相似文献   

6.
基于短语的统计翻译模型是目前机器翻译领域广泛使用的模型之一。但是,由于在解码时采用短语精确匹配的策略,造成了严重的数据稀疏问题,短语表中的大量短语无法得到充分利用。为此,该文提出了人机互助的交互式翻译方法。对于翻译短语表中找不到的短语,首先通过模糊匹配的方法,在短语表中寻找与其相似的短语。然后利用组合分类器,判断哪些相似短语可能提高句子的翻译质量。最后,通过人机交互的方法,选择可能提高翻译质量且保持原句语义的短语。在口语语料上的实验结果证明,这种方法可以有效地提高翻译系统的译文质量。  相似文献   

7.
不同国家应用不同母语交际,造成了国际之间交流的语言壁垒,提出基于语义关联度的英语段落机器翻译方法研究。设计编码器处理英语段落信息,选取RelArtNet算法计算英语单词与句子语义关联度,构建英语段落翻译信息调序模型,通过联合训练方法训练神经机器翻译模型,将待翻译的英语段落输入至训练好的翻译模型中,实现了英语段落的机器翻译。实验数据显示:提出方法英语段落机器翻译时间低于最高限值,BLEU指数大于标准数值,证实提出方法应用性能较好。  相似文献   

8.
由于内蒙古地区蒙汉机器翻译水平落后、平行双语语料规模较小,利用传统的统计机器翻译方法会出现数据稀疏以及训练过拟合等问题,导致翻译质量不高。针对这种情况,提出基于LSTM的蒙汉神经机器翻译方法,通过利用长短时记忆模型构建端到端的神经网络框架并对蒙汉机器翻译系统进行建模。为了更有效地理解蒙古语语义信息,根据蒙古语的特点将蒙古文单词分割成词素形式,导入模型,并在模型中引入局部注意力机制计算与目标词有关联的源语词素的权重,获得蒙古语和汉语词汇间的对齐概率,从而提升翻译质量。实验结果表明,该方法相比传统蒙汉翻译系统提高了翻译质量。  相似文献   

9.
基于统计学习的机器翻译模板自动获取方法   总被引:4,自引:1,他引:3  
本文提出了一种从未经深层次处理的双语口语语料库中自动获取机器翻译模板的方法。这种算法是一种无监督的、基于统计的、数据驱动的方法。这种方法有两个基本的步骤。首先,通过语法归纳分别从源语言和目标语言中获取语义类和短语结构类。然后,利用双语划界文法将短语结构类进行对齐。对齐的结果经过后处理就可以得到翻译的模板。初步的试验结果表明,本方法是有效的和切实可行的。  相似文献   

10.
命名实体、术语的翻译对自然语言处理,机器翻译性能的影响越来越得到重视,但是这些翻译很难从现有的翻译词典中获得充足的信息。提出了一种从网页中自动获取高质量命名实体短语翻译对的方法,首次探索了对双语文本中对齐缺失部分自动补充的方法。该方法利用网页双语翻译对的特点,使用统计判别模型,融合多种识别特征自动挖掘网站中存在的双语短语翻译三元对。实验结果表明,采用该模型能高效处理命名实体双语翻译对,正确率达到95.6%。  相似文献   

11.
汉语和维吾尔语是在句法结构和语序上差异较大的两种语言。对于一个完备的汉维机器翻译系统而言,进行源语言的分析和目标语言时态、语态的准确表达是有必要的。针对统计机器翻译模型中所包含的句法、语义成分较低导致的准确率及语序问题,通过建立相关转换及匹配规则,以期用于机器翻译的混合方法之中来提高翻译系统的工作性能。  相似文献   

12.
维吾尔语形态较为复杂,构形词缀在维吾尔语中占有重要地位,其语法与汉语有较大差别。针对维吾尔语的形态特点,分析汉语端到维吾尔语端在统计机器翻译中维吾尔语词缀的作用,搭建基于短语的汉维统计机器翻译系统,对词级粒度、词干级粒度、最大词干级粒度、词干-词缀级粒度、词干-词尾级粒度的汉维平行语料库进行对比实验,研究不同粒度的维吾尔语对汉维机器翻译中的词语对齐质量和语言模型质量的影响。实验结果表明,在上述5种粒度的维吾尔语语料中,基于词干的维吾尔语和基于词干-词尾的维吾尔语目标端语料的翻译质量明显提高。  相似文献   

13.
神经机器翻译是目前机器翻译领域的主流方法,拥有足够数量的双语平行语料是训练出一个好的翻译模型的前提。双语句对齐技术作为一种从不同语言端单语语料中获取双语平行句对的技术,因此得到广泛的研究。该文首先简单介绍句对齐任务及其相应的评测标准,然后归纳总结前人在句对齐任务上的研究进展,以及句对齐任务的相关信息,并简单概括参加团队所提交的系统,最后对当前工作进行总结并展望未来的工作。  相似文献   

14.
Unknown words are one of the key factors that greatly affect the translation quality.Traditionally, nearly all the related researches focus on obtaining the translation of the unknown words.However, these approaches have two disadvantages.On the one hand, they usually rely on many additional resources such as bilingual web data;on the other hand, they cannot guarantee good reordering and lexical selection of surrounding words.This paper gives a new perspective on handling unknown words in statistical machine translation (SMT).Instead of making great efforts to find the translation of unknown words, we focus on determining the semantic function of the unknown word in the test sentence and keeping the semantic function unchanged in the translation process.In this way, unknown words can help the phrase reordering and lexical selection of their surrounding words even though they still remain untranslated.In order to determine the semantic function of an unknown word, we employ the distributional semantic model and the bidirectional language model.Extensive experiments on both phrase-based and linguistically syntax-based SMT models in Chinese-to-English translation show that our method can substantially improve the translation quality.  相似文献   

15.
统计机器翻译可以通过统计方法预测出目标词,但没有充分理解原文语义关系,因而得到的译文质量不高。针对该问题,利用一种基于门控单元循环神经网络结构来对蒙汉神经机器翻译系统进行建模,引入注意力机制来获取双语词语的对齐信息,并在构建字典过程中对双语词语进行词性标注来强化语义,以此来缓解因欠训练导致的错译问题。实验结果表明,与RNN的基准系统和传统的统计机器翻译方法相比,该方法BLEU值得到一定的提升。  相似文献   

16.
基于中心语块扩展的短语对齐   总被引:1,自引:0,他引:1  
短语等价对在词典编纂、机器翻译和跨语言信息检索中有着广泛的应用.提出了一种新的短语对齐方法,使用可信度较高的词典对齐结果来抽取源语言短语的译文中心语块,依据译文扩展可信度来确定源语言短语的译文统计边界.从译文中心语块出发,结合译文统计边界生成源语言短语的所有候选译文.对候选译文进行评价,从中选出最可靠的译文.同时利用贪心算法消除源语言短语译文边界之间的交叉冲突.实验结果表明,所提出的方法在开放测试中其正确率达到了82.76%,性能好于其他方法.  相似文献   

17.
基于短语统计翻译的汉维机器翻译系统   总被引:1,自引:0,他引:1  
杨攀  李淼  张建 《计算机应用》2009,29(7):2022-2025
描述了一种基于短语统计翻译的汉维机器翻译系统。首先使用汉维语料进行训练,得到语言模型和翻译模型;再利用训练好的模型对源语句进行解码,以得到最佳的翻译语句。解码的核心算法是柱搜索(beam search)算法。其中维文语料使用的是拉丁维文。实验结果表明,基于短语的统计机器翻译方法可以快速有效地构建一个汉维机器翻译平台。  相似文献   

18.
短语表是基于短语的统计机器翻译系统的一个核心组成部分,基于启发式方法抽取到的短语表受单词对齐错误和未对齐词的影响严重,同时抽取到的短语也并非句法意义上的短语。该文提出一种基于EM(Expectation-maximization)算法的双语句法短语抽取方法来抽取双语句法短语,此方法可以通过不断迭代的方式使各参数值达到最优。通过加入双语句法短语、增加新特征、重新训练三种不同的方法,将获得的双语句法短语与基于短语的统计机器翻译方法结合以提高统计机器翻译系统的性能。结果表明: 三种方法都不同程度提高了译文的BLEU(BiLingual Evaluation Understudy)值,其中增加新特征方法提高了0.64个点。  相似文献   

19.
We propose a novel approach to cross-lingual language model and translation lexicon adaptation for statistical machine translation (SMT) based on bilingual latent semantic analysis. Bilingual LSA enables latent topic distributions to be efficiently transferred across languages by enforcing a one-to-one topic correspondence during training. Using the proposed bilingual LSA framework, model adaptation can be performed by, first, inferring the topic posterior distribution of the source text and then applying the inferred distribution to an n-gram language model of the target language and translation lexicon via marginal adaptation. The background phrase table is enhanced with the additional phrase scores computed using the adapted translation lexicon. The proposed framework also features rapid bootstrapping of LSA models for new languages based on a source LSA model of another language. Our approach is evaluated on the Chinese–English MT06 test set using the medium-scale SMT system and the GALE SMT system measured in BLEU and NIST scores. Improvement in both scores is observed on both systems when the adapted language model and the adapted translation lexicon are applied individually. When the adapted language model and the adapted translation lexicon are applied simultaneously, the gain is additive. At the 95% confidence interval of the unadapted baseline system, the gain in both scores is statistically significant using the medium-scale SMT system, while the gain in the NIST score is statistically significant using the GALE SMT system.  相似文献   

20.
陈玺  杨雅婷  董瑞 《计算机工程》2021,47(12):112-117
针对训练汉维机器翻译模型时汉语-维吾尔语平行语料数据稀疏的问题,将汉语预训练语言BERT模型嵌入到汉维神经机器翻译模型中,以提高汉维机器翻译质量。对比不同汉语BERT预训练模型编码信息的嵌入效果,讨论BERT不同隐藏层编码信息对汉维神经机器翻译效果的影响,并提出一种两段式微调BERT策略,通过对比实验总结出将BERT模型应用在汉维神经机器翻译中的最佳方法。在汉维公开数据集上的实验结果显示,通过该方法可使机器双语互译评估值(BLEU)提升1.64,有效提高汉维机器翻译系统的性能。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号