首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 171 毫秒
1.
汉越神经机器翻译是典型的低资源翻译任务,由于缺少大规模的平行语料,可能导致模型对双语句法差异学习不充分,翻译效果不佳。句法的依存关系对译文生成有一定的指导和约束作用,因此,该文提出一种基于依存图网络的汉越神经机器翻译方法。该方法利用依存句法关系构建依存图网络并融入神经机器翻译模型中,在Transformer模型框架下,引入一个图编码器,对源语言的依存结构图进行向量化编码,利用多头注意力机制,将向量化的依存图结构编码融入到序列编码中,在解码时利用该结构编码和序列编码一起指导模型解码生成译文。实验结果表明,在汉越翻译任务中,融入依存句法图可以提升翻译模型的性能。  相似文献   

2.
神经机器翻译在资源丰富的语种上取得了良好的翻译效果,但是由于数据稀缺问题在汉语-越南语这类低资源语言对上的性能不佳。目前缓解该问题最有效的方法之一是利用现有资源生成伪平行数据。考虑到单语数据的可利用性,在回译方法的基础上,首先将利用大量单语数据训练的语言模型与神经机器翻译模型进行融合,然后在回译过程中通过语言模型融入语言特性,以此生成更规范质量更优的伪平行数据,最后将生成的语料添加到原始小规模语料中训练最终翻译模型。在汉越翻译任务上的实验结果表明,与普通的回译方法相比,通过融合语言模型生成的伪平行数据使汉越神经机器翻译的BLEU值提升了1.41个百分点。  相似文献   

3.
低资源型的汉越神经机器翻译中,数据稀疏问题是影响翻译性能的主要原因,目前缓解该问题的途径之一是通过语料扩充方法生成伪平行数据,并用于机器翻译模型的训练,伪平行数据生成方法主要有基于词的替换、单语数据回译和枢轴翻译3种.目前的研究集中于3种方法的单独使用,缺少方法间融合利用方面的研究工作,针对此问题,提出了融入双语词典的正反向枢轴方法,利用英语作为枢轴语言,在汉到英到越正向枢轴的基础上,融入利用稀有词构建的汉-英和英-越双语词典,将汉语单语数据通过模型翻译成英语数据,再利用英-越模型将其翻译成越南语数据,其次进行越到英到汉反向枢轴翻译将越南语单语数据翻译为汉语,以此在2个方向上生成汉越伪平行数据,并利用语言模型对生成的伪平行数据进行筛选.汉-越翻译任务上的实验结果表明,提出的融入双语词典的正反向枢轴方法,能够产生更优的伪平行语料,进而显著提升汉越神经机器翻译任务的性能.  相似文献   

4.
神经机器翻译是目前主流的机器翻译方法,但在汉-越这类低资源的机器翻译任务中,由于双语平行语料规模小,神经机器翻译的效果并不理想。考虑到预训练语言模型中包含丰富的语言信息,将预训练语言模型表征融入神经机器翻译系统可能对低资源的机器翻译有积极作用,提出一种融合BERT预训练语言模型与词嵌入双重表征的低资源神经机器翻译方法。首先,使用预训练语言模型和词嵌入分别对源语言序列进行表示学习,通过注意力机制建立2种表征之间的联系后,使用拼接操作得到双重表征向量;然后,经过线性变换和自注意力机制,使词嵌入表征和预训练语言模型表征完全自适应融合在一起,得到对输入文本的充分表征,以此提高神经机器翻译模型性能。在汉越语言对上的翻译结果表明,相比基准系统,在包含127 000个平行句对的汉越训练数据中,该方法的BLEU值提升了1.99,在包含70 000个平行句对的汉越训练数据中,该方法的BLEU值提升了4.34,表明融合BERT预训练语言模型和词嵌入双重表征的方法能够有效提升汉越机器翻译的性能。  相似文献   

5.
《计算机工程》2017,(12):179-183
为有效利用领域知识提高汉越冶金领域的机器翻译效果,利用术语与主题的分布关系约束术语的选择,提出融合主题的统计机器翻译方法。建立术语翻译模型,抽取短语概率表时将术语对源语言文档的主题信息融入到翻译概率表中,利用主题分布描述术语与主题之间的关系,同时使用冶金领域语料训练翻译模型,将2个模型融合到基于短语的汉越翻译系统解码过程中,指导选择出最符合领域特性的术语及译文。融合模型前后的对比实验结果表明,与基于短语的机器翻译方法相比,该方法可有效提高汉越冶金领域的翻译性能。  相似文献   

6.
神经机器翻译在语料丰富的语种上取得了良好的翻译效果,但是在汉语-越南语这类双语资源稀缺的语种上性能不佳,通过对现有小规模双语语料进行词级替换生成伪平行句对可以较好地缓解此类问题。考虑到汉越词级替换中易存在一词多译问题,该文对基于更大粒度的替换进行了研究,提出了一种基于短语替换的汉越伪平行句对生成方法。利用小规模双语语料进行短语抽取构建短语对齐表,并通过在维基百科中抽取的实体词组对其进行扩充,在对双语数据的汉语和越南语分别进行短语识别后,利用短语对齐表中与识别出的短语相似性较高的短语对进行替换,以此实现短语级的数据增强,并将生成的伪平行句对与原始数据一起训练最终的神经机器翻译模型。在汉-越翻译任务上的实验结果表明,通过短语替换生成的伪平行句对可以有效提高汉-越神经机器翻译的性能。  相似文献   

7.
神经机器翻译是目前应用最广泛的机器翻译方法,在语料资源丰富的语种上取得了良好的效果.但是在汉语-越南语这类缺乏双语数据的语种上表现不佳.考虑汉语和越南语在语法结构上的差异性,提出一种融合源语言句法解析树的汉越神经机器翻译方法,利用深度优先遍历得到源语言的句法解析树的向量化表示,将句法向量与源语言词嵌入相加作为输入,训练翻译模型.在汉-越语言对上进行了实验,相较于基准系统,获得了0.6个BLUE值的提高.实验结果表明,融合句法解析树可以有效提高在资源稀缺情况下机器翻译模型的性能.  相似文献   

8.
汉越平行语料库的资源稀缺,很大程度上影响了汉越机器翻译效果。数据增强是提升汉越机器翻译的有效途径,基于双语词典的词汇替换数据增强是当前较为流行的方法。由于汉语-越南语属于低资源语言对,双语词典难以获得,而通过单语词向量获取低频词的同义词较为容易。因此,提出一种基于低频词的同义词替换的数据增强方法。该方法利用小规模的平行语料,首先通过对单语词向量的学习,获得一端语言低频词的同义词列表;然后对低频词进行同义词替换,再利用语言模型对替换后的句子进行筛选;最后将筛选后的句子与另一端语言中的句子进行匹配,获得扩展的平行语料。汉越翻译对比实验结果表明,提出的方法取得了很好的效果,扩展后的方法比基准和回译方法在BLEU值上分别提高了1.8和1.1。  相似文献   

9.
近年来,随着人工智能和深度学习的发展,神经机器翻译在某些高资源语言对上取得了接近人类水平的效果。然而对于低资源语言对如汉语和蒙古语,神经机器翻译的效果并不尽如人意。为了提高蒙汉神经机器翻译的性能,该文基于编码器—解码器神经机器翻译架构,提出一种改善蒙汉神经机器翻译结果的方法。首先将蒙古语和汉语的词向量空间进行对齐并用它来初始化模型的词嵌入层,然后应用联合训练的方式同时训练蒙古语到汉语的翻译和汉语到蒙古语的翻译。并且在翻译的过程中,最后使用蒙古语和汉语的单语语料对模型进行去噪自编码的训练,增强编码器的编码能力和解码器的解码能力。实验结果表明该文所提出方法的效果明显高于基线模型,证明该方法可以提高蒙汉神经机器翻译的性能。  相似文献   

10.
汪琪  段湘煜 《计算机科学》2018,45(11):226-230
现有神经机器翻译模型普遍采用的注意力机制是基于单词级别的,文中通过在注意力机制上执行多层卷积,从而将注意力机制从基于单词的级别提高到基于短语的级别。经过卷积操作后的注意力信息将愈加明显地体现出短语结构性,并被用于生成新的上下文向量,从而将新生成的上下文向量融入到神经机器翻译框架中。在大规模的中-英测试数据集上的实验结果表明,基于注意力卷积的神经机翻译模型能够很好地捕获语句中的短语结构信息,增强翻译词前后的上下文依赖关系,优化上下文向量,提高机器翻译的性能。  相似文献   

11.
神经机器翻译在平行语料充足的任务中能取得很好的效果,然而对于资源稀缺型语种的翻译任务则往往效果不佳.汉语和越南语之间没有大规模的平行语料库,在这项翻译任务中,该文探索只使用容易获得的汉语和越南语单语语料,通过挖掘单语语料中词级别的跨语言信息,融合到无监督翻译模型中提升翻译性能;该文提出了融合EMD(Earth Move...  相似文献   

12.
神经机器翻译由于无法完全学习源端单词语义信息,往往造成翻译结果中存在着大量的单词翻译错误。该文提出了一种融入单词翻译用以增强源端信息的神经机器翻译方法。首先使用字典方法找到每个源端单词对应的目标端翻译,然后提出并比较两种不同的方式,用以融合源端单词及其翻译信息: ①Factored 编码器: 单词及其翻译信息直接相加; ②Gated 编码器: 通过门机制控制单词翻译信息的输入。基于目前性能最优的基于自注意力机制的神经机器翻译框架Transformer,在中英翻译任务的实验结果表明,与基准系统相比,该文提出的两种融合源端单词译文的方式均能显著提高翻译性能,BLEU值获得了0.81个点的提升。  相似文献   

13.
神经机器翻译是目前机器翻译领域的主流方法,拥有足够数量的双语平行语料是训练出一个好的翻译模型的前提.双语句对齐技术作为一种从不同语言端单语语料中获取双语平行句对的技术,因此得到广泛的研究.该文首先简单介绍句对齐任务及其相应的评测标准,然后归纳总结前人在句对齐任务上的研究进展,以及句对齐任务的相关信息,并简单概括参加团队...  相似文献   

14.
神经网络机器翻译是最近几年提出的机器翻译方法,在多数语言对上逐渐超过了统计机器翻译方法,成为当前机器翻译研究前沿热点。该文在藏汉语对上进行了基于注意力的神经网络机器翻译的实验,并采用迁移学习方法缓解藏汉平行语料数量不足问题。实验结果显示,该文提出的迁移学习方法简单有效,相比短语统计机器翻译方法,提高了三个BLEU值。从译文分析中可以看出藏汉神经网络机器翻译的译文比较流畅,远距离调序能力较强,同时也存在过度翻译、翻译不充分、翻译忠实度较低等神经网络机器翻译的共同不足之处。  相似文献   

15.
神经网络机器翻译模型在蒙古文到汉文的翻译任务上取得了很好的效果。神经网络翻译模型仅利用双语语料获得词向量,而有限的双语语料规模却限制了词向量的表示。该文将先验信息融合到神经网络机器翻译中,首先将大规模单语语料训练得到的词向量作为翻译模型的初始词向量,同时在词向量中加入词性特征,从而缓解单词的语法歧义问题。其次,为了降低翻译模型解码器的计算复杂度以及模型的训练时间,通常会限制目标词典大小,这导致大量未登录词的出现。该文利用加入词性特征的词向量计算单词之间的相似度,将未登录词用目标词典中与之最相近的单词替换,以缓解未登录词问题。最终实验显示在蒙古文到汉文的翻译任务上将译文的BLEU值提高了2.68个BLEU点。  相似文献   

16.
近几年来神经机器翻译(Neural Machine Translation, NMT)发展迅速,Seq2Seq框架的提出为机器翻译带来了很大的优势,可以在观测到整个输入句子后生成任意输出序列。但是该模型对于长距离信息的捕获能力仍有很大的局限,循环神经网络(RNN)、 LSTM网络都是为了改善这一问题提出的,但是效果并不明显。注意力机制的提出与运用则有效地弥补了该缺陷。Self-Attention模型就是在注意力机制的基础上提出的,本文使用Self-Attention为基础构建编码器-解码器框架。本文通过探讨以往的神经网络翻译模型,分析Self-Attention模型的机制与原理,通过TensorFlow深度学习框架对基于Self-Attention模型的翻译系统进行实现,在英文到中文的翻译实验中与以往的神经网络翻译模型进行对比,表明该模型取得了较好的翻译效果。  相似文献   

17.
目前,基于端到端的神经机器翻译(NMT)在大语种上取得了显著的效果,已经成为学术界非常流行的方法,然而该模型的训练严重依赖平行语料库的大小,通常需要上百万句,而西里尔蒙古语和汉语之间的平行语料库严重匮乏,并且人工构建代价昂贵。因此,提出基于对偶学习的西里尔蒙汉互译方法。为了缓解因未登录词导致的译文质量不高的问题,采用BPE(Byte Pair Encoding)技术对语料进行预处理。将通过单语数据预训练的语言模型和20%的平行双语数据预训练的翻译模型作为该模型训练的初始状态。以NMT为基线系统,实验结果表明,该方法达到了与NMT使用西里尔蒙汉全部双语数据相当的效果,有效缓解了因未登录词较多和平行语料库匮乏导致的译文质量不高的问题。  相似文献   

18.
针对英文等符号语言不能直接使用现有的神经网络机器翻译模型(NMT)的问题。在简述LSTM神经网络的基础上,采用分桶(b ucketing)的方式将样本进行batch划分,在NMT模型中加入注意力机制提高了系统的性能,并分别利用双向LSTM神经网络和贪婪算法设计了基于上下文特征提取的编码器和输出算法的解码器。最后从语句还原程度和语义识别情况两个角度对英文的一元分词和HMM分词在NMT模型上的应用结果进行了对比,研究了英文的NMT模型适配方案。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号