首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到15条相似文献,搜索用时 62 毫秒
1.
基于编码—解码(端到端)结构的机器翻译逐渐成为自然语言处理之机器翻译的主流方法,其翻译质量较高且流畅度较好,但依然存在词汇受限、上下文语义信息丢失严重等问题。该文首先进行语料预处理,给出一种Transformer-CRF算法来进行蒙古语词素和汉语分词的预处理方法。然后构建了基于Tensor2Tensor的编码—解码模型,为了从蒙古语语料中学习更多的语法和语义知识,该文给出了一种基于词素四元组编码的词向量作为编码器输入,解码阶段。为了进一步缓解神经网络训练时出现的词汇受限问题,该文将专有名词词典引入翻译模型来进一步提高翻译质量和译文忠实度。根据构建模型对不同长度句子进行实验对比,表明模型在处理长时依赖问题上翻译性能得到提高。  相似文献   

2.
3.
针对蒙汉平行语料资源比较稀缺和现有平行语料数据覆盖面少等导致的蒙汉翻译质量不佳的问题,采用跨语言多任务学习的方式对机器翻译建模。在数据预处理阶段,引入两种新的无监督预训练和一种监督预训练的方法,用于跨语言建模来学习跨语言表示,并研究三种语言预训练方法在蒙汉翻译中的效果。实验结果表明,三种跨语言预训练的模型可以显著降低低资源语言的困惑度,提高蒙汉翻译质量。  相似文献   

4.
5.
在机器翻译模型的构建和训练阶段,为了缓解因端到端机器翻译框架在训练时采用最大似然估计原理导致的翻译模型的质量不高的问题,本文使用对抗学习策略训练生成对抗网络,通过鉴别器协助生成器的方式来提高生成器的翻译质量,通过实验选择出了更适合生成器的机器翻译框架Transformer,更适合鉴别器的卷积神经网络,并且验证了对抗式训练对提高译文的自然度、流利度以及准确性都具有一定的作用.在模型的优化阶段,为了缓解因蒙汉平行数据集匮乏导致的蒙汉机器翻译质量仍然不理想的问题,本文将Dual-GAN (dual-generative adversarial networks,对偶生成对抗网络)算法引入了蒙汉机器翻译中,通过有效的利用大量蒙汉单语数据使用对偶学习策略的方式来进一步提高基于对抗学习的蒙汉机器翻译模型的质量.  相似文献   

6.
机器翻译是利用计算机将一种语言转换成另一种语言的过程,凭借着对语义的深度理解能力,神经机器翻译已经成为目前主流的机器翻译方法,在众多拥有大规模对齐语料的翻译任务上取得了令人瞩目的成就,然而对于一些低资源语言的翻译任务效果仍不理想.蒙汉机器翻译是目前国内主要的低资源机器翻译研究之一,蒙汉两种语言的翻译并不简单地是两种语言...  相似文献   

7.
在蒙汉神经机器翻译任务中,由于语料稀少使得数据稀疏问题严重,极大影响了模型的翻译效果。该文对子字粒度切分技术在蒙汉神经机器翻译模型中的应用进行了研究。通过BPE算法将切分粒度控制在字符和词之间的子字粒度大小,将低频词切分成相对高频的子字片段,来缓解数据稀疏问题,从而在有限的数据和硬件资源条件下,更高效地提升模型的鲁棒性。实验表明,在两种网络模型中使用子字粒度切分技术,BLEU值分别提升了4.81和2.96,且随着语料的扩大,训练周期缩短效果也更加显著,说明子字粒度切分技术有助于提高蒙汉神经机器翻译效果。  相似文献   

8.
在机器翻译任务中,主流的深度学习算法大多使用词或子词作为基础的语义单元,在词或子词层面学习嵌入表征。然而,词粒度层面存在一系列缺点。该文基于LSTM和Transformer蒙汉翻译模型,对蒙文进行子词粒度切分,对中文分别进行子词和字粒度切分对比实验。实验结果显示,相比于子词粒度切分,基于Transformer的蒙汉翻译模型和基于LSTM的蒙汉翻译模型的字粒度切分有极大的BLEU值提升,字级别的蒙汉翻译模型在验证集和测试集上都显著优于混合字和词的子词级别的蒙汉翻译模型。其表明,字级别的蒙汉翻译模型更能捕捉单元之间的语义联系,提高蒙汉翻译性能。  相似文献   

9.
在蒙汉神经机器翻译中,输入序列的基本粒度对翻译效果有一定的影响。为了选择合适的翻译粒度,分别对蒙古语和汉语进行词-词、词-子词、子词-词、子词-子词粒度的切分,并对比不同粒度在长短时记忆网络和Transformer翻译模型中的翻译表现。实验结果表明,在两种翻译模型中,对两种语料同时进行子词粒度切分效果最好。  相似文献   

10.
由于内蒙古地区蒙汉机器翻译水平落后、平行双语语料规模较小,利用传统的统计机器翻译方法会出现数据稀疏以及训练过拟合等问题,导致翻译质量不高。针对这种情况,提出基于LSTM的蒙汉神经机器翻译方法,通过利用长短时记忆模型构建端到端的神经网络框架并对蒙汉机器翻译系统进行建模。为了更有效地理解蒙古语语义信息,根据蒙古语的特点将蒙古文单词分割成词素形式,导入模型,并在模型中引入局部注意力机制计算与目标词有关联的源语词素的权重,获得蒙古语和汉语词汇间的对齐概率,从而提升翻译质量。实验结果表明,该方法相比传统蒙汉翻译系统提高了翻译质量。  相似文献   

11.
近年来,随着人工智能和深度学习的发展,神经机器翻译在某些高资源语言对上取得了接近人类水平的效果。然而对于低资源语言对如汉语和蒙古语,神经机器翻译的效果并不尽如人意。为了提高蒙汉神经机器翻译的性能,该文基于编码器—解码器神经机器翻译架构,提出一种改善蒙汉神经机器翻译结果的方法。首先将蒙古语和汉语的词向量空间进行对齐并用它来初始化模型的词嵌入层,然后应用联合训练的方式同时训练蒙古语到汉语的翻译和汉语到蒙古语的翻译。并且在翻译的过程中,最后使用蒙古语和汉语的单语语料对模型进行去噪自编码的训练,增强编码器的编码能力和解码器的解码能力。实验结果表明该文所提出方法的效果明显高于基线模型,证明该方法可以提高蒙汉神经机器翻译的性能。  相似文献   

12.
黄鑫  张家俊  宗成庆 《自动化学报》2023,49(6):1170-1180
现有多模态机器翻译(Multi-modal machine translation, MMT)方法将图片与待翻译文本进行句子级别的语义融合. 这些方法存在视觉信息作用不明确和模型对视觉信息不敏感等问题, 并进一步造成了视觉信息与文本信息无法在翻译模型中充分融合语义的问题. 针对这些问题, 提出了一种跨模态实体重构(Cross-modal entity reconstruction, CER)方法. 区别于将完整的图片输入到翻译模型中, 该方法显式对齐文本与图像中的实体, 通过文本上下文与一种模态的实体的组合来重构另一种模态的实体, 最终达到实体级的跨模态语义融合的目的, 通过多任务学习方法将CER模型与翻译模型结合, 达到提升翻译质量的目的. 该方法在多模态翻译数据集的两个语言对上取得了最佳的翻译准确率. 进一步的分析实验表明, 该方法能够有效提升模型在翻译过程中对源端文本实体的忠实度.  相似文献   

13.
神经网络机器翻译模型在蒙古文到汉文的翻译任务上取得了很好的效果。神经网络翻译模型仅利用双语语料获得词向量,而有限的双语语料规模却限制了词向量的表示。该文将先验信息融合到神经网络机器翻译中,首先将大规模单语语料训练得到的词向量作为翻译模型的初始词向量,同时在词向量中加入词性特征,从而缓解单词的语法歧义问题。其次,为了降低翻译模型解码器的计算复杂度以及模型的训练时间,通常会限制目标词典大小,这导致大量未登录词的出现。该文利用加入词性特征的词向量计算单词之间的相似度,将未登录词用目标词典中与之最相近的单词替换,以缓解未登录词问题。最终实验显示在蒙古文到汉文的翻译任务上将译文的BLEU值提高了2.68个BLEU点。  相似文献   

14.
标题反映文章的灵魂,精确把握标题能迅速领悟文章的中心内容。本文利用统计机器翻译方法搭建了一个机器翻译平台,使用兹平台对航空领域标题进行翻译,井采用国际评测NIST工具对该平台进行了开放测试和对闭测试,测试结果表明该统计方法对领域标题翻译具有有效性。  相似文献   

15.
神经机器翻译由于无法完全学习源端单词语义信息,往往造成翻译结果中存在着大量的单词翻译错误。该文提出了一种融入单词翻译用以增强源端信息的神经机器翻译方法。首先使用字典方法找到每个源端单词对应的目标端翻译,然后提出并比较两种不同的方式,用以融合源端单词及其翻译信息: ①Factored 编码器: 单词及其翻译信息直接相加; ②Gated 编码器: 通过门机制控制单词翻译信息的输入。基于目前性能最优的基于自注意力机制的神经机器翻译框架Transformer,在中英翻译任务的实验结果表明,与基准系统相比,该文提出的两种融合源端单词译文的方式均能显著提高翻译性能,BLEU值获得了0.81个点的提升。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号