首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到16条相似文献,搜索用时 171 毫秒
1.
变分方法是机器翻译领域的有效方法, 其性能较依赖于数据量规模. 然而在低资源环境下, 平行语料资源匮乏, 不能满足变分方法对数据量的需求, 因此导致基于变分的模型翻译效果并不理想. 针对该问题, 本文提出基于变分信息瓶颈的半监督神经机器翻译方法, 所提方法的具体思路为: 首先在小规模平行语料的基础上, 通过引入跨层注意力机制充分利用神经网络各层特征信息, 训练得到基础翻译模型; 随后, 利用基础翻译模型, 使用回译方法从单语语料生成含噪声的大规模伪平行语料, 对两种平行语料进行合并形成组合语料, 使其在规模上能够满足变分方法对数据量的需求; 最后, 为了减少组合语料中的噪声, 利用变分信息瓶颈方法在源与目标之间添加中间表征, 通过训练使该表征具有放行重要信息、阻止非重要信息流过的能力, 从而达到去除噪声的效果. 多个数据集上的实验结果表明, 本文所提方法能够显著地提高译文质量, 是一种适用于低资源场景的半监督神经机器翻译方法.  相似文献   

2.
针对目前机器翻译模型存在的曝光偏差和译文多样性差的问题,提出一种基于强化学习和机器翻译质量评估的中朝神经机器翻译模型QR-Transformer.首先,在句子级别引入评价机制来指导模型预测不完全收敛于参考译文;其次,采用强化学习方法作为指导策略,实现模型在句子级别优化目标序列;最后,在训练过程中融入单语语料并进行多粒度数据预处理以缓解数据稀疏问题.实验表明,QR-Transformer有效提升了中朝神经机器翻译性能,与Transformer相比,中—朝语向BLEU值提升了5.39,QE分数降低了5.16,朝—中语向BLEU值提升了2.73,QE分数下降了2.82.  相似文献   

3.
基于Transformer的序列转换模型是当前性能最优的机器翻译模型之一.该模型在生成机器译文时,通常从左到右逐个生成目标词,这使得当前位置词的生成不能利用译文中该词之后未生成词的信息,导致机器译文解码不充分从而降低译文质量.为了缓解上述问题,该文提出了基于重解码的神经机器翻译模型,该模型将已生成的机器译文作为目标语言...  相似文献   

4.
龚龙超  郭军军  余正涛 《计算机应用》2022,42(11):3386-3394
当前性能最优的机器翻译模型之一Transformer基于标准的端到端结构,仅依赖于平行句对,默认模型能够自动学习语料中的知识;但这种建模方式缺乏显式的引导,不能有效挖掘深层语言知识,特别是在语料规模和质量受限的低资源环境下,句子解码缺乏先验约束,从而造成译文质量下降。为了缓解上述问题,提出了基于源语言句法增强解码的神经机器翻译(SSED)方法,显式地引入源语句句法信息指导解码。所提方法首先利用源语句句法信息构造句法感知的遮挡机制,引导编码自注意力生成一个额外的句法相关表征;然后将句法相关表征作为原句表征的补充,通过注意力机制融入解码,共同指导目标语言的生成,实现对模型的先验句法增强。在多个IWSLT及WMT标准机器翻译评测任务测试集上的实验结果显示,与Transformer基线模型相比,所提方法的BLEU值提高了0.84~3.41,达到了句法相关研究的最先进水平。句法信息与自注意力机制融合是有效的,利用源语言句法可指导神经机器翻译系统的解码过程,显著提高译文质量。  相似文献   

5.
在机器翻译模型的构建和训练阶段,为了缓解因端到端机器翻译框架在训练时采用最大似然估计原理导致的翻译模型的质量不高的问题,本文使用对抗学习策略训练生成对抗网络,通过鉴别器协助生成器的方式来提高生成器的翻译质量,通过实验选择出了更适合生成器的机器翻译框架Transformer,更适合鉴别器的卷积神经网络,并且验证了对抗式训练对提高译文的自然度、流利度以及准确性都具有一定的作用.在模型的优化阶段,为了缓解因蒙汉平行数据集匮乏导致的蒙汉机器翻译质量仍然不理想的问题,本文将Dual-GAN (dual-generative adversarial networks,对偶生成对抗网络)算法引入了蒙汉机器翻译中,通过有效的利用大量蒙汉单语数据使用对偶学习策略的方式来进一步提高基于对抗学习的蒙汉机器翻译模型的质量.  相似文献   

6.
汉越神经机器翻译是典型的低资源翻译任务,由于缺少大规模的平行语料,可能导致模型对双语句法差异学习不充分,翻译效果不佳。句法的依存关系对译文生成有一定的指导和约束作用,因此,该文提出一种基于依存图网络的汉越神经机器翻译方法。该方法利用依存句法关系构建依存图网络并融入神经机器翻译模型中,在Transformer模型框架下,引入一个图编码器,对源语言的依存结构图进行向量化编码,利用多头注意力机制,将向量化的依存图结构编码融入到序列编码中,在解码时利用该结构编码和序列编码一起指导模型解码生成译文。实验结果表明,在汉越翻译任务中,融入依存句法图可以提升翻译模型的性能。  相似文献   

7.
传统上神经机器翻译依赖于大规模双语平行语料,而无监督神经机器翻译的方法避免了神经机器翻译对大量双语平行语料的过度依赖,更适合低资源语言或领域.无监督神经机器翻译训练时会产生伪平行数据,这些伪平行数据质量对机器翻译最终质量起到了决定性的作用.因此,该文提出利用质量估计的无监督神经机器翻译模型,通过在反向翻译的过程中使用质...  相似文献   

8.
译文质量估计是机器翻译领域中一个重要的子任务,该任务旨在不依靠参考译文的情况下对机器译文进行质量分析.当前,译文质量估计任务在汉英、英德机器翻译上有较好的表现,技术相对成熟.但是将模型应用到汉-越神经机器翻译中面临较多问题.尤其是译文质量估计模型在汉越平行数据中提取到的语言特征不能够充分地体现汉语与越南语之间的语言特点,加之汉语与越南语之间语序与句法结构也存在明显的差异.针对上述问题,本文采用统计对齐的方法对汉越之间结构差异进行建模,提取汉语与越南语之间的语言差异化特征,以提升汉越译文质量估计的效果.实验结果表明,融入语言差异化特征在汉-越和越-汉两个方向上较基线模型分别提升了0.52个百分点和0.35个百分点.  相似文献   

9.
针对蒙汉神经机器翻译过程中出现严重未登录词的问题,利用字节编码技术对蒙汉平行语料进行预处理,实验结果表明字节对编码技术有效缓解了未登录词现象。同时,为缓解蒙汉平行语料不足问题,将迁移学习策略应用到在蒙汉神经机器翻译中,实验结果表明最终的翻译译文提高了1.6个BLEU值。另外,考虑到在神经机器翻译模型中的双语词向量的质量对最终的翻译译文质量有较大影响,将基于Word2vec预训练得到的词向量嵌入到蒙汉神经机器翻译模型中,实验结果表明译文提升了0.6个BLEU值。  相似文献   

10.
机器翻译译文质量估计(Quality Estimation, QE)是指在不需要人工参考译文的条件下,估计机器翻译系统产生的译文的质量,对机器翻译研究和应用具有很重要的价值。机器翻译译文质量估计经过最近几年的发展,取得了丰富的研究成果。该文首先介绍了机器翻译译文质量估计的背景与意义;然后详细介绍了句子级QE、单词级QE、文档级QE的具体任务目标、评价指标等内容,进一步概括了QE方法发展的三个阶段:基于特征工程和机器学习的QE方法阶段,基于深度学习的QE方法阶段,融入预训练模型的QE方法阶段,并介绍了每一阶段中的代表性研究工作;最后分析了目前的研究现状及不足,并对未来QE方法的研究及发展方向进行了展望。  相似文献   

11.
如何有效利用篇章上下文信息一直是篇章级神经机器翻译研究领域的一大挑战。该文提出利用来源于整个篇章的层次化全局上下文来提高篇章级神经机器翻译性能。为了实现该目标,该文提出的模型分别获取当前句内单词与篇章内所有句子及单词之间的依赖关系,结合不同层次的依赖关系以获取含有层次化篇章信息的全局上下文表示。最终源语言当前句子中的每个单词都能获取其独有的综合词和句级别依赖关系的上下文。为了充分利用平行句对语料在训练中的优势,该文使用两步训练法,在句子级语料训练模型的基础上使用含有篇章信息的语料进行二次训练以获得捕获全局上下文的能力。在若干基准语料数据集上的实验表明,该文提出的模型与若干强基准模型相比取得了有意义的翻译质量提升。实验进一步表明,结合层次化篇章信息的上下文比仅使用词级别上下文更具优势。除此之外,该文还尝试通过不同方式将全局上下文与翻译模型结合并观察其对模型性能的影响,并初步探究篇章翻译中全局上下文在篇章中的分布情况。  相似文献   

12.
大规模高质量双语平行语料库是构造高质量统计机器翻译系统的重要基础,但语料库中的噪声影响着统计机器翻译系统的性能,因此有必要对大规模语料库中语料进行筛选。区别于传统的语料选择排序模型,本文提出一种基于分类的平行语料选择方法。通过少数句对特征构造差异较大的分类器训练句对,在该训练句对上使用更多的句对特征对分类器进行训练,然后对其他未分类句对进行分类。相比于基准系统,我们的方法不仅缩减40%训练语料规模,同时在NIST测试数据集合上将BLEU值提高了0.87个百分点。  相似文献   

13.
神经机器翻译是目前应用最广泛的机器翻译方法,在语料资源丰富的语种上取得了良好的效果.但是在汉语-越南语这类缺乏双语数据的语种上表现不佳.考虑汉语和越南语在语法结构上的差异性,提出一种融合源语言句法解析树的汉越神经机器翻译方法,利用深度优先遍历得到源语言的句法解析树的向量化表示,将句法向量与源语言词嵌入相加作为输入,训练翻译模型.在汉-越语言对上进行了实验,相较于基准系统,获得了0.6个BLUE值的提高.实验结果表明,融合句法解析树可以有效提高在资源稀缺情况下机器翻译模型的性能.  相似文献   

14.
传统的神经机器翻译模型是一个黑盒子,并不能有效把术语信息添加进去。而利用用户提供的术语词典来联合训练神经机器翻译模型具有实际意义。据此,该文提出融入术语信息的新能源领域Transformer专利机器翻译模型,使用将源端术语替换为目标端术语以及在源端术语后增添目标端术语两种手段进行术语信息融合,实验表明,在构建的新能源领域专利汉英平行语料库和术语库上,提出的专利翻译模型优于Transformer基准模型。并评测了其在人工构建的数据集、中国专利信息中心的数据集及世界知识产权局的数据集上的翻译效果。  相似文献   

15.
神经机器翻译在平行语料充足的任务中能取得很好的效果,然而对于资源稀缺型语种的翻译任务则往往效果不佳.汉语和越南语之间没有大规模的平行语料库,在这项翻译任务中,该文探索只使用容易获得的汉语和越南语单语语料,通过挖掘单语语料中词级别的跨语言信息,融合到无监督翻译模型中提升翻译性能;该文提出了融合EMD(Earth Move...  相似文献   

16.
在机器译文自动评价中,匹配具有相同语义、不同表达方式的词或短语是其中一个很大的挑战。许多研究工作提出从双语平行语料或可比语料中抽取复述来增强机器译文和人工译文的匹配。然而双语平行语料或可比语料不仅构建成本高,而且对少数语言对难以大量获取。我们提出通过构建词的Markov网络,从目标语言的单语文本中抽取复述的方法,并利用该复述提高机器译文自动评价方法与人工评价方法的相关性。在WMT14 Metrics task上的实验结果表明,我们从单语文本中提取复述方法的性能与从双语平行语料中提取复述方法的性能具有很强的可比性。因此,该文提出的方法可在保证复述质量的同时,降低复述抽取的成本。
  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号