首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 187 毫秒
1.
近年来,随着人工智能和深度学习的发展,神经机器翻译在某些高资源语言对上取得了接近人类水平的效果。然而对于低资源语言对如汉语和蒙古语,神经机器翻译的效果并不尽如人意。为了提高蒙汉神经机器翻译的性能,该文基于编码器—解码器神经机器翻译架构,提出一种改善蒙汉神经机器翻译结果的方法。首先将蒙古语和汉语的词向量空间进行对齐并用它来初始化模型的词嵌入层,然后应用联合训练的方式同时训练蒙古语到汉语的翻译和汉语到蒙古语的翻译。并且在翻译的过程中,最后使用蒙古语和汉语的单语语料对模型进行去噪自编码的训练,增强编码器的编码能力和解码器的解码能力。实验结果表明该文所提出方法的效果明显高于基线模型,证明该方法可以提高蒙汉神经机器翻译的性能。  相似文献   

2.
张文  冯洋  刘群 《中文信息学报》2018,32(10):36-44
基于注意力机制的神经网络机器翻译模型已经成为目前主流的翻译模型,在许多翻译方向上均超过了统计机器翻译模型,尤其是在训练语料规模比较大的情况下,优势更加明显。该模型使用编码器—解码器框架,将翻译任务建模成序列到序列的问题。然而,在基于门控循环单元(gated recurrent unit, GRU)的编码器—解码器模型中,随着模型层数的增加,梯度消失的问题使模型难以收敛并且严重退化,进而使翻译性能下降。该文使用了一种简单循环单元(simple recurrent unit, SRU)代替GRU单元,通过堆叠网络层数加深编码器和解码器的结构,提高了神经网络机器翻译模型的性能。我们在德语—英语和维语—汉语翻译任务上进行了实验,实验结果表明,在神经网络机器翻译模型中使用SRU单元,可以有效地解决梯度消失带来的模型难以训练的问题;通过加深模型能够显著地提升系统的翻译性能,同时保证训练速度基本不变。此外,我们还与基于残差连接(residual connections)的神经网络机器翻译模型进行了实验对比,实验结果表明,我们的模型有显著性优势。  相似文献   

3.
多语言神经机器翻译利用单一的编码器-解码器模型对多种语言之间的翻译同时进行建模.多语言神经机器翻译不仅能够促进关联语言之间的知识迁移,提高低资源语言的翻译质量,并且能够实现未见语言对之间的翻译.现有多语言神经机器翻译仍然存在语言多样性建模能力不足和未见语言对翻译质量不佳的问题.为此,首先在现有的适配器模型基础上提出变维...  相似文献   

4.
基于神经网络模型的蒙汉机器翻译严格采用编码器-解码器的序列建模方式,不能有效利用句法信息以及语言的层次结构信息。为将句法结构信息融入蒙汉机器翻译以提高其翻译性能,提出在源语言端采用双编码器,同时对源句和由源句解析而来的句法依存树进行编码;由于蒙汉机器翻译中经常会出现未登录词问题,因此将使用字节对编码技术预处理蒙古语。为解决机器翻译中的过度矫正问题,在训练阶段,模型以一定的概率从正确标注的序列中和预测生成的序列中采样上下文单词。在120万蒙汉平行语料的实验中证明,该方法相较于传统的BiRNN和CNN,BLEU值分别提高了2.69和2.09。  相似文献   

5.
神经机器翻译(NMT)在多个领域应用中已取得显著成效,在大规模语料库上已充分论证其优越性。然而,在语料库资源不足的情形下,仍存在较大的改进空间。由于汉语-马来语(汉-马)平行语料的匮乏,直接导致了汉-马机器翻译的翻译效果不佳。为解决汉-马低资源机器翻译不理想的问题,提出了一种基于深度编码注意力和渐进式解冻的低资源神经机器翻译方法。首先,利用XLNet预训练模型重构编码器,在编码器中使用了XLNet动态聚合模块替代了传统编码层的输出方式,有效弥补了低资源汉-马语料匮乏的瓶颈;其次,在解码器中使用并行交叉注意力模块对传统编码-解码注意力进行了改进,提升了源词和目标词的潜在关系的捕获能力;最后,对提出模型采用渐进式解冻训练策略,最大化释放了模型的性能。实验结果表明,提出方法在小规模的汉-马数据集上得到了显著的性能提升,验证了方法的有效性,对比其他的低资源NMT方法,所提方法结构更为精简,并改进了编码器和解码器,翻译效果提升更加显著,为应对低资源机器翻译提供了有效的策略与启示。  相似文献   

6.
神经机器翻译在资源丰富语言对中取得良好性能,但这种性能的取得通常以大规模的平行语料为前提。在民族语言与汉语之间仅存在小规模双语平行句对的情况下,该文提出把机器翻译中的数据增强技术融入多任务学习框架提升翻译性能。首先,通过对目标端句子进行简单的变换(如词序调整、词替换等)以产生非准确的新句子增强噪声;其次,将上述扩增的伪平行语料作为辅助任务融入一个多任务学习框架中以充分训练编码器,并使神经网络将注意力转移到如何使编码器中的源语言句子拥有更丰富准确的表示。通过在全国机器翻译大会(CCMT 2021)蒙汉、藏汉以及维汉3种机器翻译评测数据集上进行6个方向的互译实验,结果表明,在上述民汉翻译任务上,该文方法均显著优于基线系统及多种常见的机器翻译数据增强方法。  相似文献   

7.
将RNN编码器-解码器作为传统的基于短语的PSMT系统的一部分,在传统统计机器翻译基础上,集成RNN解码器-编码器,兼容PSMT创建了新联合模型(RNN+PSMT)。新的模型不仅在维-汉、汉-英机器翻译的应用中取得了成效,而且能够捕捉到语言的规律,使得机器翻译中的一个重要评价指标的BLEU值得到了显著提高。实验结果表明,系统的整体性能超过了传统统计机器翻译。  相似文献   

8.
针对维汉机器翻译中单个翻译模型翻译效果差且多个翻译模型间翻译差异较大的问题,提出一种基于释义信息的系统融合方法。通过提取汉语端释义信息对汉语翻译假设进行词对齐,利用词对齐信息构建并解码混淆网络,从而得到维汉机器翻译系统融合结果。实验结果表明,与单个翻译系统HPSTW相比,该方法能够有效提高翻译质量。  相似文献   

9.
基于编码—解码(端到端)结构的机器翻译逐渐成为自然语言处理之机器翻译的主流方法,其翻译质量较高且流畅度较好,但依然存在词汇受限、上下文语义信息丢失严重等问题。该文首先进行语料预处理,给出一种Transformer-CRF算法来进行蒙古语词素和汉语分词的预处理方法。然后构建了基于Tensor2Tensor的编码—解码模型,为了从蒙古语语料中学习更多的语法和语义知识,该文给出了一种基于词素四元组编码的词向量作为编码器输入,解码阶段。为了进一步缓解神经网络训练时出现的词汇受限问题,该文将专有名词词典引入翻译模型来进一步提高翻译质量和译文忠实度。根据构建模型对不同长度句子进行实验对比,表明模型在处理长时依赖问题上翻译性能得到提高。  相似文献   

10.
资源丰富场景下,利用相似性翻译作为目标端原型序列,能够有效提升神经机器翻译的性能.然而在低资源场景下,由于平行语料资源匮乏,导致不能匹配得到原型序列或序列质量不佳.针对此问题,提出一种基于多种策略进行原型生成的方法.首先结合利用关键词匹配和分布式表示匹配检索原型序列,如未能获得匹配,则利用伪原型生成方法产生可用的伪原型序列.其次,为有效地利用原型序列,对传统的编码器-解码器框架进行改进.编码端使用额外的编码器接收原型序列输入;解码端在利用门控机制控制信息流动的同时,使用改进的损失函数减少低质量原型序列对模型的影响.多个数据集上的实验结果表明,相比基线模型,所提出的方法能够有效提升低资源场景下的机器翻译性能.  相似文献   

11.
该文通过构建古汉语词典模型,结合黎锦熙先生提出的句本位句法相关规则构造知识库,使用词义消歧算法,对古汉语进行基于规则的机器翻译研究。实验以基于句本位语法进行句法标注后的《论语》作为测试语料,以句子为单位进行机器翻译,通过获取待选义项、构建义项选择模型、调整句法顺序等手段生成翻译结果集,并使用二元语法模型对结果进行优选,得到机器翻译最终结果,最后对翻译结果进行了分析测评。  相似文献   

12.
基于自动句对齐的相似古文句子检索   总被引:3,自引:0,他引:3  
郭锐  宋继华  廖敏 《中文信息学报》2008,22(2):87-91,105
随着语料库语言学的兴起,基于实例的机器翻译(EBMT)得到越来越多的研究。如何快速准确地构建大规模古今汉语平行语料库,以及从大量的对齐实例(句子级)中检索和输入句子最相似的源句子是基于实例的古今汉语机器翻译必须解决的问题。本文综合考虑句子长度、汉字字形、标点符号三个因素提出了古今汉语句子互译模型,基于遗传算法、动态规划算法实现了古今汉语的自动句对齐。接着为古文句子建立全文索引,基于汉字的信息熵,本文设计与实现一种高效的最相似古文句子检索算法。最后给出了自动句对齐和最相似古文句子检索的实验结果。  相似文献   

13.
在机器翻译任务中,输入端的一些微小的干扰信息,可能引起NMT的模型翻译性能的下降。该文提出了一种融入对抗学习的神经机器翻译方法。给出一个源句子序列,构造了一个将源句子添加了微小噪声的新序列,并且两者的语义相近。然后把这两个序列交由编码器处理,产生各自的向量表示;并将处理结果交给判别器和解码器做进一步处理,最后比较加入噪声前后的翻译性能。实验表明,在多个语言对的翻译任务上,使用该模型的方法不仅提升了翻译性能,而且对噪声输入也表现出了鲁棒性。  相似文献   

14.
基于目标语词汇组合合理性评价的译文选择模型   总被引:1,自引:0,他引:1  
机器翻译使用计算机实现自然语言的翻译功能,是计算机技术在语言学领域的新兴应用和研究,其中,源语言词汇的译文选择直接决定机器翻译的质量,是人们关注的难题,基于目标语词汇组合合理性评价的模糊分类模型试图以语言学和模糊数学为理论基础,尝试解决歧义词的译文选择问题,将该模型用于英汉机器翻译系统的译文选择实验,具有良好的译文选择性能,它的优势还在于可以同时为全句范围内的所有歧义词选择译文,因此适用于机器翻译的大规模开发任务。  相似文献   

15.
一种维吾尔语句子相似度算法的研究   总被引:1,自引:0,他引:1       下载免费PDF全文
基于实例的机器翻译是一种重要的机器翻译技术,句子相似度的衡量是基于实例机器翻译研究中最重要的一个内容。对于基于实例的维吾尔语机器翻译研究,维吾尔语句子相似度衡量的准确性,直接影响到最后翻译结果的输出。提出了一种维吾尔语句子相似度的计算方法,采用的基于词形特征的粗选算法、散列单词倒排索引能够有效提高算法的查找速度,快速从语料库中筛选出候选句子集合;多策略精选算法中采用基于维吾尔语词频的单词区分度算法、连续单词序列抽取算法,可以有效衡量两个维吾尔语句子的相似程度,实验结果证明算法是有效的。  相似文献   

16.
Machine Translation - Neural machine translation (NMT) has emerged as a preferred alternative to the previous mainstream statistical machine translation (SMT) approaches largely due to its ability...  相似文献   

17.
基于序列相交的短语译文获取   总被引:2,自引:2,他引:0  
短语译文获取技术是基于实例的机器翻译(EBMT)中的核心技术之一,其准确率直接影响到EBMT系统的性能。该文提出了一种基于序列相交的短语译文获取方法,该方法将句子视为词的序列,利用对中日句对齐语料库中包含待译短语的所有源语句子对应的目标语句子进行序列相交的方式,在不需要词对齐、句法分析及词典等资源的情况下,通过充分挖掘句对齐双语语料库的信息,获得高质量的短语译文。实验表明,该方法获得的短语译文准确率超过80%。  相似文献   

18.
在对机器翻译发展艰难历程总结和反思的基础上,提出了以用户模型为核心的知识管理与机器翻译技术融合的新思想。2008年7月该成果通过了中国中文信息学会在京组织的鉴定,鉴定委员会一致认为“研制单位基于其所承担的国家863课题机器翻译和知识管理技术的融合研发的基于知识管理和智能控制的协同翻译平台已圆满完成。该项研究在利用知识管理技术实现人机双向协同翻译方面达到国际领先水平。”本文对平台研制的思想与方法、设计与实现、分析与应用、历程与展望进行了阐述。  相似文献   

19.
上下文信息对于统计机器翻译(Statistical Machine Translation,SMT)中的规则选择是很重要的,但是之前的SMT模型只利用了句子内部的上下文信息,没有利用到整个篇章的上下文信息。该文提出了一种利用篇章上下文信息的方法来提高规则选择的准确性,从而提高翻译的质量。首先利用向量空间模型获得训练语料的文档和测试集中文档的相似度,然后把相似度作为一个新的特征加入到短语模型中。实验结果表明,在英语到汉语的翻译工作中,该方法可以显著提高翻译质量。在NIST-08和CWMT-08两个测试集上BLEU值都有显著的提高。  相似文献   

20.
神经机器翻译自兴起以来,不断给机器翻译领域带来振奋人心的消息。但神经机器翻译没有显式地利用语言学知识对句子结构进行分析,因此对结构复杂的长句翻译效果不佳。该文基于分治法的思想,识别并抽取句子中的最长名词短语,保留特殊标识或核心词,与其余部分组成句子框架。通过神经机器翻译系统分别翻译最长名词短语和句子框架,再将译文重新组合,缓解了神经机器翻译对句子长度敏感的问题。实验结果表明,该方法获得的译文与基线系统相比,BLEU分值提升了0.89。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号