首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 109 毫秒
1.
该文对基于传统统计模型的蒙汉机器翻译模型和基于神经网络机器翻译模型进行了研究。其中,神经网络翻译模型分别为基于CNN、RNN的翻译模型,并通过将所有翻译模型结果进行句子级融合得到一个融合模型。面对蒙汉翻译面临资源稀少、蒙古文形态复杂等困难,该文提出多种翻译技术,对各个模型进行改进,并对蒙古文进行形态分析与处理。在翻译效果最好的CNN模型上,采用字和短语融合训练方法;基于RNN的翻译模型除用上述方法外,还采用Giza++指导对齐技术调整RNN注意力机制;针对SMT采用了实验室提出的重对齐技术。该文对实验结果进行了对比和分析,这三种技术方法对相应系统翻译效果有显著提升。此外,蒙古文形态分析与处理对缓解数据稀疏、提升译文质量也有重要作用。  相似文献   

2.
在机器翻译任务中,主流的深度学习算法大多使用词或子词作为基础的语义单元,在词或子词层面学习嵌入表征。然而,词粒度层面存在一系列缺点。该文基于LSTM和Transformer蒙汉翻译模型,对蒙文进行子词粒度切分,对中文分别进行子词和字粒度切分对比实验。实验结果显示,相比于子词粒度切分,基于Transformer的蒙汉翻译模型和基于LSTM的蒙汉翻译模型的字粒度切分有极大的BLEU值提升,字级别的蒙汉翻译模型在验证集和测试集上都显著优于混合字和词的子词级别的蒙汉翻译模型。其表明,字级别的蒙汉翻译模型更能捕捉单元之间的语义联系,提高蒙汉翻译性能。  相似文献   

3.
为提升自动问答交互翻译的准确性,在结合机器翻译基础上,提出一种基于注意力改进CNN的机器翻译自动问答系统。具体则是通过注意力机制对CNN进行改进,以提高传统NMT输入中的语义信息特征,然后通过NMT实现目标语言的翻译。最后,搭建机器翻译自动问答交互模块和实验环境,分别对算法和自动问答交互系统进行验证。结果表明,改进方法的性能较高,准确性达92.3%,同时通过性能测试,表现出良好的交互性。  相似文献   

4.
目前,基于端到端的神经机器翻译(NMT)在大语种上取得了显著的效果,已经成为学术界非常流行的方法,然而该模型的训练严重依赖平行语料库的大小,通常需要上百万句,而西里尔蒙古语和汉语之间的平行语料库严重匮乏,并且人工构建代价昂贵。因此,提出基于对偶学习的西里尔蒙汉互译方法。为了缓解因未登录词导致的译文质量不高的问题,采用BPE(Byte Pair Encoding)技术对语料进行预处理。将通过单语数据预训练的语言模型和20%的平行双语数据预训练的翻译模型作为该模型训练的初始状态。以NMT为基线系统,实验结果表明,该方法达到了与NMT使用西里尔蒙汉全部双语数据相当的效果,有效缓解了因未登录词较多和平行语料库匮乏导致的译文质量不高的问题。  相似文献   

5.
针对蒙汉神经机器翻译过程中出现严重未登录词的问题,利用字节编码技术对蒙汉平行语料进行预处理,实验结果表明字节对编码技术有效缓解了未登录词现象。同时,为缓解蒙汉平行语料不足问题,将迁移学习策略应用到在蒙汉神经机器翻译中,实验结果表明最终的翻译译文提高了1.6个BLEU值。另外,考虑到在神经机器翻译模型中的双语词向量的质量对最终的翻译译文质量有较大影响,将基于Word2vec预训练得到的词向量嵌入到蒙汉神经机器翻译模型中,实验结果表明译文提升了0.6个BLEU值。  相似文献   

6.
孙敏  李旸  庄正飞  余大为 《计算机应用》2020,40(9):2543-2548
针对传统卷积神经网络(CNN)不仅会忽略词的上下文语义信息而且最大池化处理时会丢失大量特征信息的问题,传统循环神经网络(RNN)存在的信息记忆丢失和梯度弥散问题,和CNN和RNN都忽略了词对句子含义的重要程度的问题,提出一种并行混合网络融入注意力机制的模型。首先,将文本用Glove向量化;之后,通过嵌入层分别用CNN和双向门限循环神经网络提取不同特点的文本特征;然后,再把二者提取得到的特征进行融合,特征融合后接入注意力机制判断不同的词对句子含义的重要程度。在IMDB英文语料上进行多组对比实验,实验结果表明,所提模型在文本分类中的准确率达到91.46%而其F1-Measure达到91.36%。  相似文献   

7.
由于内蒙古地区蒙汉机器翻译水平落后、平行双语语料规模较小,利用传统的统计机器翻译方法会出现数据稀疏以及训练过拟合等问题,导致翻译质量不高。针对这种情况,提出基于LSTM的蒙汉神经机器翻译方法,通过利用长短时记忆模型构建端到端的神经网络框架并对蒙汉机器翻译系统进行建模。为了更有效地理解蒙古语语义信息,根据蒙古语的特点将蒙古文单词分割成词素形式,导入模型,并在模型中引入局部注意力机制计算与目标词有关联的源语词素的权重,获得蒙古语和汉语词汇间的对齐概率,从而提升翻译质量。实验结果表明,该方法相比传统蒙汉翻译系统提高了翻译质量。  相似文献   

8.
孙敏  李旸  庄正飞  余大为 《计算机应用》2005,40(9):2543-2548
针对传统卷积神经网络(CNN)不仅会忽略词的上下文语义信息而且最大池化处理时会丢失大量特征信息的问题,传统循环神经网络(RNN)存在的信息记忆丢失和梯度弥散问题,和CNN和RNN都忽略了词对句子含义的重要程度的问题,提出一种并行混合网络融入注意力机制的模型。首先,将文本用Glove向量化;之后,通过嵌入层分别用CNN和双向门限循环神经网络提取不同特点的文本特征;然后,再把二者提取得到的特征进行融合,特征融合后接入注意力机制判断不同的词对句子含义的重要程度。在IMDB英文语料上进行多组对比实验,实验结果表明,所提模型在文本分类中的准确率达到91.46%而其F1-Measure达到91.36%。  相似文献   

9.
在蒙汉神经机器翻译中,输入序列的基本粒度对翻译效果有一定的影响。为了选择合适的翻译粒度,分别对蒙古语和汉语进行词-词、词-子词、子词-词、子词-子词粒度的切分,并对比不同粒度在长短时记忆网络和Transformer翻译模型中的翻译表现。实验结果表明,在两种翻译模型中,对两种语料同时进行子词粒度切分效果最好。  相似文献   

10.
随着科学技术的发展,以循环神经网络为基础的机器翻译方法由于翻译质量更好而逐渐取代统计机器翻译方法,特别是在国际大语种之间的互译方面,RNN在对语料编码时能够提取更好的特征,这对翻译质量好坏至关重要。然而在蒙古语这类小语种的翻译方面,由于语料不足导致的数据稀疏和RNN模型训练梯度消失等问题,很难从语料中充分获取语义关系,因此该文提出一种基于卷积神经网络CNN(convolutional neural network)的蒙汉机器翻译方法,在对源语料编码时利用池化层获取语义关系,并根据蒙古语构词特点得到句子的语义信息,再通过融合全局注意力机制的GRU循环神经网络将编码过后的源语言解码为汉语。实验结果表明,该方法在翻译准确率和训练速度两方面均优于RNN基准机器翻译方法。  相似文献   

11.
机构名翻译是机器翻译的研究内容之一,在机器翻译任务中机构名翻译的准确度,直接影响着翻译性能。在很多任务上,神经机器翻译性能优于传统的统计机器翻译性能,该文中使用基于transformer神经网络模型与传统的基于短语的统计机器翻译模型和改进后的基于语块的机器翻译模型做了对比试验。实验结果表明,在汉蒙机构名翻译任务上,基于transformer神经网络的汉蒙机构名翻译系统优于传统的基于语块的汉蒙机构名翻译系统,BLEU4值提高了0.039。  相似文献   

12.
神经网络机器翻译是最近几年提出的机器翻译方法,在多数语言对上逐渐超过了统计机器翻译方法,成为当前机器翻译研究前沿热点。该文在藏汉语对上进行了基于注意力的神经网络机器翻译的实验,并采用迁移学习方法缓解藏汉平行语料数量不足问题。实验结果显示,该文提出的迁移学习方法简单有效,相比短语统计机器翻译方法,提高了三个BLEU值。从译文分析中可以看出藏汉神经网络机器翻译的译文比较流畅,远距离调序能力较强,同时也存在过度翻译、翻译不充分、翻译忠实度较低等神经网络机器翻译的共同不足之处。  相似文献   

13.
神经网络机器翻译模型在蒙古文到汉文的翻译任务上取得了很好的效果。神经网络翻译模型仅利用双语语料获得词向量,而有限的双语语料规模却限制了词向量的表示。该文将先验信息融合到神经网络机器翻译中,首先将大规模单语语料训练得到的词向量作为翻译模型的初始词向量,同时在词向量中加入词性特征,从而缓解单词的语法歧义问题。其次,为了降低翻译模型解码器的计算复杂度以及模型的训练时间,通常会限制目标词典大小,这导致大量未登录词的出现。该文利用加入词性特征的词向量计算单词之间的相似度,将未登录词用目标词典中与之最相近的单词替换,以缓解未登录词问题。最终实验显示在蒙古文到汉文的翻译任务上将译文的BLEU值提高了2.68个BLEU点。  相似文献   

14.
长距离调序是统计机器翻译领域的一个重要问题.层次短语模型提供了一个很好的解决方案,它使用层次短语规则可以很好地表示局部调序和长距离调序.但是,使用传统的算法抽取长距离层次规则将会导致规则表数量急剧增加,从而加大解码内存和时间消耗.为了解决这个问题,该文提出了一种利用依存限制抽取长距离调序规则的新方法.实验表明,该文的方...  相似文献   

15.
在神经机器翻译中,因词表受限导致的集外词问题很大程度上影响了翻译系统的准确性。对于训练语料较少的资源稀缺型语言的神经机器翻译,这种问题表现得更为严重。近几年,受到外部知识融入的启发,该文在RNNSearch模型基础上,提出了一种融入分类词典的汉越混合网络神经机器翻译集外词处理方法。对于给定的源语言句子,扫描分类词典以确定候选短语句对并标签标记,解码端利用词级组件和短语组件的混合解码网络,很好地生成单词集外词和短语集外词的翻译,从而改善汉越神经机器翻译的性能。在汉越、英越和蒙汉翻译实验上表明,该方法显著提高了准确率,对于资源稀缺型语言的神经机器翻译性能有一定的提升。  相似文献   

16.
统计机器翻译一般采用启发式方法训练翻译模型。但启发式方法的理论基础不够完善,因此,会导致翻译模型规模庞大以及模型参数精确率不高。针对以上两个问题,该文提出一种基于变分贝叶斯推理的模型训练方法,形成更精确的精简翻译模型。该方法首先通过强制解码对齐语料,然后利用变分贝叶斯EM算法获得模型参数。该文的实验语料为NIST汉英翻译任务数据,实验结果显示,基于句法(基于短语)的统计机器翻译中,超过95%(76%)的规则被剪枝,且BLEU值显著提高。  相似文献   

17.
近年来,端到端的神经机器翻译方法由于翻译准确率高,模型结构简单等优点已经成为机器翻译研究的重点,但其依然存在一个主要的缺点,该模型倾向于反复翻译某些源词,而错误地忽略掉部分词。针对这种情况,采用在端到端模型的基础上添加重构器的方法。首先利用Word2vec技术对蒙汉双语数据集进行向量化表示,然后预训练端到端的蒙汉神经机器翻译模型,最后对基于编码器-解码器重构框架的蒙汉神经机器翻译模型进行训练。将基于注意力机制的蒙汉神经机器翻译模型作为基线系统。实验结果表明,该框架显著提高了蒙汉机器翻译的充分性,比传统的基于注意力机制的蒙汉机器翻译模型具有更好的翻译效果。  相似文献   

18.
Machine Translation - We investigated multiple pivot approaches for the Japanese and Indonesian (Ja–Id) language pair in phrase-based statistical machine translation (SMT). We used four...  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号