首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 125 毫秒
1.
近年来,为了提高统计机器翻译系统的准确性,普遍应用海量语料训练出大规模语言模型和翻译模型.而模型规模的不断增大,给统计机器翻译带来了突出的计算性能问题,使得现有的单机串行化翻译处理难以在较快的时间内完成计算,该问题在处理联机翻译时更为突出.为了克服单机机器翻译算法在这方面的局限性,提高大规模统计机器翻译处理的计算性能,面向一个实际的联机翻译系统,提出了一个分布式和并行化翻译解码算法框架,对整个大规模语言模型和翻译模型同时采用分布式存储和并行化查询机制,在此基础上进一步研究实现完整的翻译解码并行化算法.研究实现了一个基于分布式内存数据库的层次短语并行化机器翻译解码器,该解码器使用分布式内存数据库存储和查询大数据量的翻译模型表和语言模型表,克服了传统的机器翻译系统所面临的内存容量和并发度方面的限制.为了进一步提高并行解码速度,还研究实现了另外3项优化技术:1)将翻译模型表的同步规则和Trie树结构的语言模型表转化为基于内存数据库的"键-值"结构的Hash索引表的方法;2)对Cube-Pruning算法进行了修改使其适用于批量查询;3)采用并优化了批量查询方式减少语言和翻译模型查询时的网络传输开销.所提出的解码算法实现了基于大规模语料统计机器翻译时的快速解码,并具备优异的系统可扩展性.实验结果表明:与单机解码器相比,单句翻译速度可提高2.7倍,批量翻译作业的总体解码性能可提高至少11.7倍,实现了显著的计算性能提升.  相似文献   

2.
将RNN编码器-解码器作为传统的基于短语的PSMT系统的一部分,在传统统计机器翻译基础上,集成RNN解码器-编码器,兼容PSMT创建了新联合模型(RNN+PSMT)。新的模型不仅在维-汉、汉-英机器翻译的应用中取得了成效,而且能够捕捉到语言的规律,使得机器翻译中的一个重要评价指标的BLEU值得到了显著提高。实验结果表明,系统的整体性能超过了传统统计机器翻译。  相似文献   

3.
为提升维汉机器翻译模型的翻译能力,该文提出使用多编码器多解码器的结构,搭建大规模的维汉神经网络机器翻译模型。相比于单编码器单解码器的浅层的小模型,多编码器多解码器模型具有多个编码器,可以对源语言进行多层次、多视角的压缩表示;同时具有多个解码器,可以增强目标语言的生成能力。实验证明,在大规模的训练数据上,使用该方法搭建的大规模维汉神经网络机器翻译模型,译文质量可以大幅度地超过基于短语的统计机器翻译模型和基本的神经网络翻译模型。该文还针对维汉翻译源端语言和目标端语言的翻译单元粒度进行了实验,发现维吾尔语端使用字节对编码单元、汉语端使用字单元,可以消除对汉语分词器的依赖,做到和双端都使用字节对编码单元可比的效果。  相似文献   

4.
基于句法的统计机器翻译综述   总被引:1,自引:0,他引:1  
本文对基于句法的统计机器翻译进行了综述。按照模型所基于的语法不同,将基于句法的统计机器翻译分为两大类 基于形式化语法和基于语言学语法。对这两个不同类别,我们分别介绍它们代表性的工作,包括模型的构建、训练和解码器的设计等,并对比了各个模型的优点和缺点。最后我们对基于句法的统计机器翻译进行了总结,指出设计句法模型时要注意的问题,并对未来的发展趋势进行了预测。  相似文献   

5.
张文  冯洋  刘群 《中文信息学报》2018,32(10):36-44
基于注意力机制的神经网络机器翻译模型已经成为目前主流的翻译模型,在许多翻译方向上均超过了统计机器翻译模型,尤其是在训练语料规模比较大的情况下,优势更加明显。该模型使用编码器—解码器框架,将翻译任务建模成序列到序列的问题。然而,在基于门控循环单元(gated recurrent unit, GRU)的编码器—解码器模型中,随着模型层数的增加,梯度消失的问题使模型难以收敛并且严重退化,进而使翻译性能下降。该文使用了一种简单循环单元(simple recurrent unit, SRU)代替GRU单元,通过堆叠网络层数加深编码器和解码器的结构,提高了神经网络机器翻译模型的性能。我们在德语—英语和维语—汉语翻译任务上进行了实验,实验结果表明,在神经网络机器翻译模型中使用SRU单元,可以有效地解决梯度消失带来的模型难以训练的问题;通过加深模型能够显著地提升系统的翻译性能,同时保证训练速度基本不变。此外,我们还与基于残差连接(residual connections)的神经网络机器翻译模型进行了实验对比,实验结果表明,我们的模型有显著性优势。  相似文献   

6.
对基于语义匹配和BiLSTM的机器翻译技术实现的方法进行了研究与设计,以中英翻译为例,搭建了一种基于BERT-BiLSTM机器翻译模型。首先,选择BiLSTM网络与基于BERT的语义匹配模型作为词向量生成算法,对待翻译的文本特征进行提取;然后,以BiLSTM网络为载体搭建基于BiLSTM网络的编码器,并引入词素切分方法,解决英语时态多变导致编码时容易出现歧义的问题;同时搭建基于BERT的注意力层对中英双语词语的对齐概率进行计算;并由单个隐藏层的解码器进行解码操作;最后,对词向量生成算法与机器翻译模型进行实验测试。测试结果表明:设计的BERT-BiLSTM词向量生成模型精确度为91.87%,准确率达97.01%,较对照组的三种模型平均提高了3.3%;基于BERT-BiLSTM的机器翻译模型的平均BLEU值为94.88%,比其他三种机器翻译模型提高了6%左右;表明BERT-BiLSTM模型更适合作为中英机器翻译的词向量生成算法,机器翻译模型的翻译质量得到大幅提高。  相似文献   

7.
李政 《信息与电脑》2022,(22):109-111
文章通过深度学习方法,提升统计机器翻译精准度为当前重要研究方向。统计机器翻译基于语言模型进行分析,对神经网络语言模型在统计机器翻译中的应用进行研究。通过基于词和短语的神经网络语言模型在汉-英、汉-日中的应用进行测试。测试结果表明,该模型可有效提高统计机器翻译水平。  相似文献   

8.
基于短语统计翻译的汉维机器翻译系统   总被引:1,自引:0,他引:1  
杨攀  李淼  张建 《计算机应用》2009,29(7):2022-2025
描述了一种基于短语统计翻译的汉维机器翻译系统。首先使用汉维语料进行训练,得到语言模型和翻译模型;再利用训练好的模型对源语句进行解码,以得到最佳的翻译语句。解码的核心算法是柱搜索(beam search)算法。其中维文语料使用的是拉丁维文。实验结果表明,基于短语的统计机器翻译方法可以快速有效地构建一个汉维机器翻译平台。  相似文献   

9.
面向移动终端的统计机器翻译需求越来越多,但无浮点运算单元的处理器限制了翻译速度。该文提出了一种对统计机器翻译解码运算的定点化运算方法,缓解了无浮点运算单元的处理器对翻译速度的影响。基于PC和移动终端的实验表明,在保证翻译质量的情况下,利用定点处理浮点运算的解码器的运算速度较编译器模拟的浮点运算速度提高135.6%。因此,该方法可以有效地提高浮点运算能力薄弱的移动终端统计机器翻译速度。  相似文献   

10.
提出了一种基于智能模糊决策树算法的英语分级机器翻译模型(HEMTM)。通过搜索与分层英语机器翻译并基于英语机器翻译的特征构建了模型。在该模型中,根据语言受欢迎程度和语义重要性对机器翻译的准确性进行排名。研究结果显示,当采用HEMTM模型等级为CFGrank时,构建的模型具有较高的准确性;在n =60, δ=0情况下,基本模型构建的准确性为68%。该模型可为英语机器翻译算法研究提供参考。  相似文献   

11.
在单语语料的使用上,统计机器翻译可通过利用语言模型提高性能,而神经机器翻译很难通过这种方法有效利用单语语料.针对此问题,文中提出基于句子级双语评估替补(BLEU)指标挑选数据的半监督神经网络翻译模型.分别利用统计机器翻译和神经机器翻译模型对无标注数据生成候选翻译,然后通过句子级BLEU指标挑选单语候选翻译,加入到有标注的数据集中进行半监督联合训练.实验表明,文中方法能高效利用无标注的单语语料,在NIST汉英翻译任务上,相比仅使用精标的有标注数据单系统,文中方法BLEU值有所提升.  相似文献   

12.
针对汉语—维吾尔语的统计机器翻译系统中存在的语义无关性问题,提出基于神经网络机器翻译方法的双语关联度优化模型。该模型利用注意力机制捕获词对齐信息,引入双语短语间的语义相关性和内部词汇匹配度,预测双语短语的生成概率并将其作为双语关联度,以优化统计翻译模型中的短语翻译得分。在第十一届全国机器翻译研讨会(CWMT 2015)汉维公开机器翻译数据集上的实验结果表明,与基线系统相比,在使用较小规模的训练数据和词汇表的条件下,所提方法可以有效地同时提高短语级别和句子级别的机器翻译任务性能,分别获得最高2.49和0.59的BLEU值提升。  相似文献   

13.
该文结合最小上下文构成代价模型,借鉴并利用统计机器翻译的方法,尝试解决蒙古文形态切分问题。基于短语的统计机器翻译形态蒙文切分模型和最小上下文构成代价模型分别对词表词和未登录词进行形态切分。前者选取了短语机器翻译系统中三个常用的模型,包括短语翻译模型、词汇化翻译模型和语言模型,最小上下文构成代价模型考虑了一元词素上下文环境和词缀N-gram上下文环境。实验结果显示 基于短语统计机器翻译形态切分模型对词表词切分,最小上下文构成代价模型对未登录词处理后,总体的切分准确率达到96.94%。此外,词素融入机器翻译系统中后,译文质量有了显著的提高,更进一步的证实了本方法的有效性和实用性。  相似文献   

14.
一个基于JAVA的堆栈式自然语言翻译解码器   总被引:1,自引:0,他引:1  
解码是统计学自然语言翻译系统的重要一步,解码器的任务是用从训练文本中学习到的语言/翻译模型的信息来确定源句子最可能的翻译句子,解码器的输入是翻译模型和语言模型,以及源语言句子,输出源语言句子最可能的对应目标句子/翻译。由于可能的目标句子很多,通常解码算法只能搜索一小部分可能的目标语言句子。该文介绍了一种基于堆栈算法的,用Java实现的解码器。Java平台提供了方便的跨平台的应用,高度安全、开放、健壮。解码器的实现重点在于解码算法和参数的选择。  相似文献   

15.
该文总结了我们近几年来在基于句法的统计机器翻译方面所做的研究工作,特别是基于源语言句法的一系列统计机器翻译模型与方法,具体包括 基于最大熵括号转录语法的翻译模型,基于源语言短语结构树的树到串翻译模型及其相应的基于树的翻译方法,基于森林的翻译方法和句法分析与解码一体化翻译方法,基于源语言依存树的翻译模型。  相似文献   

16.
汉蒙统计机器翻译中的调序方法研究   总被引:1,自引:0,他引:1  
在基于短语的汉蒙统计机器翻译系统的研究中,我们发现存在着严重的语序错误。该文在对汉语和蒙古语句子语序进行研究的基础上,提出了基于蒙古语语序的汉语句子调序方法; 同时介绍了调序规则和调序算法的设计;最后给出了具体实验。实验证明这种方法明显提高了现有汉蒙机器翻译系统的性能。  相似文献   

17.
长距离调序是统计机器翻译领域的一个重要问题.层次短语模型提供了一个很好的解决方案,它使用层次短语规则可以很好地表示局部调序和长距离调序.但是,使用传统的算法抽取长距离层次规则将会导致规则表数量急剧增加,从而加大解码内存和时间消耗.为了解决这个问题,该文提出了一种利用依存限制抽取长距离调序规则的新方法.实验表明,该文的方...  相似文献   

18.
GLR算法模型翻译识别结果存在数据点重合的情况,精确度无法得到有效保障。为了准确的识别短语,设计了基于改进GLR算法的短语智能识别算法,该算法构建标记规模约74万个英汉单词的短语语料库,使短语具备可搜索功能,通过短语中心点构建短语结构,可获得词性识别结果,依据解析线性表的句法功能校正词性识别结果中的英汉结构歧义,最终获得识别的内容。实际测评结果显示,该算法克服了GLR的弊端,相对统计算法和动态记忆算法提高了运算速度和处理性能,更加适合机器翻译任务,为在智能机器翻译领域提供了新的思路。  相似文献   

19.
针对基于短语统计机器翻译中目前常用的Och提出的短语抽取算法,提出了一种改进算法。该算法能够在原有算法的基础上抽取出更多的准确对齐信息,这对语料库较小的汉民统计机器来说意义重大,增加正确的对齐信息可以减少未登录词的产生,提高翻译正确率。经过对不同规模语料库的实验,抽取的短语对数目有明显增多。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号