首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 62 毫秒
1.
《计算机工程》2017,(12):179-183
为有效利用领域知识提高汉越冶金领域的机器翻译效果,利用术语与主题的分布关系约束术语的选择,提出融合主题的统计机器翻译方法。建立术语翻译模型,抽取短语概率表时将术语对源语言文档的主题信息融入到翻译概率表中,利用主题分布描述术语与主题之间的关系,同时使用冶金领域语料训练翻译模型,将2个模型融合到基于短语的汉越翻译系统解码过程中,指导选择出最符合领域特性的术语及译文。融合模型前后的对比实验结果表明,与基于短语的机器翻译方法相比,该方法可有效提高汉越冶金领域的翻译性能。  相似文献   

2.
统计机器翻译从诞生至今获得了长足的发展,目前已经成为机器翻译的主流.但是作为基础模块之一的翻译模型却随训练语料的增大而呈现飞速增大的趋势.为了使统计机器翻译更加实用,翻译模型的约简一直是研究热点之一.概述了统计机器翻译中翻译模型约简的研究现状,相关方法主要围绕解码过程统计分析、训练语料中的统计分析、翻译模型中的短语对自身特点分析等三个类别.结合相关分析,最后也探讨了这个方向的未来发展趋势.  相似文献   

3.
在融合翻译记忆和统计机器翻译的整合式模型的基础上,该文提出在解码过程中进一步地动态加入翻译记忆中新发现的短语对。它在机器翻译解码过程中,动态地加入翻译记忆片段作为候选,并利用翻译记忆的相关信息,指导基于短语的翻译模型进行解码。实验结果表明该方法显著提高了翻译质量: 与翻译记忆系统相比,该方法提高了21.15个BLEU值,降低了21.47个TER值;与基于短语的翻译系统相比,该方法提高了5.16个BLEU值,降低了4.05个TER值。  相似文献   

4.
刘颖  姜巍 《计算机科学》2013,40(2):214-217
扩展HMM模型可以解决词语对齐结果与句法约束冲突,从而更好地进行词语对齐。在短语对齐基础上利 用目标语言的短语结构树抽取翻译规则。采用扩展CYK算法CYKA+作为系统的解码器,该算法可以处理非乔姆 斯基范式的翻译规则;采用两轮解码算法在解码过程中整合语言模型。实验表明,与传统词语对齐模型相比,改进的 HMM词语对齐模型具有更高的对齐准确率,并且翻译结果的BLEU评测得分更高。采用翻译规则的系统在不同数 据集上具有更稳定的翻译结果。两轮解码算法与立方剪枝算法具有相近的解码质量,但前者解码速度更快。  相似文献   

5.
基于短语统计翻译的汉维机器翻译系统   总被引:1,自引:0,他引:1  
杨攀  李淼  张建 《计算机应用》2009,29(7):2022-2025
描述了一种基于短语统计翻译的汉维机器翻译系统。首先使用汉维语料进行训练,得到语言模型和翻译模型;再利用训练好的模型对源语句进行解码,以得到最佳的翻译语句。解码的核心算法是柱搜索(beam search)算法。其中维文语料使用的是拉丁维文。实验结果表明,基于短语的统计机器翻译方法可以快速有效地构建一个汉维机器翻译平台。  相似文献   

6.
汉蒙统计机器翻译中的形态学方法研究   总被引:1,自引:1,他引:1  
该文将形态学方法引入到汉蒙统计机器翻译的研究中,尝试解决译文词形选择及语序混乱问题。首先介绍语料库的准备对原始汉蒙平行语料库进行词法分析及标注,得到两组基础语料库,再由基础语料库生成两组用于形态学实验的派生语料库。其次阐述统计模型的训练,包括语言模型、翻译模型及生成模型。同时讨论了解码的扩展问题。最后重点分析两组形态学方法实验词素模型实验和factored方法实验。结果表明,相对于基线(baseline)实验,引入形态学方法后两组实验的BLEU评分均有所提高,译文词形选择及语序混乱问题得到了一定程度的解决。  相似文献   

7.
统计机器翻译的准确性在很大程度上取决于翻译建模的质量,而翻译建模往往依赖于数据的分布。通常,大多数机器学习任务会假设训练数据和测试数据是独立同分布的,然而在实际的系统中,这种假设未必成立。因此,为了达到性能的最优,需要根据数据分布的情况对模型进行适当的迁移。近年来,领域自适应技术成为统计机器翻译研究中的一个热点话题,目的在于解决训练数据和测试数据的领域分布不一致问题。本文介绍了几类流行的统计机器翻译领域自适应方法,并对未来的研究提出一些展望。  相似文献   

8.
2005统计机器翻译研讨班研究报告   总被引:4,自引:1,他引:4  
2005年7月13日至15日,中国科学院自动化研究所、计算技术研究所和厦门大学计算机系联合举办了我国首届统计机器翻译研讨班。本文主要介绍本次研讨班参加单位的测试系统和实验结果,并给出相应的分析。测试结果表明,我国的统计机器翻译研究起步虽晚,但已有快速进展,参评系统在短期内得到了较好的翻译质量,与往年参加863评测的基于规则方法的系统相比性能虽还有差距,但差距已经不大。从目前国际统计机器翻译研究的现状和发展趋势来看,随着数据资源规模的不断扩大和计算机性能的迅速提高,统计机器翻译还有很大的发展空间。在未来几年内,在基于短语的主流统计翻译方法中融入句法、语义信息,必将成为机器翻译发展的趋势。  相似文献   

9.
基于短语模板对齐的统计机器翻译系统   总被引:1,自引:0,他引:1  
论文提出了一种基于短语模板对齐的机器翻译系统.系统采用基于短语模板对齐的翻译模型替代原始基于词的模型,提出了计算短语模板翻译概率的方法,改进了先前单纯基于短语的搜索算法和回溯方法,解码时引入繁衍度为0且出现频率高的词,使翻译结果更合理.论文进行了一系列实验,介绍了05年863评测,证明本系统翻译结果的Bleu得分比原来的系统有了显著提高.  相似文献   

10.
机器翻译技术现状与展望   总被引:1,自引:0,他引:1  
刘群 《集成技术》2012,1(1):48-54
本文对机器翻译技术的研究现状进行了全面介绍,分析了亟待解决的核心问题,并对机器翻译的未来发展前景和趋势提出了自己的设想。  相似文献   

11.
为了解决在构建统计机器翻译系统过程中所面临的双语平行数据缺乏的问题,该文提出了一种新的基于中介语的翻译方法,称为Transfer-Triangulation方法。该方法可以在基于中介语的翻译过程中,结合传统的Transfer方法和Triangulation方法的优点,利用解码中介语短语的方法改进短语表。该文方法是在使用英语作为中介语的德-汉翻译任务中进行评价的。实验结果表明,相比于传统的基于中介语方法的基线系统,该方法显著提高了翻译性能。  相似文献   

12.
双语平行语料库是构造高质量统计机器翻译系统的重要基础。与传统的通过扩大双语平行语料库规模来提高翻译质量的策略不同,本文旨在尽可能地挖掘现有资源的潜力来提高统计机器翻译的性能。文中提出了一种基于信息检索模型的统计机器翻译训练数据选择与优化方法,通过选择现有训练数据资源中与待翻译文本相似的句子组成训练子集,可在不增加计算资源的情况下获得与使用全部数据相当甚至更优的机器翻译结果。通过将选择出的数据子集加入原始训练数据中优化训练数据的分布可进一步提高机器翻译的质量。实验证明,该方法对于有效利用现有数据资源提高统计机器翻译性能有很好的效果。  相似文献   

13.
该文总结了我们近几年来在基于句法的统计机器翻译方面所做的研究工作,特别是基于源语言句法的一系列统计机器翻译模型与方法,具体包括 基于最大熵括号转录语法的翻译模型,基于源语言短语结构树的树到串翻译模型及其相应的基于树的翻译方法,基于森林的翻译方法和句法分析与解码一体化翻译方法,基于源语言依存树的翻译模型。  相似文献   

14.
该文结合最小上下文构成代价模型,借鉴并利用统计机器翻译的方法,尝试解决蒙古文形态切分问题。基于短语的统计机器翻译形态蒙文切分模型和最小上下文构成代价模型分别对词表词和未登录词进行形态切分。前者选取了短语机器翻译系统中三个常用的模型,包括短语翻译模型、词汇化翻译模型和语言模型,最小上下文构成代价模型考虑了一元词素上下文环境和词缀N-gram上下文环境。实验结果显示 基于短语统计机器翻译形态切分模型对词表词切分,最小上下文构成代价模型对未登录词处理后,总体的切分准确率达到96.94%。此外,词素融入机器翻译系统中后,译文质量有了显著的提高,更进一步的证实了本方法的有效性和实用性。  相似文献   

15.
汉蒙统计机器翻译中的调序方法研究   总被引:1,自引:0,他引:1  
在基于短语的汉蒙统计机器翻译系统的研究中,我们发现存在着严重的语序错误。该文在对汉语和蒙古语句子语序进行研究的基础上,提出了基于蒙古语语序的汉语句子调序方法; 同时介绍了调序规则和调序算法的设计;最后给出了具体实验。实验证明这种方法明显提高了现有汉蒙机器翻译系统的性能。  相似文献   

16.
为了提高翻译系统的翻译准确率,在短语基础上结合模板的方法自动抽取模板结构;解码时,首先进行模板匹配,套用模板结构进行翻译,然后再按照Beam Search搜索算法进行后续翻译。因此,该方法可以有效地解决单一的统计翻译中语序错误。以汉蒙翻译为例,实验结果显示此方法可以有效地提高翻译效果,翻译效率比基于短语的统计翻译方法提高10%。  相似文献   

17.
统计机器翻译综述   总被引:21,自引:9,他引:21  
本文综述了基于信源信道思想和基于最大熵思想的统计机器翻译方法并介绍了统计机器翻译的评测方法。基于信源信道的方法将翻译概率表示为一个语言模型和一个翻译模型。而基于最大熵的方法则是利用一系列实数值特征函数的线性组合来求解最优的译文。基于最大熵的统计机器翻译方法比基于信源信道的方法更具有一般性,后者可以看做前者的一个特例。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号