首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 187 毫秒
1.
在汉语到维语的统计机器翻译中,2种语言在形态学及语序上差异较大,导致未知词较多,且产生的维语译文语序混乱。针对上述问题,在对汉语和维语的语序进行研究的基础上,提出一种汉语句法调序方法,进而对维语进行形态学分析,采用基于因素的统计机器翻译系统进行验证。实验结果证明,该方法在性能上较基线系统有显著改进,BLEU评分由15.72提高到19.17。  相似文献   

2.
N-gram统计模型在机器翻译系统中的应用   总被引:2,自引:1,他引:2  
文章提出了N-gram模型在机器翻译系统中的几个应用。模型是在语料库的基础上统计连续几个词的出现概率,以此来筛选翻译过程中的侯选元素,并可以对译文的语序进行纠正。由于此种方法是建立在语料库的基础之上的,从而具有真实可靠和实时等特点。实验表明,这种方法具有良好的性能,且与被处理的语言无关。  相似文献   

3.
该文提出将源语言句法信息和目标语言形态信息引入汉蒙机器翻译的模型构造中,以降低译文的词形错误率等问题。在源语言端,利用汉语依存句法分析器获取依存树,将依存句法信息以标注形式记在每个词上;在目标语言端,分析并获取蒙古语形态信息;利用LOP思想将源语言依存句法信息和目标语言形态信息引入翻译模型构造中。实验表明,其BLEU评分比传统的短语统计翻译模型有明显提高。该方法通过词、短语、句法三层面信息的结合,实现了汉蒙两种语言语法结构的平衡,特别适合于源语言形态信息贫乏而目标语言形态信息丰富的统计机器翻译系统。  相似文献   

4.
平行语料库处理初探:一种排序模型   总被引:1,自引:0,他引:1  
十年来,统计方法在机器翻译中的应用得到了广泛的关注,并逐渐成为机器翻译研究的主流方法.构造高质量统计机器翻译系统的重要基础是大规模高质量的双语平行语料库.目前,多数平行语料库包含着错误或噪音,它们极大影响着统计机器翻译系统的性能.用人工手段来筛选语料库中的句对是费时费力的,本文研究了一种有助于处理这一问题排序模型,该模型考虑了多方面的因素,包括语言模型、长度信息、意义对应等.鉴于如今的统计机器翻译系统都依赖词对齐信息,词对齐因素也被考虑入本模型中.文章最后的实验及结果表明本模型具有较好的性能.  相似文献   

5.
刘占一  李生  刘挺  王海峰 《软件学报》2012,23(6):1472-1485
基于实例的机器翻译(example-based machine translation,简称EBMT)使用预处理过的双语例句作为主要翻译资源,通过编辑与待翻译句子匹配的翻译实例来生成译文.在EBMT系统中,翻译实例选择及译文选择对系统性能影响较大.提出利用统计搭配模型来增强EBMT系统中翻译实例选择及译文选择的能力,提高译文质量.首先,使用单语统计词对齐从单语语料中训练统计搭配模型.然后,利用该模型从3个方面提高EBMT的性能:(1)利用统计搭配模型估计待翻译句子与翻译实例之间的匹配度,从而增强系统的翻译实例选择能力;(2)通过引入候选译文与上下文之间搭配强度的估计来提高译文选择能力;(3)使用统计搭配模型检测翻译实例中被替换词的搭配词,同时根据新的替换词及上下文对搭配词进行矫正,进一步提高EBMT系统的译文质量.为了验证所提出的方法,在基于词的EBMT系统上评价了英汉翻译的译文质量.与基线系统相比,所提出的方法使译文的BLEU得分提高了4.73~6.48个百分点.在半结构化的EBMT系统上进一步检验了基于统计搭配模型的译文选择方法,从实验结果来看,该方法使译文的BLEU得分提高了1.82个百分点.同时,人工评价结果显示,改进后的半结构化EBMT系统的译文能够表达原文的大部分信息,并且具有较高的流利度.  相似文献   

6.
自统计机器翻译技术出现以来,调序一直是语序差异显著的语言对互译系统中的关键问题,基于大规模语料训练的调序方法得到了广泛研究。目前汉蒙双语语料资源十分有限,使得现有的依赖于大规模语料和语言学知识的调序方法难以取得良好效果。该文对已有的相关研究进行了分析,提出了在有限语料条件下的汉蒙统计机器翻译调序方法。该方法依据语言学知识获取对译文语序影响显著的短语类型,研究这些短语类型的调序方案,并融入已有的调序模型实现调序的优化。实验表明该方法在有限语料条件下的效果提升显著。  相似文献   

7.
汉语词语边界自动划分的模型与算法   总被引:10,自引:1,他引:9  
在引入词形和汉字结合点等概念基础上,文中分别描述了一个基于字串构词能力的词形模型和一个基于词语内部、外部汉字结合度的汉字结合点模型,并采用线性插值方法 两种模型融合于一体进行汉词语边界划分。在分析汉语切分候选择空间的基础上,文中还给出了相应的优化搜索算法。与一般的统计方法相比,文中方法的参数可直接从未经加工粗语料中得到,具有较强的适应能力,初步试验表明该方法是有效和可靠的。  相似文献   

8.
汉蒙语形态差异性及平行语料库规模小制约了汉蒙统计机器翻译性能的提升。该文将蒙古语形态信息引入汉蒙统计机器翻译中,通过将蒙古语切分成词素的形式,构造汉语词和蒙古语词素,以及蒙古语词素和蒙古语的映射关系,弥补汉蒙形态结构上的非对称性,并将词素作为中间语言,通过训练汉语—蒙古语词素以及蒙古语词素-蒙古语统计机器翻译系统,构建出新的短语翻译表和调序模型,并采用多路径解码及多特征的方式融入汉蒙统计机器翻译。实验结果表明,将基于词素媒介构建出的短语翻译表和调序模型引入现有统计机器翻译方法,使得译文在BLEU值上比基线系统有了明显提高,一定程度上消解了数据稀疏和形态差异对汉蒙统计机器翻译的影响。该方法是一种通用的方法,通过词素和短语两个层面信息的结合,实现了两种语言在形态结构上的对称,不仅适用于汉蒙统计机器翻译,还适用于形态非对称且低资源的语言对。  相似文献   

9.
针对传统卡方统计量(CHI)方法在全局范围内进行特征选择时忽略词频信息问题,提出了一种改进的文本特征选择方法。通过引入特征分布相关性系数,选择局部出现的强相关性特征,并利用修正因子解决CHI方法的负相关困扰,从而提升语料集的分类指标。对网易新闻语料库和复旦大学中文语料库进行实验时,利用以上方法进行特征选择,使用改进后的词频—逆文本频率(TF-IDF)权重计算公式加权,分类器选择支持向量机(SVM)和朴素贝叶斯法。结果表明:改进的方法不仅在分类效果上有明显的提高,而且性能更加稳定。  相似文献   

10.
蒙古文的形态变化非常丰富,在动词词类上该特点更为明显。我们对蒙古文的动词自动生成方法进行了系统的研究。该文利用生成的蒙古语动词库,给出了对基于层次短语的汉蒙统计机器翻译译文中句尾错误词形动词进行纠正处理的方法。实验表明,该方法可以提高汉蒙机器翻译的性能和流利度。  相似文献   

11.
汉蒙统计机器翻译中的调序方法研究   总被引:1,自引:0,他引:1  
在基于短语的汉蒙统计机器翻译系统的研究中,我们发现存在着严重的语序错误。该文在对汉语和蒙古语句子语序进行研究的基础上,提出了基于蒙古语语序的汉语句子调序方法; 同时介绍了调序规则和调序算法的设计;最后给出了具体实验。实验证明这种方法明显提高了现有汉蒙机器翻译系统的性能。  相似文献   

12.
汉蒙机器翻译系统中量词翻译研究   总被引:1,自引:0,他引:1  
在基于短语的汉蒙统计机器翻译系统的研究中,我们发现存在着大量的汉蒙量词翻译错误。该文对汉语和蒙古语中的量词翻译进行研究的基础上,提出了使用量词表进行翻译,总结出了一对一、多对一、一对零和一对多等汉语量词到蒙语量词翻译的对应关系,给出了各种对应中的翻译方法,通过实验证明这种方法明显提高了现有汉蒙机器翻译系统的性能。  相似文献   

13.
骆凯  李淼  强静  乌达巴拉 《计算机应用》2009,29(7):2026-2028
为了提高汉蒙翻译系统的翻译准确率,提出了在短语基础上结合模板的方法自动抽取模板结构;解码时,首先进行模板匹配,套用模板结构进行翻译,然后再按照Beam Search搜索算法进行后续翻译。该方法可以有效地解决单一的统计翻译中语序错误。以汉蒙翻译为例,实验结果显示此方法可以有效地提高翻译效果。在农业领域的汉蒙翻译中添加了农业常用短语模板,翻译效率相比Och的基于短语的统计翻译方法有较大的提高。  相似文献   

14.
为了提高翻译系统的翻译准确率,在短语基础上结合模板的方法自动抽取模板结构;解码时,首先进行模板匹配,套用模板结构进行翻译,然后再按照Beam Search搜索算法进行后续翻译。因此,该方法可以有效地解决单一的统计翻译中语序错误。以汉蒙翻译为例,实验结果显示此方法可以有效地提高翻译效果,翻译效率比基于短语的统计翻译方法提高10%。  相似文献   

15.
词对齐研究是多文种信息处理工作的一项不容忽略的基础性研究内容。通过针对中文和蒙古文词对齐研究中存在的形态和词序不对称以及支撑词对齐研究的对齐语料缺乏问题,开展融合语言信息的中蒙混合词对齐模型构建方法研究。利用产生式词对齐结果以及中蒙两种语言的语言信息作为潜特征,建立高质量的融合语言信息的中蒙混合词对齐模型。实验结果证明,该文提出方法对于利用可比语料抽取对齐语料是可行的。  相似文献   

16.
本文通过对汉蒙机器翻译方法的研究,给出了一种基于实例的汉蒙机器翻译方法,并加以了实现。本文给出了用于汉蒙EBMT机器翻译的实例搜索以及短语片段划分、匹配、组合的方法。本文给出的方法是基于词语对齐的,利用词语对齐进行词语的匹配,并根据匹配词数和长度计算相似度,选取最好的实例。通过对齐信息,确定片段组合的策略,生成翻译结果。通过对方法的实现和实验,完成了一个基于实例的汉蒙机器翻译系统。  相似文献   

17.
汉语-盲文机器翻译系统的研究与实现   总被引:1,自引:0,他引:1  
对汉语-盲文(简称汉盲)翻译的原理进行了研究,提出了一个盲文形式模型和汉语-盲文机器翻译的方法:采用基于词频和词分级加权评估的逆向全切分算法进行分词,采用规则和统计相结合的方法进行词性标注和连写块识别,并在此基础上设计开发了一个实用的汉语-盲文机器翻译系统。  相似文献   

18.
基于trigger对的长距离蒙古语语言模型采用统计方法进行自然语言建模。该文简要介绍了基于trigger对的长距离蒙古语语言模型的三种实现方法,并在汉语-蒙古语机器翻译系统测试了这三种方法的性能。该文旨在通过对三种模型的比较研究,为基于trigger对的长距离蒙古语语言模型的具体应用提供参考和依据。  相似文献   

19.
汉语分词是搭建汉语到其他语言的统计机器翻译系统的一项重要工作。从单语语料中训练得到的传统分词模型并不一定完全适合机器翻译[1]。该文提出了一种基于单语和双语知识的适应于统计机器翻译系统的分词方法。首先利用对齐可信度的概念从双语字对齐语料中抽取可信对齐集合,然后根据可信对齐集合对双语语料中的中文部分重新分词;接着将重新分词的结果和单语分词工具的分词结果相融合,得到新的分词结果,并将其作为训练语料,利用条件随机场模型训练出一个融合了单双语知识的分词工具。该文用该工具对机器翻译所需的训练集、开发集和测试集进行分词,并在基于短语的统计机器翻译系统上进行实验。实验结果表明,该文所提的方法提高了系统性能。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号