共查询到19条相似文献,搜索用时 187 毫秒
1.
2.
N-gram统计模型在机器翻译系统中的应用 总被引:2,自引:1,他引:2
文章提出了N-gram模型在机器翻译系统中的几个应用。模型是在语料库的基础上统计连续几个词的出现概率,以此来筛选翻译过程中的侯选元素,并可以对译文的语序进行纠正。由于此种方法是建立在语料库的基础之上的,从而具有真实可靠和实时等特点。实验表明,这种方法具有良好的性能,且与被处理的语言无关。 相似文献
3.
该文提出将源语言句法信息和目标语言形态信息引入汉蒙机器翻译的模型构造中,以降低译文的词形错误率等问题。在源语言端,利用汉语依存句法分析器获取依存树,将依存句法信息以标注形式记在每个词上;在目标语言端,分析并获取蒙古语形态信息;利用LOP思想将源语言依存句法信息和目标语言形态信息引入翻译模型构造中。实验表明,其BLEU评分比传统的短语统计翻译模型有明显提高。该方法通过词、短语、句法三层面信息的结合,实现了汉蒙两种语言语法结构的平衡,特别适合于源语言形态信息贫乏而目标语言形态信息丰富的统计机器翻译系统。 相似文献
4.
平行语料库处理初探:一种排序模型 总被引:1,自引:0,他引:1
十年来,统计方法在机器翻译中的应用得到了广泛的关注,并逐渐成为机器翻译研究的主流方法.构造高质量统计机器翻译系统的重要基础是大规模高质量的双语平行语料库.目前,多数平行语料库包含着错误或噪音,它们极大影响着统计机器翻译系统的性能.用人工手段来筛选语料库中的句对是费时费力的,本文研究了一种有助于处理这一问题排序模型,该模型考虑了多方面的因素,包括语言模型、长度信息、意义对应等.鉴于如今的统计机器翻译系统都依赖词对齐信息,词对齐因素也被考虑入本模型中.文章最后的实验及结果表明本模型具有较好的性能. 相似文献
5.
基于实例的机器翻译(example-based machine translation,简称EBMT)使用预处理过的双语例句作为主要翻译资源,通过编辑与待翻译句子匹配的翻译实例来生成译文.在EBMT系统中,翻译实例选择及译文选择对系统性能影响较大.提出利用统计搭配模型来增强EBMT系统中翻译实例选择及译文选择的能力,提高译文质量.首先,使用单语统计词对齐从单语语料中训练统计搭配模型.然后,利用该模型从3个方面提高EBMT的性能:(1)利用统计搭配模型估计待翻译句子与翻译实例之间的匹配度,从而增强系统的翻译实例选择能力;(2)通过引入候选译文与上下文之间搭配强度的估计来提高译文选择能力;(3)使用统计搭配模型检测翻译实例中被替换词的搭配词,同时根据新的替换词及上下文对搭配词进行矫正,进一步提高EBMT系统的译文质量.为了验证所提出的方法,在基于词的EBMT系统上评价了英汉翻译的译文质量.与基线系统相比,所提出的方法使译文的BLEU得分提高了4.73~6.48个百分点.在半结构化的EBMT系统上进一步检验了基于统计搭配模型的译文选择方法,从实验结果来看,该方法使译文的BLEU得分提高了1.82个百分点.同时,人工评价结果显示,改进后的半结构化EBMT系统的译文能够表达原文的大部分信息,并且具有较高的流利度. 相似文献
6.
7.
汉语词语边界自动划分的模型与算法 总被引:10,自引:1,他引:9
在引入词形和汉字结合点等概念基础上,文中分别描述了一个基于字串构词能力的词形模型和一个基于词语内部、外部汉字结合度的汉字结合点模型,并采用线性插值方法 两种模型融合于一体进行汉词语边界划分。在分析汉语切分候选择空间的基础上,文中还给出了相应的优化搜索算法。与一般的统计方法相比,文中方法的参数可直接从未经加工粗语料中得到,具有较强的适应能力,初步试验表明该方法是有效和可靠的。 相似文献
8.
汉蒙语形态差异性及平行语料库规模小制约了汉蒙统计机器翻译性能的提升。该文将蒙古语形态信息引入汉蒙统计机器翻译中,通过将蒙古语切分成词素的形式,构造汉语词和蒙古语词素,以及蒙古语词素和蒙古语的映射关系,弥补汉蒙形态结构上的非对称性,并将词素作为中间语言,通过训练汉语—蒙古语词素以及蒙古语词素-蒙古语统计机器翻译系统,构建出新的短语翻译表和调序模型,并采用多路径解码及多特征的方式融入汉蒙统计机器翻译。实验结果表明,将基于词素媒介构建出的短语翻译表和调序模型引入现有统计机器翻译方法,使得译文在BLEU值上比基线系统有了明显提高,一定程度上消解了数据稀疏和形态差异对汉蒙统计机器翻译的影响。该方法是一种通用的方法,通过词素和短语两个层面信息的结合,实现了两种语言在形态结构上的对称,不仅适用于汉蒙统计机器翻译,还适用于形态非对称且低资源的语言对。 相似文献
9.
10.
11.
12.
13.
14.
为了提高翻译系统的翻译准确率,在短语基础上结合模板的方法自动抽取模板结构;解码时,首先进行模板匹配,套用模板结构进行翻译,然后再按照Beam Search搜索算法进行后续翻译。因此,该方法可以有效地解决单一的统计翻译中语序错误。以汉蒙翻译为例,实验结果显示此方法可以有效地提高翻译效果,翻译效率比基于短语的统计翻译方法提高10%。 相似文献
15.
张贯虹 《数字社区&智能家居》2014,(3):1519-1523
词对齐研究是多文种信息处理工作的一项不容忽略的基础性研究内容。通过针对中文和蒙古文词对齐研究中存在的形态和词序不对称以及支撑词对齐研究的对齐语料缺乏问题,开展融合语言信息的中蒙混合词对齐模型构建方法研究。利用产生式词对齐结果以及中蒙两种语言的语言信息作为潜特征,建立高质量的融合语言信息的中蒙混合词对齐模型。实验结果证明,该文提出方法对于利用可比语料抽取对齐语料是可行的。 相似文献
16.
17.
18.
19.
汉语分词是搭建汉语到其他语言的统计机器翻译系统的一项重要工作。从单语语料中训练得到的传统分词模型并不一定完全适合机器翻译[1]。该文提出了一种基于单语和双语知识的适应于统计机器翻译系统的分词方法。首先利用对齐可信度的概念从双语字对齐语料中抽取可信对齐集合,然后根据可信对齐集合对双语语料中的中文部分重新分词;接着将重新分词的结果和单语分词工具的分词结果相融合,得到新的分词结果,并将其作为训练语料,利用条件随机场模型训练出一个融合了单双语知识的分词工具。该文用该工具对机器翻译所需的训练集、开发集和测试集进行分词,并在基于短语的统计机器翻译系统上进行实验。实验结果表明,该文所提的方法提高了系统性能。 相似文献