共查询到16条相似文献,搜索用时 62 毫秒
1.
2.
3.
4.
高质量的自动对齐双语语块,对于机器翻译系统,特别是计算机辅助翻译系统的性能提高有重要作用,而且对于人工翻译以及辞典编纂也都有巨大的应用价值。该文提出基于单词间粘合度与松弛度的语块划分评分方法以及双语语块划分的双向约束算法,使得源语言和目标语言的语块的划分与对齐能相互促进。与传统方法相比,因为无需事先进行双语语块划分,而是在搜索最佳对齐时动态地考察划分效果,故可以减少边界划分错误对对齐结果的影响。该算法获得了远超过传统算法的高正确率。 相似文献
5.
在基于短语的统计机器翻译系统中,自动抽取的短语表中不可避免的包含大量的冗余和错误的短语对,这浪费了解码资源又影响翻译质量。为了缓解这个问题,该文提出一种基于虚拟上下文的过滤短语表的方法。该方法引入虚拟上下文计算短语对的得分增量;并通过计算最大和最小的短语对的得分增量,设计了一种对短语对重排序的过滤策略。我们在NTCIR-9的中英数据上进行了验证实验,结果显示,当短语表的规模下降到原来的47%时,翻译质量的BLEU值提高了0.000 5;当短语表的规模下降到原来的30%时,BLEU值仅下降0.000 6。实验结果表明,在大规模短语表的过滤中,该文的方法是有效可行的。 相似文献
6.
大多数基于短语的统计机器翻译系统将任意连续的词串看作短语,并没有考虑短语的合理性。使用了C-value以及短语粘结度两种方法,有效地对短语表进行过滤,减小了搜索空间,同时还提高了翻译质量。实验表明,在翻译结果的BLEU评价提高0.02的情况下,短语表可以缩减为原来的78%。并且当短语表缩减为原来的47.5%时,BLEU评价仍提高了0.0158。 相似文献
7.
8.
汉英统计机器翻译中,汉语语料通常需要使用中文分词将句子切分成词序列。然而中文分词不是为统计机器翻译而开发的技术,它的分词结果不能保证对统计机器翻译的优化。近些年,一些研究试图改进中文分词方法从而达到对统计机器翻译的优化。在该文中,从另外的角度研究中文分词对统计机器翻译的影响。基本思想是利用多分词结果作为额外的语言知识,提出一种简单而有效的方法使这些知识为统计机器翻译所用,使用了一系列策略融合多分词结果,并将融合结果应用在统计机器翻译系统中。实验结果表明这种方法比没有使用多分词结果融合的系统提高1.89个BLEU分数。 相似文献
9.
10.
11.
2005统计机器翻译研讨班研究报告 总被引:4,自引:1,他引:4
2005年7月13日至15日,中国科学院自动化研究所、计算技术研究所和厦门大学计算机系联合举办了我国首届统计机器翻译研讨班。本文主要介绍本次研讨班参加单位的测试系统和实验结果,并给出相应的分析。测试结果表明,我国的统计机器翻译研究起步虽晚,但已有快速进展,参评系统在短期内得到了较好的翻译质量,与往年参加863评测的基于规则方法的系统相比性能虽还有差距,但差距已经不大。从目前国际统计机器翻译研究的现状和发展趋势来看,随着数据资源规模的不断扩大和计算机性能的迅速提高,统计机器翻译还有很大的发展空间。在未来几年内,在基于短语的主流统计翻译方法中融入句法、语义信息,必将成为机器翻译发展的趋势。 相似文献
12.
13.
统计机器翻译中短语切分的新方法 总被引:1,自引:0,他引:1
基于短语的统计机器翻译是目前主流的一种统计机器翻译方法,但是目前基于短语的翻译系统都没有对短语切分作专门处理,认为一个句子的所有短语切分都是等概率的。本文提出了一种短语切分方法,将句子的短语切分概率化: 首先,识别出汉语语料库中所有出现次数大于2次的词语串,将其作为汉语短语; 其次,用最短路径方法进行短语切分,并利用Viterbi算法迭代统计短语的出现频率。在2005年863汉英机器翻译评测测试集上的实验结果(BLEU4)是: 0.1764(篇章),0.2231(对话)。实验表明,对于长句子(如篇章),短语切分模型的加入有助于提高翻译质量,比原来约提高了0.5个百分点。 相似文献
14.
近几年来,基于短语的统计翻译模型在机器翻译研究中受到普遍关注,并取得了较好的翻译性能。但是,由于目前基于短语的翻译系统在解码时采用精确匹配的策略,常常导致数据稀疏,一方面,有些短语在训练获得的短语表中找不到精确的匹配,使其成为未知短语;另一方面,短语表中大量的短语无法得到充分的利用。为此,我们提出了基于短语模糊匹配和句子扩展的翻译方法。对于不存在于短语表中的短语,通过模糊匹配的办法,寻找与其相似的短语,然后将所有相似短语用于替换原短语,从而生成扩展句子,在此基础上对所有扩展的句子进行翻译。由于并不是所有扩展后的句子都能提高原始句子的翻译效果,因此,我们在句子翻译完成后设置了组合分类器用于选择最优翻译结果。实验证明,这种方法可以有效地提高翻译系统的译文质量。 相似文献
15.
16.
双语平行语料库是构造高质量统计机器翻译系统的重要基础。与传统的通过扩大双语平行语料库规模来提高翻译质量的策略不同,本文旨在尽可能地挖掘现有资源的潜力来提高统计机器翻译的性能。文中提出了一种基于信息检索模型的统计机器翻译训练数据选择与优化方法,通过选择现有训练数据资源中与待翻译文本相似的句子组成训练子集,可在不增加计算资源的情况下获得与使用全部数据相当甚至更优的机器翻译结果。通过将选择出的数据子集加入原始训练数据中优化训练数据的分布可进一步提高机器翻译的质量。实验证明,该方法对于有效利用现有数据资源提高统计机器翻译性能有很好的效果。 相似文献