期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

王辰宋国龙吴宏林张俐刘绍明《中文信息学报》2009,23(1):38

短语译文获取技术是基于实例的机器翻译(EBMT)中的核心技术之一,其准确率直接影响到EBMT系统的性能。该文提出了一种基于序列相交的短语译文获取方法,该方法将句子视为词的序列,利用对中日句对齐语料库中包含待译短语的所有源语句子对应的目标语句子进行序列相交的方式,在不需要词对齐、句法分析及词典等资源的情况下,通过充分挖掘句对齐双语语料库的信息,获得高质量的短语译文。实验表明,该方法获得的短语译文准确率超过80%。相似文献

2.

基于自动句对齐的相似古文句子检索 总被引：3，自引：0，他引：3

郭锐宋继华廖敏《中文信息学报》2008,22(2):87-91,105

随着语料库语言学的兴起,基于实例的机器翻译(EBMT)得到越来越多的研究。如何快速准确地构建大规模古今汉语平行语料库,以及从大量的对齐实例(句子级)中检索和输入句子最相似的源句子是基于实例的古今汉语机器翻译必须解决的问题。本文综合考虑句子长度、汉字字形、标点符号三个因素提出了古今汉语句子互译模型,基于遗传算法、动态规划算法实现了古今汉语的自动句对齐。接着为古文句子建立全文索引,基于汉字的信息熵,本文设计与实现一种高效的最相似古文句子检索算法。最后给出了自动句对齐和最相似古文句子检索的实验结果。相似文献

3.

Dependency treelet translation: the convergence of statistical and example-based machine-translation?

Christopher Quirk Arul Menezes 《Machine Translation》2006,20(1):43-65

We describe a novel approach to MT that combines the strengths of the two leading corpus-based approaches: Phrasal SMT and EBMT. We use a syntactically informed decoder and reordering model based on the source dependency tree, in combination with conventional SMT models to incorporate the power of phrasal SMT with the linguistic generality available in a parser. We show that this approach significantly outperforms a leading string-based Phrasal SMT decoder and an EBMT system. We present results from two radically different language pairs, and investigate the sensitivity of this approach to parse quality by using two distinct parsers and oracle experiments. We also validate our automated bleu scores with a small human evaluation. 相似文献

4.

IHSMT中的实例优化策略 总被引：1，自引：0，他引：1

王建德陈肇雄黄河燕夏云庆《计算机研究与发展》2002,39(3):313-317

在基于实例的机器翻译方法中，通常采用双语句子实例的形式，但由于自然语言表达的无限多样性，使得这种存储粒度过大的句子级翻译实例的利用率较低；而在基于规则的机器翻译方法中，规则和词典具有一定的抽象性，其重复利用率高，但其中存在大量的歧义，提出了一种IHSMT中的实例自动优化算法，该算法引入了实例粒度的概念，根据规则和实例使用率，将粒度大的实例分解为较小的单元，并建立相应的词典，以提高实例的使用频率和检索效率，同时在翻译过程中，根据用户修改的统计和上下文信息，对粒度小并且有歧义的实例进行合并，以提高翻译质量和推理效率，从而使实例粒度更加合理，存储结构更优化，系统的效率更高。相似文献

5.

EBMT中高效的维吾尔语单词散列表构造算法

田生伟吐尔根·依布拉音禹龙《中文信息学报》2009,23(4):124-129

基于实例的机器翻译(EBMT)是一种高效的机器翻译方法,如何快速地从海量实例模式库中找出与待翻译句子相似的候选实例,是EBMT研究的关键技术之一。统计分析维吾尔语单词字母的分布特征,构造了基于维吾尔语单词的倒排索引散列表,在等概率条件下,平均查找长度为1.59;依据散列冲突的同义词在维吾尔语料中出现的频率作为权值,提出了一种新颖的解决散列冲突的算法同义词次优树算法。实验显示,算法的性能比传统的顺序查找和二分查找算法分别高出了27.5 %,21.8%,证明了该算法在EBMT中有较高的检索效率。相似文献

6.

EBMT系统中的多词单元翻译词典获取研究 总被引：2，自引：0，他引：2

程洁杜利民《中文信息学报》2004,18(1):56-62

EBMT系统是一种基于语料库的机器翻译方法,其主要思想是通过类比原理进行翻译。如何从语料库中提取出一个实用的翻译词典进行系统的辅助翻译已经越来越多的引起关注。本文探讨了如何结合阈值和关联度提取的方法获取多词单元翻译词典,在这两种方法中,阈值提取受主观影响太大,关联值提取效率太低,都不能很好的满足翻译词典提取的要求。本文提出的算法利用阈值提取出备选多词单元,其中提出了四点规则弱化主观影响且保证全面覆盖所有多词单元,降低了阈值本身所带来的不精确度的影响,然后对计算结果进行三层过滤,进一步提高了准确率;该算法还合并了单词译成多词单元和多词单元互译两部分词典的提取,提高了工作效率。相似文献

7.

一种改进的维吾尔语句子相似度计算方法

卡哈尔江·阿比的热西提吐尔根·依布拉音姚天昉艾山·吾买尔艾山·毛力尼亚孜《中文信息学报》2011,25(4):50-54

在基于实例的维吾尔语汉语机器翻译系统中维吾尔语相似度计算起重要作用。维吾尔语的黏着性特性要求对单词进行词干提取。本文提出的方法结合简单的句子结构相似度计算方法,通过对单词词干提取进行句子相似度计算。小规模实验结果比较接近人工评价的句子相似度。相似文献

8.

A system-theoretical view of EBMT

Michael Carl 《Machine Translation》2005,19(3-4):229-249

According to the system theory of von Bertalanffy (1968), Bertalanffy, a “system” is an entity that can be distinguished from its environment and that consists of several parts. System theory investigates the role of the parts, their interaction and the relation of the whole with its environment. System theory of the second order examines how an observer relates to the system. This paper traces some of the recent discussion of example-based machine translation (EBMT) and compares a number of EBMT and statistical MT systems. It is found that translation examples are linguistic systems themselves that consist of words, phrases and other constituents. Two properties of Luhmann’s (2002) system theory are discussed in this context: EBMT has focussed on the properties of structures suited for translation and the design of their reentry points, and SMT develops connectivity operators which select the most likely continuations of structures. While technically the SMT and EBMT approaches complement each other, the principal distinguishing characteristic results from different sets of values which SMT and EBMT followers prefer. 相似文献

9.

基于实例的中文分词-词性标注方法的应用研究 总被引：1，自引：0，他引：1

姜涛姚天顺张俐《小型微型计算机系统》2007,28(11):2090-2093

通过实验证明基于实例的中文分词-词性标注(下文简称为EBST,Example-Based Chinese word Segment and Tagging)系统对训练语料相关的文本具有非常好的标注性能.实验结果显示了EBST系统的分词-词性标注不仅具有非常高的准确率,而且和训练语料的标注保持了很好的一致性.这使得EBST系统非常适合于在基于实例的机器翻译(Example-Based Machine Translation,EBMT)系统中的应用.本文给出了EBST在EBMT系统中的应用实例及相应的实验结果. 相似文献

10.

基于实例的汉英机器翻译系统研究与实现 总被引：8，自引：1，他引：8

王长胜刘群《计算机工程与应用》2002,38(8):126-127,135

文章实现了一个基于实例的汉英机器翻译系统(Example-BasedChinese-EnglishMachineTranslation,简称E-BCEMT)。实验结果表明:以纯粹的中英对照的句子对的例句库为基础,且不进行深层次的语法分析,在给定的翻译模式下,该翻译系统在效率、翻译结果的正确率等方面取得了令人满意的结果。相似文献