首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 109 毫秒
1.
基于统计学习的机器翻译模板自动获取方法   总被引:4,自引:1,他引:3  
本文提出了一种从未经深层次处理的双语口语语料库中自动获取机器翻译模板的方法。这种算法是一种无监督的、基于统计的、数据驱动的方法。这种方法有两个基本的步骤。首先,通过语法归纳分别从源语言和目标语言中获取语义类和短语结构类。然后,利用双语划界文法将短语结构类进行对齐。对齐的结果经过后处理就可以得到翻译的模板。初步的试验结果表明,本方法是有效的和切实可行的。  相似文献   

2.
韩语机器翻译受到韵律格式影响,导致翻译的可靠性不好,提出基于改进神经网络的韩语机器翻译系统设计方法。采用语料库模型建立韩语机器翻译系统的双语平行语料库,建立以深度学习为基础的神经网络翻译语义控制模型,采用规则和模板的匹配方法,采用统计机器翻译的方法,构建以语义综合评估为翻译结构参数模型的韩语机器翻译自然语言处理模型,采用无监督的神经网络学习方法,建立韩语机器翻译的语义对照模型,实现迭代反向翻译和回译。系统构建中,设计了数据库模块、语义推荐模块、数据访问层模块和翻译生成模块,在改进神经网络模型下实现机器翻译系统设计。测试结果表明,该方法进行韩语机器翻译的可靠性较好,具有很好的语义连贯性、翻译一致性和翻译流利性,翻译输出的准确度较高。  相似文献   

3.
为了使中英文翻译更加智能以及更加合理,采用句子级的释义对译文进行改写,将其视为同一语言之间的翻译任务。在没有大规模平行释义语料库的情况下,利用机器翻译结果和源语言的参考翻译来近似平行释义语料库。然后,利用该模型训练一个从机器翻译结果到参考翻译的重复系统,生成语义一致的句子级重复结果。在此基础上,将重述结果引入系统整合的翻译假设中。最后,在翻译和释义的基础上,进行了面向移动应用的设计和开发,实现了中英文机器翻译。  相似文献   

4.
机器翻译中规则和模板的协调方法研究   总被引:1,自引:0,他引:1  
本文讨论了机器翻译中的基于规则、基于翻译模板及转换模型的特点,分别比较了它们的优点和不足.同时讨论了协调基于模板方法与基于转换模型方法的合理途径.针对研制机器翻译系统的需要设计了将这几种方法有机地结合起来的算法.将本文提出的协调方法在汉英双向机器翻译系统中应用,取得了较好的实验结果.通过采用模板和去掉模板分别进行翻译实验,结果表明基于模板方法对于译文质量提高的贡献率分别为口语为12%,篇章翻译为8%.  相似文献   

5.
双语句对选择方法旨在从大规模通用领域双语语料库中,自动抽取与待翻译文本领域相关性较高的句对,以缓解特定领域翻译模型训练语料不足的问题。区别于原有基于语言模型的双语句对选择方法,该文从句对生成式建模的角度出发,提出一种基于翻译模型和语言模型相融合的双语句对选择方法。该方法能够有效评价双语句对的领域相关性及互译性。实验结果显示,利用该文所提方法选择双语句对训练所得翻译系统,相比于基准系统,在测试集上性能提升3.5个BLEU值;此外,针对不同句对质量评价特征之间的权重调节问题,该文提出一种基于句对重排序的特征权重自动优化方法。基于该方法的机器翻译系统性能继续提升0.68个BLEU值。
  相似文献   

6.
基于语义相似度并运用语言学知识进行双语语句词对齐   总被引:1,自引:0,他引:1  
一、引言自八十年代以来,基于统计(Statistics-Based)和基于实例(Example-Based)方法的出现及其广泛应用给机器翻译的研究工作注入了新的活力,标志着机器翻译进入了一个新时期。这两种方法共同的特点是:都需要一个双语语料库(Bilin-gual Corpora)直接或间接地作为翻译的知识库。这种双语语料库中包含了原文和译文相互对应的语言信息,是支持机器翻译的最为宝贵的资源。双语语料比单语种提供了更多的信息。在近些年里,在对篇章、段落、句子对齐进行了大量的研究之后,许多工作已经  相似文献   

7.
为了改善专利文献的机器翻译效果, 提出了一种基于模板的机器翻译方法。通过分析汉英双语对齐的专利文献语料, 人工书写了600余条模板, 模板的设计思想源于弱化的正则文法; 设计和实现了一个模板翻译模块, 并将其与已有的一个基于规则的机器翻译系统相融合。实验结果表明, 40%以上的测试文本的翻译质量得到了提高, 因此, 这种基于模板的方法对于改善专利文献的机器翻译效果是有效的。  相似文献   

8.
一种面向汉英口语翻译的双语语块处理方法   总被引:3,自引:2,他引:3  
基于语块的处理方法是近年来自然语言处理领域兴起的一条新思路。但是,要将其应用于口语翻译当中,还需按照口语特点对涉及双语的语块概念做出合理界定。本文在已有单语语块定义的基础上,根据中、英文差异和口语翻译特性,从句法和语义两个层次提出了一种汉英双语语块概念,并对其特点进行了分析。同时,针对中、英文并行语料库,建立了一套计算机自动划分与人工校对相结合的双语语块加工方法。应用该方法,对汉英句子级对齐的口语语料进行双语语块划分和对整,并以此为基础进行了基于双语语块的口语统计机器翻译实验。结果表明,本文提出的双语语块定义符合口语翻译的实际需要,使用基于双语语块的语料处理方法,能有效地提高口语系统的翻译性能。  相似文献   

9.
跨语言信息检索中查询语句翻译转换算法   总被引:1,自引:0,他引:1       下载免费PDF全文
张孝飞  黄河燕  陈肇雄  代六玲 《计算机工程》2007,33(11):166-167,212
跨语言信息检索中,输入的查询语句往往是一系列关键词组合,而不是一个完整意义上的句子,致使查询关键词序列缺乏必要的语法、语境信息,难以实现查询语句的精确翻译。该文基于大规模双语语料库,以向量空间模型和词汇同现互信息为理论基础,运用传统单语信息检索技术,将查询语句的翻译问题转换为查询关键词词典义项的boost值计算,重构目标语查询语句。  相似文献   

10.
提出了自动化专业文献多引擎机器翻译系统的建立模型,该模型主要包括四个微引擎:基于实例微引擎系统、基于模板微引擎系统、基于规则微引擎系统、基于统计微引擎系统,并结合自动化专业文献双语平行语料库,模拟了专业文摘在系统中的翻译流程,说明了每个微引擎对待翻译语料的处理方式和处理后的结果。  相似文献   

11.
This paper outlines the first Asian network-based speech-to-speech translation system developed by the Asian Speech Translation Advanced Research (A-STAR) consortium. Eight research groups comprising the A-STAR members participated in the experiments, covering nine languages, i.e., eight Asian languages (Hindi, Indonesian, Japanese, Korean, Malay, Thai, Vietnamese, and Chinese) and English. Each A-STAR member contributed one or more of the following spoken language technologies: automatic speech recognition, machine translation, and text-to-speech through Web servers. The system was designed to translate common spoken utterances of travel conversations from a given source language into multiple target languages in order to facilitate multiparty travel conversations between people speaking different Asian languages. It covers travel expressions including proper nouns that are names of famous places or attractions in Asian countries. In this paper, we describe the issues of developing spoken language technologies for Asian languages, and discuss the difficulties involved in connecting different heterogeneous spoken language translation systems through Web servers. This paper also presents speech-translation results including subjective evaluation, from the first A-STAR field testing which was carried out in July 2009.  相似文献   

12.
Despite the importance of intonation in spoken languages, deeper linguistic information encoded in prosody is rarely taken into account in speech-to-speech machine translation systems. This paper concerns the translation of spoken English into Mandarin Chinese, paying particular attention to the emphatic/contrastive focus in questions which is realised by means of phonological stress in spoken English but by lexical and syntactic devices in Mandarin. There are two main reasons to translate phonologically marked emphatic/contrastive focus with other linguistic devices: firstly, different languages tend to use different devices to express emphatic/contrastive focus; secondly, the production of prosody in text-to-speech systems is far from perfect. In this paper, a translation framework which is capable of treating emphatic/contrastive focus is outlined and focus rules are developed. The framework has been tested on a corpus of 207 utterances in the domain of asthma, although the focus rules are not domain-specific.  相似文献   

13.
口语理解在口语自动翻译和人机对话系统中具有非常重要的作用。本文面向口语自动翻译提出了一种统计和规则相结合的汉语口语理解方法,该方法利用统计方法从训练语料中自动获取语义规则,生成语义分类树,然后利用语义分类树对待解析的汉语句子中与句子浅层语义密切相关的词语进行解析,最后再利用统计理解模型对各个词语的解析结果进行组合,从而获得整个句子的浅层语义领域行为。实验结果表明,该方法具有较高的准确率和鲁棒性,适合应用在限定领域的汉语口语浅层语义理解。  相似文献   

14.
Wermter  S. Weber  V. 《Computer》1996,29(7):65-74
Our SCREEN (Symbolic Connectionist Robust Enterprise for Natural Language) system analyzes real-world utterances and can be used for relatively large and complex tasks. SCREEN learns a robust flat syntax, semantics, and pragmatics representation. The system also deals with uncommon syntactic and semantic language irregularities. The system is able to produce many utterance hypotheses based on spoken input and can determine which hypotheses are most likely. SCREEN's ability to analyze spoken language, despite encountering mistakes and uncertainties, demonstrates the system's robustness and potential. Because SCREEN is a German spoken-language system, the example of spoken language that we analyze is in German. We provide a literal and, where appropriate, a more easily understood English translation of any German words and sentences that we use  相似文献   

15.
This paper sketches research in nine areas related to spoken language translation: interactive disambiguation (two demonstrations of highly interactive, broad-coverage speech translation are reported); system architecture; data structures; the interface between speech recognition and analysis; the use of natural pauses for segmenting utterances; example-based machine translation; dialogue acts; the tracking of lexical co-occurrences; and the resolution of translation mismatches.  相似文献   

16.
Development of a robust two-way real-time speech translationsystem exposes researchers and system developers to various challenges of machine translation(MT) and spoken language dialogues. The need for communicating in at least two differentlanguages poses problems not present for a monolingual spoken language dialogue system,where no MT engine is embedded within the process flow. Integration of various componentmodules for real-time operation poses challenges not present for text translation. In this paper,we present the CCLINC (Common Coalition Language System at Lincoln Laboratory) English–Koreantwo-way speech translation system prototype trained on doctor–patient dialogues,which integrates various techniques to tackle the challenges of automatic real-time speechtranslation. Key features of the system include (i) language–independent meaning representation which preserves the hierarchicalpredicate–argument structure of an input utterance, providing a powerful mechanism for discourse understanding of utterances originating from different languages,word-sense disambiguation and generation of various word orders of many languages, (ii) adoptionof the DARPA Communicator architecture, a plug-and-play distributed system architecturewhich facilitates integration of component modules and system operation in real time, and (iii)automatic acquisition of grammar rules and lexicons for easy porting of the system to differentlanguages and domains. We describe these features in detail and present experimental results.  相似文献   

17.
针对中文口语问句的表达多样性对对话系统问题理解带来的挑战,该文采用“在语法结构之上获取语义知识”的设计理念,提出了一种语法和语义相结合的口语对话系统问题理解方法。首先人工编制了独立于领域和应用方向的语法知识库,进而通过句子压缩模块简化复杂句子,取得结构信息,再进行问题类型模式识别,得到唯一确定问题的语义组织方法、查询策略和应答方式的句型模式。另一方面,根据领域语义知识库,从源句子中提取相应的语义信息,并根据识别到的句型模式所对应的知识组织方法进行语义知识组织,完成对问句的理解。该文的方法被应用到开发的中文手机导购对话系统。测试结果表明,该方法能有效地完成对话流程中的用户问题理解。  相似文献   

18.
濒危语言口语语料库建立的目的是系统地保存近乎消失的濒危语言,留存濒危语言的生命力与地方文化,并且能够对其进行学习与研究。濒危语言口语语料库保存的内容主要包括原始声音文件、国际音标标注、汉语对译标注以及汉语翻译标注。以濒危语言吕苏语为范例,深入、全面、系统地研究与建立濒危语言口语语料库,并对标注语料实现了自动分词与关键词提取的功能,为后续建立通用濒危语言语料库提供了一个范例。  相似文献   

19.
复述技术研究综述   总被引:5,自引:0,他引:5  
复述是自然语言中比较普遍的一个现象,它集中反映了语言的多样性。复述研究的对象主要是短语或者句子的同义现象。自然语言处理各种底层技术的不断发展和成熟,为复述研究提高了可能,使之受到越来越多的关注。在英文和日文方面,复述技术已经被成功的应用到信息检索、自动问答、信息抽取、自动文摘以及机器翻译等多个领域,有效地提高了系统的性能。本文主要对复述实例库的构建、复述规则的抽取以及复述的生成等几方面的最新研究进展进行详细的综述,并简要介绍了我们在中文复述方面进行的初步研究工作。在文章的最后一部分,我们对复述技术的难点及未来的发展方向进行了展望,并对全文进行了总结。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号