首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 93 毫秒
1.
一种面向汉英口语翻译的双语语块处理方法   总被引:3,自引:2,他引:3  
基于语块的处理方法是近年来自然语言处理领域兴起的一条新思路。但是,要将其应用于口语翻译当中,还需按照口语特点对涉及双语的语块概念做出合理界定。本文在已有单语语块定义的基础上,根据中、英文差异和口语翻译特性,从句法和语义两个层次提出了一种汉英双语语块概念,并对其特点进行了分析。同时,针对中、英文并行语料库,建立了一套计算机自动划分与人工校对相结合的双语语块加工方法。应用该方法,对汉英句子级对齐的口语语料进行双语语块划分和对整,并以此为基础进行了基于双语语块的口语统计机器翻译实验。结果表明,本文提出的双语语块定义符合口语翻译的实际需要,使用基于双语语块的语料处理方法,能有效地提高口语系统的翻译性能。  相似文献   

2.
提出了一种新的语块对应算法 ,该算法是建立在实词对应基础上来划分语块的 ,这样可以保证语块正确对应的同时 ,有效地避免了双语语块边界划分不一致的情况。实验结果表明 ,该算法能够获得令人满意的结果  相似文献   

3.
高质量的自动对齐双语语块,对于机器翻译系统,特别是计算机辅助翻译系统的性能提高有重要作用,而且对于人工翻译以及辞典编纂也都有巨大的应用价值。该文提出基于单词间粘合度与松弛度的语块划分评分方法以及双语语块划分的双向约束算法,使得源语言和目标语言的语块的划分与对齐能相互促进。与传统方法相比,因为无需事先进行双语语块划分,而是在搜索最佳对齐时动态地考察划分效果,故可以减少边界划分错误对对齐结果的影响。该算法获得了远超过传统算法的高正确率。  相似文献   

4.
面向机器辅助翻译的汉语语块自动抽取研究   总被引:1,自引:1,他引:1  
本文提出了一种统计和规则相结合的语块抽取方法。本文使用Nagao串频统计算法进行基于词语的串频统计,进一步分别利用统计方法、语块边界过滤规则对2-gram到10-gram语块进行过滤,得到候选语块,取得了令人满意的结果。通过实验发现,在统计方法中互信息和信息熵相结合的方法较单一的互信息方法好;在语块边界规则过滤方法中语块左右边界规则和停用词对语块抽取的结果有较大影响。实验结果表明统计和过滤规则相结合的方法要优于纯粹的统计方法。应用本文方法,再辅以人工校对,可以方便地获取重复出现的多词语块。在机器辅助翻译系统中,使用现有的语块抽取方法抽取重复的语言单位,就可以方便地建设翻译记忆库,提高翻译的工作效率。  相似文献   

5.
该文提出一种面向句子的汉英口语翻译自动评分方法,选取语义关键词、句子大意和口语流利度作为评分的主要参数.为了提高关键词评分的准确度,该文使用同义词辨析方法,识别考生答题关键词中的同义词;在句子层面,使用可伸展递归自编码(unfolding recursive auto-encoder,URAE)神经网络模型分析考生对句...  相似文献   

6.
随着计算机技术与移动通信技术的不断发展,嵌入式移动数据库在许多领域得到了广泛的应用。通过对口语翻译系统的结构和数据库内容的分析,采用复杂特征向量构建了适合口语翻译系统的数据库,并且利用SQL Server Mobile 2005数据库的合并复制技术实现了远程数据同步。  相似文献   

7.
在口语翻译中,如何融入语义及语用信息一直是目前研究的难点之一。对话行为作为浅层话语结构描述的特征,近年来陆续应用于不同类型的翻译系统中。该文在介绍对话行为理论和口语标注语料的基础上,以基于短语的统计翻译系统为应用对象,提出了对话行为应用于翻译过程的三种方式。该方法通过对对话行为的自动分类,使训练语料—测试语料、开发集—测试集、源语言—目标语言的一致性得到提高,提高了翻译系统的性能,使最终的翻译结果可以更准确地反映源语言所要表达的对话意图。在汉英口语翻译评测数据上的实验证明,对话行为信息的加入使翻译系统的性能得到了有效的提高。  相似文献   

8.
基于短语的统计翻译模型是目前机器翻译领域广泛使用的模型之一。但是,由于在解码时采用短语精确匹配的策略,造成了严重的数据稀疏问题,短语表中的大量短语无法得到充分利用。为此,该文提出了人机互助的交互式翻译方法。对于翻译短语表中找不到的短语,首先通过模糊匹配的方法,在短语表中寻找与其相似的短语。然后利用组合分类器,判断哪些相似短语可能提高句子的翻译质量。最后,通过人机交互的方法,选择可能提高翻译质量且保持原句语义的短语。在口语语料上的实验结果证明,这种方法可以有效地提高翻译系统的译文质量。  相似文献   

9.
面向事件的多语平行语料库构建研究   总被引:2,自引:0,他引:2  
讨论了面向北京奥运的多语语料库建设中的若干基础问题。提出了面向事件、多领域融合的语料收集原则,制定了具有分类信息的标注规范,初步建立了具有近七万句对的可控多语语料库。  相似文献   

10.
讨论了面向北京奥运的多语语料库建设中的若干基础问题。提出了面向事件、多领域融合的语料收集原则,制定了具有分类信息的标注规范,初步建立了具有近七万句对的可控多语语料库。  相似文献   

11.
为解决句法分析任务中的块边界识别和块内结构分析问题,该文基于概念复合块描述体系进行了块分析探索。通过概念复合块与以往的基本块和功能块描述体系的对比分析,深入挖掘了概念复合块自动分析的主要难点所在,提出了一种基于“移进-归约”模型的汉语概念复合块自动分析方法。在从清华句法树库TCT中自动提取的概念复合块标注库上,多层次、多角度对概念复合块自动分析性能进行了纵向与横向评估,初步实验结果证明了该分析方法对简单概念复合块分析的有效性,为后续进行更复杂的概念复合块的句法语义分析研究打下了很好的基础。  相似文献   

12.
Machine translation of human languages is a field almost as old as computers themselves. Recent approaches to this challenging problem aim at learning translation knowledge automatically (or semi-automatically) from online text corpora, especially human-translated documents. For some language pairs, substantial translation resources exist, and these corpus-based systems can perform well. But for most language pairs, data is scarce, andcurrent techniques do not work well. To examine the gap betweenhuman and machine translators, we created an experiment in which humanbeings were asked to translate an unknown language into English on thesole basis of a very small bilingual text. Participants performed quite well,and debriefings revealed a number of valuable strategies. We discuss thesestrategies and apply some of them to a statistical translation system.  相似文献   

13.
机器翻译中汉语的形式和语义分析二题   总被引:2,自引:1,他引:2  
汉语分析是英汉和汉英机器翻译的难点。这篇文章提出了分析汉语的两个难题:一个是区分句法结构的歧义和多义,另一个是寻找句子成分之间的隐性语义关系和句式的意义。  相似文献   

14.
汉藏短语对抽取中短语译文获取方法研究   总被引:1,自引:0,他引:1  
该文从法律法规和公文领域汉藏语料中对待翻译汉语短语提取藏语译文。目前普遍采用的短语对抽取方法需要依赖于词性或句法分析等资源或词对齐技术。考虑现阶段藏文资源不足,词法句法相关技术不成熟,该文提出藏文词串频率统计方法(TSM)和藏文词序列相交算法(TIA)两种方法来获取藏语译文。其中TSM抽取1-1连续和非连续短语准确率达到90%左右,但遗漏1-n情况。TIA能够抽取1-n连续和非连续藏文语块,准确率达到81%。  相似文献   

15.
汉语组块分析是将汉语句子中的词首先组合成基本块,进一步组合形成句子的功能块,最终形成一个具有层次组合结构的汉语句法描述结构.将汉语功能块的自动标注问题看作序列标注任务,并使用词和基本块作为标注单元分别建立标注模型.针对不同的标注模型,分别构建基本块层面的特征集合,并使用条件随机场模型进行汉语功能块的自动标注.实验数据来自清华大学TCT语料库,并且按照8∶2的比例切分形成训练集和测试集.实验结果表明,与仅使用词层面信息的标注模型相比,基本块特征信息的适当加入可以显著提高功能块标注性能.当使用人工标注的基本块信息时,汉语功能块自动标注的准确率达到88.47%,召回率达到89.93%,F值达到89.19%.当使用自动标注的基本块信息时,汉语功能块的标注的准确率为84.27%,召回率为85.57%,F值为84.92%.  相似文献   

16.
统计和规则相结合的汉语组块分析   总被引:6,自引:0,他引:6  
从广西中获得的组块对机器翻译,信息检索等很多领域都非常有用,介绍了规则和统计进行组块分析的处理策略,提出了规则与统计相结合的处理方法,并且结合组块分析的实际情况改进了一般评价系统性能的指标,通过封闭测试和开放测度验证,与单纯规则组块划分相比较,组块识别的精确率和召回率都得到了提高,组块划分错误率降低了7%。  相似文献   

17.
多策略机器翻译系统IHSMTS中候选实例模式检索算法   总被引:2,自引:0,他引:2  
基于实例的机器翻译系统EBMT都需要有一个非常大的实例模式库,其数量级通常在百万句对以上.因此,如何从中快速地选择出一定数量的与待翻译的输入句子比较相似的候选实例,提供给后续句子相似度计算、类比译文构造等模块作进一步的处理,是EBMT系统所必须解决的一大难题.文章基于句子的词表层特征和信息熵提出了一种多层次候选实例模式检索算法,通过在多策略机器翻译系统IHSMTS上的运行测试。结果表明该算法较好的解决了这一难题.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号