首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
The performance of a machine translation system heavily depends on the quantity and quality of the bilingual language resource.However,getting a parallel corpus,which has a large scale and is of high quality,is a very difficult task especially for low resource languages such as Chinese-Vietnamese.Fortunately,multilingual user generated contents (UGC),such as bilingual movie subtitles,provide us access to automatic construction of the parallel corpus.Although the amount of UGC parallel corpora can be considerable,the original corpus is not suitable for statistical machine translation (SMT) systems.The corpus may contain translation errors,sentence mismatching,free translations,etc.To improve the quality of the bilingual corpus for SMT systems,three filtering methods are proposed:sentence length difference,the semantic of sentence pairs,and machine learning.Experiments are conducted on the Chinese to Vietnamese translation corpus.Experimental results demonstrate that all the three methods effectively improve the corpus quality,and the machine translation performance (BLEU score) can be improved by 1.32.  相似文献   

2.
双语平行语料库在20世纪90年代受到重视并广泛建立,对语言对比研究以及包括自动翻译在内的翻译教学和双语词典的编撰具有重要意义。双语平行语料库在翻译教学中的应用主要体现在词汇、句子和语篇三个层次上。  相似文献   

3.
基于我们前期研制的IT文本英汉平行语料库,利用专门软件AntConc对所收集的平行语料库进行研究分析,并在翻译实践中,与双语词典进行对比,发现平行语料库能填补双语词典的义项缺失;词义更丰富;能实现双语翻译的对等性;并能为释义提供语境的优势。  相似文献   

4.
提出一种新的搭配(Collocation)翻译方法,该方法在最大熵模型框架下,充分利用各种从单语和双语语料库中获取的信息.与过去的过分依赖双语语料库的方法不同,新的搭配翻译方法可以使用单语语料库训练翻译模型,在搭配内在信息的基础上,进一步引入了上下文信息.采用EM(Expectation Maximization)算法估计基于上下文的词汇翻译概率.本模型同时具备集成来自双语语料库信息的能力.实验表明,本文方法优于现有的基于单语语料库的搭配翻译方法,在双语语料库的支持下还可以得到更好的结果.  相似文献   

5.
基于实例的机器翻译——方法和问题   总被引:1,自引:0,他引:1  
介绍了基于实例的机器翻译方法,并对基于实例的机器翻译中的若干问题,如双语实例的加工对齐、实例的相似度计算和实例模板提取等问题作了说明。  相似文献   

6.
面向汉英机器翻译的双语语料库的建设及其管理   总被引:7,自引:0,他引:7  
近年来,在语言信息处理的研究和开发中,单语和多语语料库(主要是双语语料库)的作用日益突显出来。为了支持一项正在进行的汉英机器翻译系统的开发,我们建立了一个汉英双语语料库。本文简要介绍了该语料库的建设和管理情况。  相似文献   

7.
该文通过改进字节对编码算法,提出了带字数阈值的藏文字节对编码算法,优化了基于注意力机制的汉藏神经机器翻译模型.收集整理了100万汉藏句对和20万汉藏人名地名词典,训练了汉藏神经机器翻译模型.通过测试和验证,模型的BLEU值达到36.84.该模型的命名实体翻译效果优于已商用汉藏在线翻译系统.同时,该文的神经机器翻译模型已...  相似文献   

8.
针对内蒙古地区机器翻译力量薄弱、技术落后等现状,提出一种基于实例的翻译方法,使用不同粒度的对齐技术对蒙汉双语语料库进行处理,根据相似度算法进行匹配和重组并生成译文.实验结果表明:利用实例库相似度检测的方法能够对特定领域的蒙古语做出有效的翻译,并在一定程度上提高翻译质量,在蒙汉机器翻译中具有较好的应用价值.  相似文献   

9.
机器翻译系统中,语言技术是居于核心地位的;谓语是句子结构的核心,动词又是谓语的主要形式,因此翻译系统中的动词的处理至关重要。本文依据汉藏翻译系统的需要,通过汉藏实际语料的对比分析,进行了汉藏动词的特点比较,就动词的分类、动词的时态及动词作句子各种成分时其形态的变化规律进行了深入的讨论,并提出了处理策略,为有效地提高系统的翻译质量提供了有益的方法和思路。  相似文献   

10.
首先介绍文献术语的重要性和分布情况,归纳常用的文献术语抽取方法,进而提出一种从英汉平行语料库中自动抽取术语的算法.主要采用基于字符长度的改进的统计方法对平行语料进行句子级的对齐,并对英文语料和中文语料分别进行词性标注.统计已对齐和标注的双语语料中的名词和名词短语生成候选术语集.然后对每个英文候选术语计算与其相关的中文翻...  相似文献   

11.
0Howtoselectappropriatewoadsina~lationisoneofthemostdifficultpmblemsinmachine~slation.ItSaamsistoselectaappropriatewoadinatal'getlangUageaccoalingtothecontextofthesourcelangUage.Whetherwecanselectcorrecttal'getwordseffeCtthet~slationqUalitydirectly.ThemaingoftargetwordselectionissimilartolexicaltlansferandlexicaldisalnbigUation,anditisessentiallyaninstanceofwoldsensedisalnbigUationinmachinellanslahon.Thecurrentmethaneofselectingwoallinat-lanslationcanbedividedintolhreecategories,whichare1.t…  相似文献   

12.
通过对菲律宾语的词法分析、句法分析、语义分析等基础研究和机器翻译、拼写检查、情感分析等应用技术的研究进展进行分析,得知菲律宾语仍属于语言资源较为缺乏的低资源语言,在菲律宾语自然语言处理领域,现有研究比较宽泛但不深入,与英语、汉语等语种的自然语言处理研究相比,还存在较大差距;相较而言,英菲平行语料库构建及其机器翻译的研究取得了较大进展,而其他领域研究进展相对缓慢。总体来说,通过跨语言处理技术构建跨语言平行语料库,推动深度学习应用于菲律宾语自然语言处理的方法研究,探讨基于规则、图模型、结构等方法对菲律宾语文本自动摘要的适用性,将是未来菲律宾语自然语言处理的主要研究方向。  相似文献   

13.
探讨汉英句级对齐软件设计中两项主要技术,即哈希算法与词典语义映射在对齐中的运用。哈希算法能帮助软件从词典大量的英汉词条语义信息中快速提取所需的对应义,结合语义映射,将需要对齐的句子关键词信息进行语义识别,从而有效提高汉英句子对齐效果。  相似文献   

14.
提出了一种基于实例的机器辅助写作翻译方法,设计并实现了这个系统,用以辅助写作翻译过程,规范人与计算机的分工与协作。该系统可以对单词、词组,以及词的搭配给出更精确的翻译解释,实际应用的结果也表明,它能有效地帮助中/英文用户更流畅的书写和翻译英/中文,保证写作翻译的效率和质量。此系统具有文本搜索、对应片段搜索和翻译记忆管理工具,文本搜索工具允许用户查询已经翻译好的文本或参考文档;对应片段搜索工具帮助用户检索出一个单词或一种表达方式在源语言和目标语言中的对应翻译结果;翻译记忆管理工具保存了文本片段的在源语言和目标语言中的对应关系。  相似文献   

15.
焊接工艺是SMT组装工艺中的一个步骤,其质量的优劣对其后的步骤有很大的影响,而且也直接影响到产品成本。因此,提高焊接质量、降低产品成本及焊接缺陷至关重要。影响SMT焊接质量的因素有很多,文章针对三种最为常见的焊料球、桥接、立碑等焊接缺陷,从现象、形成机理、原因等角度进行了分析,并提出了一些有效的解决办法。  相似文献   

16.
提出了一种基于实例的机器辅助写作翻译方法,设计并实现了这个系统,用以辅助写作翻译过程,规范人与计算机的分工与协作。该系统可以对单词、词组,以及词的搭配给出更精确的翻译解释,实际应用的结果也表明,它能有效地帮助中/英文用户更流畅的书写和翻译英/中文,保证写作翻译的效率和质量。此系统具有文本搜索、对应片段搜索和翻译记忆管理工具,文本搜索工具允许用户查询已经翻译好的文本或参考文档;对应片段搜索工具帮助用户检索出一个单词或一种表达方式在源语言和目标语言中的对应翻译结果;翻译记忆管理工具保存了文本片段的在源语言和目标语言中的对应关系。  相似文献   

17.
在实现基于网络语料库和双语网页搜索的辅助翻译系统的过程中,利用网络机器人从互联网上获取中英文双语对照网页,对它们进行过滤,留下有用的信息,再把中英文句子进行匹配存人数据库.分句匹配算法是语言翻译处理领域的双语句子对齐过程,它将网页净化后获得的有用信息进行匹配,产生最终的双语语料.对分句匹配算法进行了描述,并且研究了匹配算法的实现过程.  相似文献   

18.
为框正英文标识语错误频出的现状,按照功能翻译理论的"目的法则",就城市标识语英译存在的问题及翻译技巧进行分析,将标识语英译方法归纳为硬译法、习惯表达翻译法、增减词法、转化法和结构重组法、套译法等。在实践中融会贯通,以实现标识语的信息功能和祈使功能。  相似文献   

19.
针对传统的基于双语平行语料的复述获取方法在复述获取和应用的过程中忽视文档上下文的缺点,引入基于主题模型的上下文信息来改善复述获取-主要致力于如何计算上下文无关的复述生成概率和上下文相关的复述生成概率.研究如何将上述2种概率融入统计机器翻译建模,以提高翻译系统的性能.多个测试集上的实验结果证明了该方法的有效性.  相似文献   

20.
基于长度和位置信息的双语句子对齐方法   总被引:8,自引:0,他引:8  
提出了一种利用句子长度和位置信息的双语句子对齐方法,该方法的根本思想是:一定长度的句对在双语文本中的位置分布是相似的,利用(1∶1)型的句珠代替高频词作为候选锚点,使这种方法具有通用性.利用多种形式的测试数据进行的评价结果显示,这种方法有着良好的健壮性和语言无关性,有效地解决了双语真实文本的句子对齐问题.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号