共查询到18条相似文献,搜索用时 78 毫秒
1.
2.
3.
平行语料库处理初探:一种排序模型 总被引:1,自引:0,他引:1
十年来,统计方法在机器翻译中的应用得到了广泛的关注,并逐渐成为机器翻译研究的主流方法.构造高质量统计机器翻译系统的重要基础是大规模高质量的双语平行语料库.目前,多数平行语料库包含着错误或噪音,它们极大影响着统计机器翻译系统的性能.用人工手段来筛选语料库中的句对是费时费力的,本文研究了一种有助于处理这一问题排序模型,该模型考虑了多方面的因素,包括语言模型、长度信息、意义对应等.鉴于如今的统计机器翻译系统都依赖词对齐信息,词对齐因素也被考虑入本模型中.文章最后的实验及结果表明本模型具有较好的性能. 相似文献
4.
5.
6.
陈立弘 《数字社区&智能家居》2009,(7X):5591-5592
双语语料库自动对齐是自然语言处理的一个重要研究课题。针对基于词典的英汉双语句子对齐算法存在的缺点,提出了基于词典和相对位置高效英汉对齐算法,该算法在多数情况下具有较高的准确率,效率比传统算法好,通过理论的分析和实验对比可知,该算法是可行的。 相似文献
7.
汉维哈柯双语平行语料库是建设综合型语言知识库的有机组成部分,又是基于实例的机器翻译系统的基础。因为双语语料库中包含了两种语言互译信息特征,能够提供两种语言之间丰富的匹配信息,所以不仅在机器翻译、双语词典编纂等领域起到关键作用,而且在双语教学、跨语言文献检索等领域都有着广泛的应用前景。建设语料库的传统工艺流程繁琐、费时、耗力难以适应语言信息的变化速度,因此汉维哈柯双语平行语料库加工处理系统的实现对语料库的建设具有重要的作用。 相似文献
8.
陈立弘 《数字社区&智能家居》2009,(21)
双语语料库自动对齐是自然语言处理的一个重要研究课题。针对基于词典的英汉双语句子对齐算法存在的缺点,提出了基于词典和相对位置高效英汉对齐算法,该算法在多数情况下具有较高的准确率,效率比传统算法好,通过理论的分析和实验对比可知,该算法是可行的。 相似文献
9.
10.
除了机器翻译,平行语料库对信息检索、信息抽取及知识获取等研究领域具有重要的作用,但是传统的平行语料库只是在句子级对齐,因而对跨语言自然语言处理研究的作用有限。鉴于此,以OntoNotes中英文平行语料库为基础,通过自动抽取、自动映射加人工标注相结合的方法,构建了一个面向信息抽取的高质量中英文平行语料库。该语料库不仅包含中英文实体及其相互关系,而且实现了中英文在实体和关系级别上的对齐。因此,该语料库将有助于中英文信息抽取的对比研究,揭示不同语言在语义表达上的差异,也为跨语言信息抽取的研究提供了一个有价值的平台。 相似文献
11.
标题反映文章的灵魂,精确把握标题能迅速领悟文章的中心内容。本文利用统计机器翻译方法搭建了一个机器翻译平台,使用兹平台对航空领域标题进行翻译,井采用国际评测NIST工具对该平台进行了开放测试和对闭测试,测试结果表明该统计方法对领域标题翻译具有有效性。 相似文献
12.
双语平行语料库是构造高质量统计机器翻译系统的重要基础。与传统的通过扩大双语平行语料库规模来提高翻译质量的策略不同,本文旨在尽可能地挖掘现有资源的潜力来提高统计机器翻译的性能。文中提出了一种基于信息检索模型的统计机器翻译训练数据选择与优化方法,通过选择现有训练数据资源中与待翻译文本相似的句子组成训练子集,可在不增加计算资源的情况下获得与使用全部数据相当甚至更优的机器翻译结果。通过将选择出的数据子集加入原始训练数据中优化训练数据的分布可进一步提高机器翻译的质量。实验证明,该方法对于有效利用现有数据资源提高统计机器翻译性能有很好的效果。 相似文献
13.
为了解决在构建统计机器翻译系统过程中所面临的双语平行数据缺乏的问题,该文提出了一种新的基于中介语的翻译方法,称为Transfer-Triangulation方法。该方法可以在基于中介语的翻译过程中,结合传统的Transfer方法和Triangulation方法的优点,利用解码中介语短语的方法改进短语表。该文方法是在使用英语作为中介语的德-汉翻译任务中进行评价的。实验结果表明,相比于传统的基于中介语方法的基线系统,该方法显著提高了翻译性能。 相似文献
14.
15.
双语语料库建设及其自动对齐研究对计算语言学的发展具有重要的意义。目前国内外已建立了各类汉英双语语料库以及服务于汉英机器翻译的双语对齐语料库和短语库。为了少数民族语言的机器翻译的研究从一开始就从较高起点起步,需要对汉藏双语文本的篇章级、段落级、句子级自动对齐技术进行研究,为开发和研究汉藏机器翻译奠定基础。主要研究汉藏双语语料库对齐、汉藏双语词典抽取、双语语料的收集、整理、存储以及检索等关键技术。最终研究结果是藏文编码的自动识别与转换技术,藏语语料库构建技术、汉藏双语词典抽取技术、汉藏平行语料库句子和词语对齐技术,并建立面向汉藏机器翻译的大规模汉藏双语对齐语料库。 相似文献
16.
机器翻译错误分析旨在找出机器译文中存在的错误,包括错误类型、错误分布等,它在机器翻译研究和应用中发挥着重要作用。该文将人工译后编辑与错误分析结合起来,对译后编辑操作进行错误标注,采用自动标注和人工标注相结合的方法,构建了一个细粒度英汉机器翻译错误分析语料库,其中每一个标注样本包括源语言句子、机器译文、人工参考译文、译后编辑译文、词错误率和错误类型标注;标注的错误类型包括增词、漏词、错词、词序错误、未译和命名实体翻译错误等。标注的一致性检验表明了标注的有效性;对标注语料的统计分析结果能有效地指导机器翻译系统的开发和人工译员的后编辑。 相似文献
17.
面向机器翻译的中国手语的理解与合成 总被引:4,自引:0,他引:4
自然语言与可视化语言之间的自动翻译研究具有重大的现实意义和学术研究价值,它是一个崭新的、有发展前任的研究领域。该文从机器翻译的角度来考察汉语和中国手语之间的相同之处和差异,探讨两种语言在语序、句子结构、短语结构、特殊词类等方面的特点,建立了汉语中国手语机器翻译的一系列规则。在此基础之上,采用规则解释方法实现了一个汉语至可视化语言中国手语的翻译系统。 相似文献
18.