首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 864 毫秒
1.
机器翻译评测的新进展   总被引:4,自引:2,他引:4  
机器翻译评测对机器翻译的研究和开发具有至关重要的作用,对其的研究一直是国内外机器翻译界的重点课题。本文首先全面地介绍了最近出现的而且受到极大关注的机器翻译评测技术,即IBM公司的BLEU机器翻译评测标准和NIST采用的机器翻译评测技术。实验表明,自动翻译评测技术能够接近人工评价,评测结果也是可接受的。因此,采用自动翻译评测技术能够给自然语言处理的研究人员和开发人员带来很大的便利性。本文还展示了一个开放式的可扩展的自动翻译评测的平台,完全实现了BLEU和NIST评测标准,并做出了一定的改进使得该系统具有良好的使用性和可扩展性。  相似文献   

2.
2005统计机器翻译研讨班研究报告   总被引:4,自引:1,他引:4  
2005年7月13日至15日,中国科学院自动化研究所、计算技术研究所和厦门大学计算机系联合举办了我国首届统计机器翻译研讨班。本文主要介绍本次研讨班参加单位的测试系统和实验结果,并给出相应的分析。测试结果表明,我国的统计机器翻译研究起步虽晚,但已有快速进展,参评系统在短期内得到了较好的翻译质量,与往年参加863评测的基于规则方法的系统相比性能虽还有差距,但差距已经不大。从目前国际统计机器翻译研究的现状和发展趋势来看,随着数据资源规模的不断扩大和计算机性能的迅速提高,统计机器翻译还有很大的发展空间。在未来几年内,在基于短语的主流统计翻译方法中融入句法、语义信息,必将成为机器翻译发展的趋势。  相似文献   

3.
2005年度863机器翻译评测方法研究与实施   总被引:3,自引:2,他引:3  
为了能够全面了解国内外机器翻译技术的现状,促进机器翻译技术的研究,2005年度863计划机器翻译评测于2005年9月举行.本次评测进行了汉英、英汉、汉日、日汉、日英、英日6个语言方向,两种类型的评测以及汉英词语对齐的评测.本次评测采用了网上评测的形式,利用基于N-gram的NIST、BLEU以及人工评测方法对各系统的结果进行评测.本文给出了此次评测的组织、准备、过程、结果及分析.为国内外研究单位在机器翻译方面的进一步研究提供了数据.  相似文献   

4.
机器翻译系统跨领域移植方法的研究   总被引:1,自引:0,他引:1  
机器翻译系统跨领域移植是降低系统开发代价的关键性因素。论文以翻译模板对训练语料库机器译文评测分数的贡献为依据,对其进行评价。从模板库中过滤出适应目标领域的翻译知识,以实现系统向新领域的快速移植。利用论文所提出的方法将一个通用领域的机器翻译系统向旅游领域进行移植,并使用来自旅游领域的2469句汉语句子作为测试语料进行开放测试。实验结果表明在开放测试中,机器译文的5元Nist评分提高了2.2807,上升了71.1%。  相似文献   

5.
汉语分词是搭建汉语到其他语言的统计机器翻译系统的一项重要工作。从单语语料中训练得到的传统分词模型并不一定完全适合机器翻译[1]。该文提出了一种基于单语和双语知识的适应于统计机器翻译系统的分词方法。首先利用对齐可信度的概念从双语字对齐语料中抽取可信对齐集合,然后根据可信对齐集合对双语语料中的中文部分重新分词;接着将重新分词的结果和单语分词工具的分词结果相融合,得到新的分词结果,并将其作为训练语料,利用条件随机场模型训练出一个融合了单双语知识的分词工具。该文用该工具对机器翻译所需的训练集、开发集和测试集进行分词,并在基于短语的统计机器翻译系统上进行实验。实验结果表明,该文所提的方法提高了系统性能。  相似文献   

6.
李灿  杨雅婷  马玉鹏  董瑞 《计算机应用》2021,41(11):3145-3150
针对低资源语言机器翻译任务上一直存在的标注数据资源匮乏问题,提出了基于语种相似性挖掘的神经机器翻译语料库扩充方法。首先,将维吾尔语和哈萨克语作为相似语言对并将其语料进行混合;然后,对混合后的语料分别进行字节对编码(BPE)处理、音节切分处理以及基于音节切分的BPE处理,从而深度挖掘哈语和维语的相似性;最后,引入“开始-中部-结束(BME)”序列标注方法对语料中已切分完成的音节进行标注,以消除音节输入所带来的一些歧义。在CWMT2015维汉平行语料和哈汉平行语料上的实验结果表明,所提方法相较于不进行特殊语料处理以及BPE语料处理训练所得普通模型在维吾尔语-汉语翻译上的双语评估替补(BLEU)值分别提升了9.66、4.55,在哈萨克语-汉语翻译上的BLEU值分别提升了9.44、4.36。所提方案实现了维语和哈语到汉语的跨语言神经机器翻译,提升了维吾尔语-汉语和哈萨克语-汉语机器翻译的翻译质量,可应用于维语和哈语的语料处理。  相似文献   

7.
机器翻译评测对机器翻译有着极其重要的意义,它对翻译系统性能的提高做出了很大的贡献,同时促进了机器翻译的发展.本文在HNC机器翻译策略的基础上,对翻译语料的句类转换和句式转换做了初步的研究,并利用句类转换和句式转换的理论,建立了基于句类信息的自动评测的打分机制.  相似文献   

8.
神经机器翻译在资源丰富语言对中取得良好性能,但这种性能的取得通常以大规模的平行语料为前提。在民族语言与汉语之间仅存在小规模双语平行句对的情况下,该文提出把机器翻译中的数据增强技术融入多任务学习框架提升翻译性能。首先,通过对目标端句子进行简单的变换(如词序调整、词替换等)以产生非准确的新句子增强噪声;其次,将上述扩增的伪平行语料作为辅助任务融入一个多任务学习框架中以充分训练编码器,并使神经网络将注意力转移到如何使编码器中的源语言句子拥有更丰富准确的表示。通过在全国机器翻译大会(CCMT 2021)蒙汉、藏汉以及维汉3种机器翻译评测数据集上进行6个方向的互译实验,结果表明,在上述民汉翻译任务上,该文方法均显著优于基线系统及多种常见的机器翻译数据增强方法。  相似文献   

9.
利用上下文信息的统计机器翻译领域自适应   总被引:1,自引:0,他引:1  
统计机器翻译系统用于翻译领域文本时,常常会遇到跨领域的问题 当待翻译文本与训练语料来自同一领域时,通常会得到较好的翻译效果;当领域差别较大时,翻译质量会明显下降。某个特定领域的双语平行语料是有限的,相对来说,领域混杂的平行语料和特定领域的单语文本更容易获得。该文充分利用这一特点,提出了一种包含领域信息的翻译概率计算模型,该模型联合使用混合领域双语和特定领域源语言单语进行机器翻译领域自适应。实验显示,自适应模型在IWSLT机器翻译评测3个测试集上均比Baseline有提高,证明了该文方法的有效性。  相似文献   

10.
汉语成语是汉语的精华,拥有特有的语言形式,并经常出现在汉语中。但是由于汉英统计机器翻译训练语料中成语的稀疏性和现今大多机器翻译系统并没有对成语进行特殊的处理和研究,在汉英机器翻译中成语的翻译并不理想。针对该问题,本文提出了基于复述技术的两种方法来提高汉英统计机器翻译系统中成语翻译的能力。方法1: 测试集成语复述替换;方法2: 训练集成语复述替换。实验结果表明,方法1可以解决成语未登录词问题,提高成语翻译能力。方法2可以解决训练语料中成语稀疏问题,改善翻译训练模型。  相似文献   

11.
随着统计方法逐渐成为机器翻译研究的主流,机器翻译系统评测的分值越来越高,人们对机器翻译的信心和期望逐渐增加,社会对机器翻译应用的需求也越来越大。然而,现有的机器翻译理论和方法在系统性能上提升的空间逐渐减小,而且距离用户实际需求仍有很长的路要走。那么,面对期望、面对需求,机器翻译之路应该如何走?为此,第八届全国机器翻译研讨会对当前机器翻译研究所面临的挑战和机遇进行了深入研讨。该文详细介绍了该次研讨会六个专题的讨论情况,对机器翻译研究面临的机遇和挑战进行了认真的分析和总结。  相似文献   

12.
该文研究的目的是在待翻译文本未知的情况下,从已有的大规模平行语料中选取一个高质量的子集作为统计机器翻译系统的训练语料,以降低训练和解码代价。该文综合覆盖度和句对翻译质量两方面因素,提出一种从已有平行语料中获取高质量小规模训练子集的方法。在CWMT2008汉英翻译任务上的实验结果表明,利用本文的方法能够从现有大规模语料中选取高质量的子集,在减少80%训练语料的情况下达到与Baseline系统(使用全部训练语料)相当的翻译性能(BLEU值)。  相似文献   

13.
Learning Translation Templates from Bilingual Translation Examples   总被引:9,自引:1,他引:8  
A mechanism for learning lexical correspondences between two languages from sets of translated sentence pairs is presented. These lexical level correspondences are learned using analogical reasoning between two translation examples. Given two translation examples, the similar parts of the sentences in the source language must correspond to the similar parts of the sentences in the target language. Similarly, the different parts must correspond to the respective parts in the translated sentences. The correspondences between similarities and between differences are learned in the form of translation templates. A translation template is a generalized translation exemplar pair where some components are generalized by replacing them with variables in both sentences and establishing bindings between these variables. The learned translation templates are obtained by replacing differences or similarities by variables. This approach has been implemented and tested on a set of sample training datasets and produced promising results for further investigation.  相似文献   

14.
针对汉语—维吾尔语的统计机器翻译系统中存在的语义无关性问题,提出基于神经网络机器翻译方法的双语关联度优化模型。该模型利用注意力机制捕获词对齐信息,引入双语短语间的语义相关性和内部词汇匹配度,预测双语短语的生成概率并将其作为双语关联度,以优化统计翻译模型中的短语翻译得分。在第十一届全国机器翻译研讨会(CWMT 2015)汉维公开机器翻译数据集上的实验结果表明,与基线系统相比,在使用较小规模的训练数据和词汇表的条件下,所提方法可以有效地同时提高短语级别和句子级别的机器翻译任务性能,分别获得最高2.49和0.59的BLEU值提升。  相似文献   

15.
译文质量估计作为机器翻译中的一项重要任务,在机器翻译的发展和应用中发挥着重要的作用。该文提出了一种简单有效的基于Transformer的联合模型用于译文质量估计。该模型由Transformer瓶颈层和双向长短时记忆网络组成,Transformer瓶颈层参数利用双语平行语料进行初步优化,模型所有参数利用译文质量估计语料进行联合优化和微调。测试时,将待评估的机器译文使用强制学习和特殊遮挡与源语言句子一起输入联合神经网络模型以预测译文的质量。在CWMT18译文质量估计评测任务数据集上的实验结果表明,该模型显著优于在相同规模训练语料下的对比模型,和在超大规模双语语料下的最优对比模型性能相当。  相似文献   

16.
为了解决在构建统计机器翻译系统过程中所面临的双语平行数据缺乏的问题,该文提出了一种新的基于中介语的翻译方法,称为Transfer-Triangulation方法。该方法可以在基于中介语的翻译过程中,结合传统的Transfer方法和Triangulation方法的优点,利用解码中介语短语的方法改进短语表。该文方法是在使用英语作为中介语的德-汉翻译任务中进行评价的。实验结果表明,相比于传统的基于中介语方法的基线系统,该方法显著提高了翻译性能。  相似文献   

17.
神经机器翻译是目前机器翻译领域最热门的研究方法。和统计机器翻译相比,神经机器翻译在语料丰富的语种上可以取得非常好的结果,但是在资源比较稀缺的语种上表现一般。该文利用数据增强技术对资源贫乏语种的训练数据进行扩充,以此增强神经机器翻译的泛化能力。该文在藏汉、汉英两种语言对上进行了实验,当训练数据规模只有10万平行句对时,相较于基准系统,在两种语言对上均获得了4个BLEU值的提高。实验表明,数据增强技术可以有效地解决神经机器翻译因为训练数据太少而导致的泛化能力不足问题。  相似文献   

18.
针对互联网上日渐丰富的多语言文本和匮乏大规模标注平行语料库的问题,为了从多语言的信息源挖掘语言间的关联性与扩展知识图谱,提出了基于注意力迁移的跨语言关系提取方法。首先针对语言间的实际平行语料情况,分类进行跨语言平行语料映射,并针对缺乏种子词典的低资源语言对,提出神经网络翻译模型获取目标语言数据集并保存多语言间的对应注意力权重关系,然后利用BERT端对端的联合抽取模型抽取训练数据实体关系特征,反向迁移语言间注意力权重关系,最后利用反向迁移的注意力进行增强的关系抽取。实验表明,该模型的关系提取效果相比其他模型在准确率和回归上都有所提升,在缺乏双语词典情况下也表现出较好的性能。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号