首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 796 毫秒
1.
该文总结了我们近几年来在基于句法的统计机器翻译方面所做的研究工作,特别是基于源语言句法的一系列统计机器翻译模型与方法,具体包括 基于最大熵括号转录语法的翻译模型,基于源语言短语结构树的树到串翻译模型及其相应的基于树的翻译方法,基于森林的翻译方法和句法分析与解码一体化翻译方法,基于源语言依存树的翻译模型。  相似文献   

2.
机构名翻译是机器翻译的研究内容之一,在机器翻译任务中机构名翻译的准确度,直接影响着翻译性能。在很多任务上,神经机器翻译性能优于传统的统计机器翻译性能,该文中使用基于transformer神经网络模型与传统的基于短语的统计机器翻译模型和改进后的基于语块的机器翻译模型做了对比试验。实验结果表明,在汉蒙机构名翻译任务上,基于transformer神经网络的汉蒙机构名翻译系统优于传统的基于语块的汉蒙机构名翻译系统,BLEU4值提高了0.039。  相似文献   

3.
在统计机器翻译中融入有价值的句法层面的语言学知识,对于推动统计机器翻译的发展,具有重要的理论意义和应用价值。提出了三种由简到繁的把双语最大名词短语融入到统计翻译模型的策略,整体翻译性能逐步上升。Method-III采用“分而治之”的策略,以“硬约束”的方式在统计机器翻译中融入最大名词短语,并在双语最大名词短语层面上,融合了短语翻译模型和层次短语模型,对翻译系统的改善最显著。所述策略显著提高了短语翻译模型的质量,在复杂长句翻译中,Method-III的BLEU值比基于短语的基线翻译模型提高了3.03%。  相似文献   

4.
韩语机器翻译受到韵律格式影响,导致翻译的可靠性不好,提出基于改进神经网络的韩语机器翻译系统设计方法。采用语料库模型建立韩语机器翻译系统的双语平行语料库,建立以深度学习为基础的神经网络翻译语义控制模型,采用规则和模板的匹配方法,采用统计机器翻译的方法,构建以语义综合评估为翻译结构参数模型的韩语机器翻译自然语言处理模型,采用无监督的神经网络学习方法,建立韩语机器翻译的语义对照模型,实现迭代反向翻译和回译。系统构建中,设计了数据库模块、语义推荐模块、数据访问层模块和翻译生成模块,在改进神经网络模型下实现机器翻译系统设计。测试结果表明,该方法进行韩语机器翻译的可靠性较好,具有很好的语义连贯性、翻译一致性和翻译流利性,翻译输出的准确度较高。  相似文献   

5.
基于短语的汉蒙统计机器翻译研究   总被引:1,自引:0,他引:1       下载免费PDF全文
基于短语的统计机器翻译是当前统计机器翻译的主流方法。研究了利用现有技术和资源搭建一个基于短语的汉蒙机器翻译系统的方法,并且构建了一个汉蒙机器翻译的自动评价平台,在此基础上利用词典和蒙古语形态学信息来提高了翻译系统的性能。  相似文献   

6.
针对维汉机器翻译中未登录词和译文乱序问题严重的现象, 结合维吾尔语粘着性语言特点以及最大熵分类算法, 提出了一种基于粘着性模糊规则的维汉机器翻译最大熵调序模型。该模型以最大熵模型为基础, 在维吾尔语词级别构建粘着性规则约束, 从训练语料中提取更加有效的调序规则来指导翻译解码过程。实验证明, 与当前主要MSD(mono、swap、discontinuous)等调序方法相比, 该方法较好地体现了维吾尔语的粘着性特点, 提高了译文质量。  相似文献   

7.
为提高汉-英统计机器翻译的翻译效果,提出一个基于依存句法关系的语言模型,在较成熟的基于短语翻译的统计特征下,对解码产生的NBEST候选翻译结果进行进一步约束,重新计算得分,调整NBEST候选翻译序列,以得到最佳翻译。实验以"Pharaoh"为比较基准,以500句汉英句对为测试集,最终的实验结果表明,提出的基于依存句法关系的语言模型可以在一定程度上提高汉-英统计机器翻译最佳翻译的正确率。  相似文献   

8.
解码器是统计机器翻译研究的关键部分。在基于短语的统计机器翻译的基础上,结合对数线性模型的思想加入多个特征模型,研究了一种动态规划的柱搜索解码算法。详细介绍此算法在解码器中的具体实现,并对翻译速度和精度作了分析。  相似文献   

9.
该文结合最小上下文构成代价模型,借鉴并利用统计机器翻译的方法,尝试解决蒙古文形态切分问题。基于短语的统计机器翻译形态蒙文切分模型和最小上下文构成代价模型分别对词表词和未登录词进行形态切分。前者选取了短语机器翻译系统中三个常用的模型,包括短语翻译模型、词汇化翻译模型和语言模型,最小上下文构成代价模型考虑了一元词素上下文环境和词缀N-gram上下文环境。实验结果显示 基于短语统计机器翻译形态切分模型对词表词切分,最小上下文构成代价模型对未登录词处理后,总体的切分准确率达到96.94%。此外,词素融入机器翻译系统中后,译文质量有了显著的提高,更进一步的证实了本方法的有效性和实用性。  相似文献   

10.
该文提出了一种融合格框架的日汉基于语块的依存树到串统计机器翻译模型。其基本思想是从日语依存分析树获取格框架,在翻译模型的规则抽取及解码中,以日语格框架作为约束条件,指导依存树的句法结构重排,调整日语和汉语的句法结构差异,实现格框架与日汉依存树到串模型的融合。实验结果表明,该文提出的方法可有效改善日汉统计机器翻译的句法结构调序和词汇翻译,同时,还可有效提高日汉统计机器翻译的译文质量。  相似文献   

11.
Current statistical machine translation systems are mainly based on statistical word lexicons. However, these models are usually context-independent, therefore, the disambiguation of the translation of a source word must be carried out using other probabilistic distributions (distortion distributions and statistical language models). One efficient way to add contextual information to the statistical lexicons is based on maximum entropy modeling. In that framework, the context is introduced through feature functions that allow us to automatically learn context-dependent lexicon models.In a first approach, maximum entropy modeling is carried out after a process of learning standard statistical models (alignment and lexicon). In a second approach, the maximum entropy modeling is integrated in the expectation-maximization process of learning standard statistical models.Experimental results were obtained for two well-known tasks, the French–English Canadian Parliament Hansards task and the German–English Verbmobil task. These results proved that the use of maximum entropy models in both approaches, can help to improve the performance of the statistical translation systems.This work has been partially supported by the European Union under grant IST-2001-32091 and by the Spanish CICYT under project TIC-2003-08681-C02-02. The experiments on the Verbmobil task were done when the first author was a visiting scientist at RWTH Aachen-Germany.Editors: Dan Roth and Pascale Fung  相似文献   

12.
基于最大熵短语重排序模型的特征抽取算法改进   总被引:1,自引:0,他引:1  
该文针对统计机器翻译中基于最大熵短语重排序模型特征抽取算法,提出一种改进算法。该算法能够抽取出更多准确的短语重排序信息,特别是逆序短语的特征信息,解决了原算法中最大熵训练时特征数据不平衡的问题,提高了翻译中短语重排序的准确率。以NIST MT 05 作为汉语到英语翻译的测试集,实验结果表明改进后的系统BLEU值比原系统提高0.65%。  相似文献   

13.
由于历史典籍术语存在普遍的多义性且缺少古汉语分词算法,使用基于双语平行语料的对齐方法来自动获取典籍术语翻译对困难重重。针对上述问题,该文提出一种基于子词的最大熵模型来进行典籍术语对齐。该方法结合两种统计信息抽取频繁在一起出现的字作为子词,使用子词对典籍进行分词,解决了缺少古汉语分词算法的问题。针对典籍术语的多义性,根据典籍术语的音译模式制定音译特征函数,并结合其他特征使用最大熵模型来确定术语的翻译。在《史记》双语平行语料上的实验表明,使用子词的方法远远优于未使用子词的方法,而结合三种特征的最大熵模型能有效的提高术语对齐的准确率。
  相似文献   

14.
IHSMTS中实例模式获取机制的设计与实现   总被引:3,自引:0,他引:3  
IHSMTS是一种交互式多策略机器翻译系统。给出了该系统中模式知识获取机制的设计和实现方法,在这种模式知识获取机制中有机地结合了多种知识获取方式,包括:人机交互方式、基于机器翻译的源译文对照信息的自动获取、模式精炼方式和基于先验双语语料对齐的批量方式等,并通过模式验证算法实现对冗余、冲突等的检查,从而保证加入到模式库中的模式知识的单调递增生,同时实现模式适应性和准确性的平衡,使系统能够对实例模式库进行动态添加完善,从而动态递增地改善翻译效果。  相似文献   

15.
目前汉藏机器翻译的研究主要集中在基于规则的方法上,主要原因在于汉藏的平行语料等基础资源相对匮乏,不方便做大规模的基于统计的汉藏机器翻译实验。该文依据汉藏辅助翻译项目的实际需求,在平行语料资源较少的情况下,提出了一种基于短语串实例的机器翻译方法,为辅助翻译提供候选译文。该方法主要利用词语对齐信息来充分挖掘现有平行语料资源信息。实验结果表明,该文提出的基于短语串实例方法优于传统基于句子实例的翻译,能够检索出任意长度的短语串翻译实例。在实验测试集上,该方法与默认参数下的Moses相比,翻译的BULE值接近Moses,短语翻译实例串的召回率提高了约9.71%。在平均句长为20个词的测试语料上,翻译速度达到平均每句0.175s,满足辅助翻译实时性的要求。  相似文献   

16.
译文质量估计作为机器翻译中的一项重要任务,在机器翻译的发展和应用中发挥着重要的作用。该文提出了一种简单有效的基于Transformer的联合模型用于译文质量估计。该模型由Transformer瓶颈层和双向长短时记忆网络组成,Transformer瓶颈层参数利用双语平行语料进行初步优化,模型所有参数利用译文质量估计语料进行联合优化和微调。测试时,将待评估的机器译文使用强制学习和特殊遮挡与源语言句子一起输入联合神经网络模型以预测译文的质量。在CWMT18译文质量估计评测任务数据集上的实验结果表明,该模型显著优于在相同规模训练语料下的对比模型,和在超大规模双语语料下的最优对比模型性能相当。  相似文献   

17.
为了使中英文翻译更加智能以及更加合理,采用句子级的释义对译文进行改写,将其视为同一语言之间的翻译任务。在没有大规模平行释义语料库的情况下,利用机器翻译结果和源语言的参考翻译来近似平行释义语料库。然后,利用该模型训练一个从机器翻译结果到参考翻译的重复系统,生成语义一致的句子级重复结果。在此基础上,将重述结果引入系统整合的翻译假设中。最后,在翻译和释义的基础上,进行了面向移动应用的设计和开发,实现了中英文机器翻译。  相似文献   

18.
资源丰富场景下,利用相似性翻译作为目标端原型序列,能够有效提升神经机器翻译的性能.然而在低资源场景下,由于平行语料资源匮乏,导致不能匹配得到原型序列或序列质量不佳.针对此问题,提出一种基于多种策略进行原型生成的方法.首先结合利用关键词匹配和分布式表示匹配检索原型序列,如未能获得匹配,则利用伪原型生成方法产生可用的伪原型序列.其次,为有效地利用原型序列,对传统的编码器-解码器框架进行改进.编码端使用额外的编码器接收原型序列输入;解码端在利用门控机制控制信息流动的同时,使用改进的损失函数减少低质量原型序列对模型的影响.多个数据集上的实验结果表明,相比基线模型,所提出的方法能够有效提升低资源场景下的机器翻译性能.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号