共查询到19条相似文献,搜索用时 156 毫秒
1.
多策略机器翻译系统IHSMTS中候选实例模式检索算法 总被引:2,自引:0,他引:2
基于实例的机器翻译系统EBMT都需要有一个非常大的实例模式库,其数量级通常在百万句对以上.因此,如何从中快速地选择出一定数量的与待翻译的输入句子比较相似的候选实例,提供给后续句子相似度计算、类比译文构造等模块作进一步的处理,是EBMT系统所必须解决的一大难题.文章基于句子的词表层特征和信息熵提出了一种多层次候选实例模式检索算法,通过在多策略机器翻译系统IHSMTS上的运行测试。结果表明该算法较好的解决了这一难题. 相似文献
2.
实例匹配是基于实例的机器翻译(Exanlple_Based Machine Translation,简称EBMT)系统实现的关键,它直接关系到EBMT系统本身的翻译质量。在基于模式的实例匹配方法中,模式的构造是基础。依据“谓词(或特殊词) 常见搭配成分”的形式构造汉语中常见的句子模式,并应用于汉英EBMT中的相似实例匹配。该模式构造方法可以有效地提高当前汉英EBMT系统的实现效率与准确率。 相似文献
3.
提出了一种改进互信息的译文选择方法,认为词语的译文的选择不是孤立进行的,上下文对译文的选择有着重要的意义,通过对已有的互信息公式加入翻译模型特征进行改进,结合翻译模型与互信息来选择最佳译文,经过BLEU(BiLingual Evaluation Understudy)作为机器评价准则的实验结果表明,该方法优于传统的互信息词语译文选择的方法. 相似文献
4.
杨娇 《计算机测量与控制》2021,29(1):194-199
传统的神经机器翻译方法在忽略句子层面语境的情况下,利用词层面语境来预测目标语的翻译,这有利于统计机器翻译中的翻译预测;但由于词的主题往往是根据句意和上下文动态变化的,存在一词多义等复杂情况;这会导致翻译的不准确;因此,利用卷积神经网络将句子级上下文表示为潜在的主题表示,并设计了一个主题关注度模型,将源句子级主题上下文信息集成到基于Attention和基于Transformer的神经机器翻译方法中;实验结果表明,提出的方法的BLEU评分最高大约等于40。 相似文献
5.
多策略机器翻译系统IHSMTS中实例模式泛化匹配算法 总被引:1,自引:1,他引:1
基于精确匹配的EBMT,由于翻译覆盖率过低,导致其难以大规模实际应用。本文提出一种实例模式泛化匹配算法,试图改善EBMT的翻译覆盖率:以输入的待翻译句子为目标导向,对候选翻译实例有针对性地进行实时泛化,使得算法既能满足实时文档翻译对速度的要求,又能充分利用系统使用过程中用户新添加和修改的翻译知识,从而总体上提高了系统的翻译覆盖率和翻译质量。实验结果表明,在语料规模为16 万句对的情况下,系统翻译覆盖率达到了75 %左右,充分说明了本文算法的有效性。 相似文献
6.
7.
8.
为解决基于短语统计机器翻译存在的调序能力不足的问题,尝试利用句法分析器对基于短语统计机器翻译的输入汉语句子进行句法分析,然后利用转换器进行调序操作,并对部分类型短语进行预先翻译,然后再利用基于短语统计机器翻译的解码器进行翻译。重点测试了汉语中“的”字引导的复杂定语调序、介词短语、特定搭配短语、方位词短语的调序及预翻译产生的效果。实验结果表明,这些调序及预翻译操作可以显著地提高基于短语的统计机器翻译的英文译文结果的BLEU值。 相似文献
9.
基于实例的机器翻译(Example-Based Machine Translation,简称EBMT)通过模仿实例的翻译实现源文的翻译.在EBMT中,实例的匹配是关键,它直接关系到EBMT本身的翻译质量.文章通过对现有几类实例匹配算法的比较和研究,提出一种基于模式的实例匹配算法. 相似文献
10.
在单语语料的使用上,统计机器翻译可通过利用语言模型提高性能,而神经机器翻译很难通过这种方法有效利用单语语料.针对此问题,文中提出基于句子级双语评估替补(BLEU)指标挑选数据的半监督神经网络翻译模型.分别利用统计机器翻译和神经机器翻译模型对无标注数据生成候选翻译,然后通过句子级BLEU指标挑选单语候选翻译,加入到有标注的数据集中进行半监督联合训练.实验表明,文中方法能高效利用无标注的单语语料,在NIST汉英翻译任务上,相比仅使用精标的有标注数据单系统,文中方法BLEU值有所提升. 相似文献
11.
神经机器翻译由于无法完全学习源端单词语义信息,往往造成翻译结果中存在着大量的单词翻译错误。该文提出了一种融入单词翻译用以增强源端信息的神经机器翻译方法。首先使用字典方法找到每个源端单词对应的目标端翻译,然后提出并比较两种不同的方式,用以融合源端单词及其翻译信息: ①Factored 编码器: 单词及其翻译信息直接相加; ②Gated 编码器: 通过门机制控制单词翻译信息的输入。基于目前性能最优的基于自注意力机制的神经机器翻译框架Transformer,在中英翻译任务的实验结果表明,与基准系统相比,该文提出的两种融合源端单词译文的方式均能显著提高翻译性能,BLEU值获得了0.81个点的提升。 相似文献
12.
针对专利文本翻译中长句翻译的问题,提出了一种句子切分算法,即把长句切分成多个独立的小句后再进行翻译的方法。切分算法使用了概念层次网络(HNC)理论的语义特征来切分小句,切分算法和一个基于规则的基线翻译系统进行了融合,融合后的翻译系统的BLEU值达到0189 8,比融合前的系统提高了30%。实验结果证明,提出的方法可以有效地改进专利翻译效果。 相似文献
13.
通过以目标信息为指导的卷积体系总结相关源信息,提出了一种系统的处理语言方法;利用在解码过程中使用不同的引导信号,经过特殊设计的卷积+门控体系结构可以查明与预测目标单词相关的源句子部分,并将其与整个源句子的上下文融合在一起形成统一表示形式;研究结果表明,模型将表示形式与目标语言单词一起馈入深度神经网络(DNN),形成更强大的神经网络联合模型(NNJM);通过两个NIST汉英翻译任务的实验验证,在相同设置下,tagCNN和inCNN在Dep2Str基线上的改善幅度分别为+1.28,+1.75 BLEU,所提出的模型分别优于NIST MT04和MT05的平均值+0.36,+0.83 BLEU,比传统DNN机器翻译平均提高了+1.08 BLEU点;模型为统计机器翻译研究提供了新思路。 相似文献
14.
15.
基于句子相似度的机器翻译评价方法及其有效性分析 总被引:5,自引:0,他引:5
为了帮助开发面向本地化的基于实例的机器翻译(EBMT)系统,提出利用句子相似度评价译文质量的方法.该方法能够较有效地区分不同翻译质量的译文,从而帮助开发者发现EBMT系统存在的问题.为了证明该评价方法的有效性,对比了6个机器翻译系统人工评价和自动评价的结果.通过相关分析和显著性检验,表明了此方法和人工方法存在高度的一致性.最后提出在自动评价结果的基础上利用线性回归预测人工评分方法. 相似文献
16.
针对目前机器翻译模型存在的曝光偏差和译文多样性差的问题,提出一种基于强化学习和机器翻译质量评估的中朝神经机器翻译模型QR-Transformer.首先,在句子级别引入评价机制来指导模型预测不完全收敛于参考译文;其次,采用强化学习方法作为指导策略,实现模型在句子级别优化目标序列;最后,在训练过程中融入单语语料并进行多粒度数据预处理以缓解数据稀疏问题.实验表明,QR-Transformer有效提升了中朝神经机器翻译性能,与Transformer相比,中—朝语向BLEU值提升了5.39,QE分数降低了5.16,朝—中语向BLEU值提升了2.73,QE分数下降了2.82. 相似文献
17.
基于词类串的汉语句子结构相似度计算方法 总被引:9,自引:1,他引:9
句子相似度的衡量是基于实例机器翻译研究中最重要的一个内容。对于基于实例的汉英机器翻译研究,汉语句子相似度衡量的准确性,直接影响到最后翻译结果的输出。本文提出了一种汉语句子结构相似性的计算方法。该方法比较两个句子的词类信息串,进行最优匹配,得到一个结构相似性的值。在小句子集上的初步实验结果表明,该方法可行,有效,符合人的直观判断。 相似文献
18.
19.
Sentence alignment is a basic task in natural lan-guage processing which aims to extract high-quality paral-lel sentences automatically.Motivated by the observation that aligned sentence pairs contain a larger number of aligned words than unaligned ones,we treat word translation as one of the most useful external knowledge.In this paper,we show how to explicitly integrate word translation into neural sentence alignment.Specifically,this paper proposes three cross-lingual encoders to incorporate word translation:1)Mixed Encoder that learns words and their translation annotation vectors over sequences where words and their translations are mixed alterma-tively;2)Factored Encoder that views word translations as fea-tures and encodes words and their translations by concatenating their embeddings;and 3)Gated Encoder that uses gate mechanism to selectively control the amount of word translations moving forward.Experimentation on NIST MT and Opensub-titles Chinese-English datasets on both non-monotonicity and monotonicity scenarios demonstrates that all the proposed encoders significantly improve sentence alignment performance. 相似文献