首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
基于汉英双语语料库的翻译等价单位自动获取研究   总被引:6,自引:0,他引:6  
双语语料库在机器翻译或机器辅助翻译研究中的重要作用已经越来越多地得到研究人员的认可。本文探讨了如何利用汉英双语语料进行汉英翻译等价单位的抽取,提出了基于词语关联度进行多词组合单位的识别方法,并利用假设-检验的方法,在汉英双语语料库中抽取翻译等价单位。本文还对不同的关联度量方法进行了对比,并提出利用范畴假设改进抽取算法的效率。  相似文献   

2.
对循环神经网络和递归神经网络进行改进,提出深度融合的神经网络(DNN)模型,在训练过程中加入大规模特征.该模型有很强的泛化能力,适合于现在主流的自底向上解码样式,融合了2种经典的机器翻译模型:基于短语的层次化文法(HPG)和括号转录文法(BTG).使用改进的循环神经网络,生成适合短语生成过程的短语/规则对语义向量,并在生成过程中使用了自编码器以提高循环神经网络的性能.使用改进的递归神经网络,使它在翻译过程中指导解码,考虑到另一个解码器在解码过程中的信息,互相影响共同提高翻译性能.提出的深度融合模型不仅适合于异类翻译系统,也适合于异类语料.相对于经典的基线系统,在异类系统上该模型的实验结果获得1.0~1.9倍的BLEU分数提高,在异类语料上该模型的实验结果获得1.05~1.58的BLEU分数提高,且进行了统计显著性检验.  相似文献   

3.
神经机器翻译通过序列到序列的学习对翻译任务进行建模,目前使用注意力机制的神经机器翻译方法在多种语言对上都取得了很好的效果,但是在训练数据比较小的情况下(如汉语-越南语)神经机器翻译模型的性能并不理想.此外如何将统计机器翻译与神经机器翻译进行融合也是一个值得研究的问题.本文分析了记忆网络和神经机器翻译的特点,利用记忆网络对词汇翻译概率进行存储,将词汇翻译概率转化为向量表示,并与神经机器翻译模型进行融合,提出基于记忆网络融合词汇翻译概率的方法,并据此对神经机器翻译的解码进行指导.实验表明记忆网络是一种可行的翻译知识融合方式,并且在神经机器翻译模型中融入词汇翻译概率可以一定程度上解决训练数据小时模型训练不充分的问题.  相似文献   

4.
该文通过改进字节对编码算法,提出了带字数阈值的藏文字节对编码算法,优化了基于注意力机制的汉藏神经机器翻译模型.收集整理了100万汉藏句对和20万汉藏人名地名词典,训练了汉藏神经机器翻译模型.通过测试和验证,模型的BLEU值达到36.84.该模型的命名实体翻译效果优于已商用汉藏在线翻译系统.同时,该文的神经机器翻译模型已...  相似文献   

5.
低资源场景下神经机器翻译模型的翻译效果通常不如大规模训练数据下的模型翻译效果好。针对这个问题,选取RNN-based和Transformer-based两个主流神经机器翻译模型进行研究,探究在印尼语到汉语翻译在低资源场景下的机器翻译效果,并通过实验分析和案例分析,给出两种模型在印尼语到汉语低资源场景下翻译的适应性分析。  相似文献   

6.
为改变内蒙古地区蒙汉机器翻译发展相对落后的现状,采用基于统计的机器翻译方法将短语作为翻译的最基本单元,并基于最大熵模型提出了一种分词方法和词对齐方法,通过调序结果来输出译文.实验结果表明:改进后的翻译系统BLEU值在一定程度上有所提高,所提方法可为蒙汉应用研究提供参考.  相似文献   

7.
基于统计的词对齐方法需要大规模的双语语料作为输入,难以避免数据稀疏的问题并且算法时间开销大。针对句子或段落级的实时性对齐需求,提出了一种基于双向词典和语义相似度计算的高效词对齐算法,通过采用动态组块切分和匹配、基于知网的语义相似度计算、基于最大匹配的冲突消解和剪枝消歧等策略,有效地解决了由于翻译的灵活性和多样性带来的近似译文的词对齐问题。实验表明,该算法不仅继承了基于词典词对齐算法的优点,同时还改进了传统基于词典词对齐算法的不足,有效提升了词对齐的正确率和召回率,在小规模双语语料和实时性对齐方面具有更好的适用性。  相似文献   

8.
对机器翻译过程中译前编辑的有效性缺乏客观评价的问题进行研究,提出了基于词汇层面的译前编辑方法.以Google在线翻译为工具,采用双语评估替换方法(Bilingual Evaluation Understudy,BLEU),测量译前编辑之前与之后的机器翻译结果与参考译文的相似度.对比结果表明,词汇的增补、删减、替代和术语...  相似文献   

9.
为测评不同翻译系统产出的海洋科技文本英译汉译文质量,为海洋科技文本的译者更好地利用翻译系统、提高译文质量提供参考,针对有道翻译、百度翻译、谷歌翻译和搜狗翻译这四个机器翻译系统,提出以下问题:1.四个主流机器翻译系统产生的通用文本译文质量是否高于海洋科技文本译文质量;2.四个机器翻译系统翻译的海洋科技文本译文质量有无显著差异,有何差异。采用人工测评和自动测评相结合的方法,对四个机器翻译系统的海洋科技文本英译汉译文质量进行测评,并对人工测评和自动测评的结果进行比较,结果显示:1.四个机器翻译系统产生的通用文本译文质量高于海洋科技文本译文质量。2.自动测评中,将四个翻译系统的BLEU分值进行正态性检验后发现,各机器翻译系统产生的译文质量没有呈现显著性差异,但其平均值显示有道翻译高于其他三个系统;人工测评中,有道翻译在准确性和充分性方面均优于百度翻译、谷歌翻译和搜狗翻译。这说明,人工测评和自动测评结果基本一致。  相似文献   

10.
对于一部分目前统计处理消歧效果较差、但出现频率又很高的兼类词,手工编写针对性极强的消歧规则。在未经词汇对齐的平行语料中,实现了基于个性规则的词性消歧方法。本研究为5个典型兼类词(过去、计划、与、back、so)设计的平行消歧算法,在大规模平行语料中得到了验证,平均F值达到了98.45%。研究结果表明该规则具有不受上下文长度和模板数量限制、特别适合于双语平行处理、消歧效果好等优点。  相似文献   

11.
针对传统的基于双语平行语料的复述获取方法在复述获取和应用的过程中忽视文档上下文的缺点,引入基于主题模型的上下文信息来改善复述获取-主要致力于如何计算上下文无关的复述生成概率和上下文相关的复述生成概率.研究如何将上述2种概率融入统计机器翻译建模,以提高翻译系统的性能.多个测试集上的实验结果证明了该方法的有效性.  相似文献   

12.
面向跨语言信息检索任务提出了一个引入双语主题的跨语言伪相关反馈模型.将潜在狄利克雷分配模型扩展为能同时对双语文档建模的主题模型,其中每个主题既可以生成源语言词项,也可以生成目标语言词项;为查询式选择相关的双语主题,并利用其中的相关词项对查询翻译进行优化扩展,获得用于二次检索的新查询.实验结果表明,基于该反馈模型的跨语言检索效果优于其他基于单语主题模型和向量空间模型等反馈策略.  相似文献   

13.
针对内蒙古地区机器翻译力量薄弱、技术落后等现状,提出一种基于实例的翻译方法,使用不同粒度的对齐技术对蒙汉双语语料库进行处理,根据相似度算法进行匹配和重组并生成译文.实验结果表明:利用实例库相似度检测的方法能够对特定领域的蒙古语做出有效的翻译,并在一定程度上提高翻译质量,在蒙汉机器翻译中具有较好的应用价值.  相似文献   

14.
神经网络概率语言模型是一种新兴的自然语言处理算法,该模型通过学习训练语料获得词向量和概率密度函数,词向量是多维实数向量,向量中包含了自然语言中的语义和语法关系,词向量之间余弦距离的大小代表了词语之间关系的远近,词向量的加减代数运算则是计算机在“遣词造句”. 近年来,神经网络概率语言模型发展迅速,Word2vec是最新技术理论的合集. 首先,重点介绍Word2vec的核心架构CBOW及Skip-gram; 接着,使用英文语料训练Word2vec模型,对比两种架构的异同; 最后,探讨了Word2vec模型在中文语料处理中的应用.  相似文献   

15.
The performance of a machine translation system heavily depends on the quantity and quality of the bilingual language resource.However,getting a parallel corpus,which has a large scale and is of high quality,is a very difficult task especially for low resource languages such as Chinese-Vietnamese.Fortunately,multilingual user generated contents (UGC),such as bilingual movie subtitles,provide us access to automatic construction of the parallel corpus.Although the amount of UGC parallel corpora can be considerable,the original corpus is not suitable for statistical machine translation (SMT) systems.The corpus may contain translation errors,sentence mismatching,free translations,etc.To improve the quality of the bilingual corpus for SMT systems,three filtering methods are proposed:sentence length difference,the semantic of sentence pairs,and machine learning.Experiments are conducted on the Chinese to Vietnamese translation corpus.Experimental results demonstrate that all the three methods effectively improve the corpus quality,and the machine translation performance (BLEU score) can be improved by 1.32.  相似文献   

16.
The performance of a machine translation system heavily depends on the quantity and quality of the bilingual language resource.However,getting a parallel corpus,which has a large scale and is of high quality,is a very difficult task especially for low resource languages such as ChineseVietnamese.Fortunately,multilingual user generated contents (UGC),such as bilingual movie subtitles,provide us access to automatic construction of the parallel corpus.Although the amount of UGC parallel corpora can be considerable,the original corpus is not suitable for statistical machine translation (SMT) systems.The corpus may contain translation errors,sentence mismatching,free translations,etc.To improve the quality of the bilingual corpus for SMT systems,three filtering methods are proposed:sentence length difference,the semantic of sentence pairs,and machine learning.Experiments are conducted on the Chinese to Vietnamese translation corpus.Experimental results demonstrate that all the three methods effectively improve the corpus quality,and the machine translation performance (BLEU score) can be improved by 1.32.  相似文献   

17.
为了解决统计机器翻译语料对调序现象覆盖不足的问题,采用复述方法对语料进行扩展.提出了一种基于依存分析和句子生成的复述方法.对句子进行依存分析得到依存树,然后从依存树生成多个自然语言句子.生成的句子与原句相比没有词汇上的改变,但可以在词序方面进行变换.实验表明方法在不引入额外资源的前提下,有效缓解了语料覆盖不足的问题,提高了机器翻译质量.  相似文献   

18.
在实现基于网络语料库和双语网页搜索的辅助翻译系统的过程中,利用网络机器人从互联网上获取中英文双语对照网页,对它们进行过滤,留下有用的信息,再把中英文句子进行匹配存人数据库.分句匹配算法是语言翻译处理领域的双语句子对齐过程,它将网页净化后获得的有用信息进行匹配,产生最终的双语语料.对分句匹配算法进行了描述,并且研究了匹配算法的实现过程.  相似文献   

19.
通过对《牛津高阶英汉双解词典(第7版)》中对应词的等值翻译经验的研究,分析双解词典在翻译对应词时容易忽视的错误,从而对出版英汉双解词典和双语词典提供一定的借鉴意义。  相似文献   

20.
针对现有领域情感词典在情感和语义表达等方面的不足,提出一种基于词向量的领域情感词典构建方法。利用25万篇新闻语料和10万余条酒店评论数据,训练得到word2vec模型;选择80个情感明显、内容丰富、词性多样化的情感词作为种子词集;利用TF-IDF值在词汇重要程度的度量作用,在酒店评论中获得9 860个领域候选情感词汇;通过计算候选情感词与种子词的词向量之间的语义相似度,将情感词映射到高维向量空间,实现了情感词的特征向量表示(Senti2vec)。将Senti2vec应用于情感词极性分类和文本情感分析任务中,试验结果表明,Senti2vec能实现情感词的语义表示和情感表示;基于特定领域语料的语义相似计算,使得提取的情感特征更具有领域特性,同时不受候选情感词集范围的约束。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号