首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 46 毫秒
1.
神经机器翻译为机器翻译提供了一种全新的方法,在多对语言之间的翻译质量上,已超过了统计机器翻译,并逐渐成为当前机器翻译的主流方向。未登录词翻译是神经机器翻译的主要难点之一。为了消解未登录词,一种可行的方案是采用Byte Pair Encoding(BPE)方法。该方法在翻译前将原有的单词拆解为更小粒度的高频子字单元。该文主要探究BPE方法在中英神经机器翻译中的应用,分析BPE方法在多大程度上可以解决中英未登录词翻译缺失的问题。实验表明,与Baseline系统相比,BPE方法获得了1.02 BLEU值的提升,对未登录词的翻译精准度达到了45%,与统计机器翻译系统翻译精准度相似。  相似文献   

2.
蔡勇智 《福建电脑》2006,(3):116-117
未登录词识别是中文分词系统的两大难题之一。它时提高中文分词最终的正确率和召回率起着重要的作用。本文提出一种改进的未登录词识别算法,通过统计分析大规模语料库及未登录词词表,对前人的成词规则进行改进.并结合限制性成分时所识别的未登录词进行纠正,得出较准确的未登录词识别结果。该算法是规则和统计相结合并且侧重于规则的识别算法,是中文分词中比较有效的未登录词识别算法之一。  相似文献   

3.
联合式多引擎维汉机器翻译系统   总被引:1,自引:0,他引:1       下载免费PDF全文
根据维吾尔语形态变化丰富的特殊性,搭建一个基于Factored的维汉机器翻译系统,将Factored系统和基于层次短语的Joshua翻译系统以及Moses中基于句法的翻译模型进行系统融合,构建混淆网络。提出一种词级和句子级联合融合的维汉机器翻译方法,利用一致性网络进行词级融合,并采用最小贝叶斯算法进行句子级融合。实验结果表明,联合式多引擎方法能提高1.72%个BLUE-SBP值。  相似文献   

4.
由于微博内容话题分散,识别博文评论对象是微博情感分析研究的热点和难点。研究表明未登录词识别是导致评价短语识别率低的重要原因之一。针对这种情况,提出一种基于文本词序列的词频、凝聚度、左右自由度等统计特征学习未登录词识别模型的方法。实验结果表明,将自动识别的微博文本中的未登录词加入基于CRFs的评价短语识别算法后,显著地提高了评价短语识别的准确率和召回率。未登录词的学习算法直接利用评价短语识别的标注样本,具有较强的可行性。  相似文献   

5.
基于遗传算法的汉语未登录词识别   总被引:1,自引:0,他引:1  
针对汉语分词处理中未登录词识别这一难点,提出一种应用遗传算法识别的新方法.该方法扩大了分词碎片容量,将未登录词识别问题看成二值分类问题,即在预处理后产生的分词碎片中,单字存在"可组合"和"不可组合"两类,采用遗传算法先将分词碎片中的单字词确定下来,然后将其余相邻单字组合,完成未登录词识别.实验结果表明,该方法可有效地解决未登录词识别问题,提高未登录词识别的精确率和召回率.  相似文献   

6.
针对维汉机器翻译中单个翻译模型翻译效果差且多个翻译模型间翻译差异较大的问题,提出一种基于释义信息的系统融合方法。通过提取汉语端释义信息对汉语翻译假设进行词对齐,利用词对齐信息构建并解码混淆网络,从而得到维汉机器翻译系统融合结果。实验结果表明,与单个翻译系统HPSTW相比,该方法能够有效提高翻译质量。  相似文献   

7.
为有效降低维-汉统计机器翻译中语料质量对翻译质量的影响,对维吾尔语文本预处理技术进行研究,结合维吾尔语文本语料的语言特征和多样性,提出基于语法规则和词法规则结合的维吾尔语文本预处理方法。在对维吾尔语文本中的语义单元、对偶词和标点符号进行特征分析的基础上,导出维吾尔语文本词例化和标点符号规范化的规则和处理流程。实验结果表明,该研究有效降低了词对齐阶段的单词数量、缓解了数据稀疏,提高了翻译质量。  相似文献   

8.
基于WWW的未登录词识别研究   总被引:4,自引:2,他引:4  
一、引言当前,随着国民经济信息化的不断发展以及Internet的普及应用,全世界丰富的信息资源展现在我们每个人面前。如何从大量的信息中迅速有效地提取出所需信息极大地影响着我国计算机技术和信息技术的发展和应用推广。据统计,在信息领域中,80%以上的信息是以语言文字为载体的,因此,中文信息处理技术成为我国重要的计算机应用技术。未登录词的识别是中文信息处理技术中的难点之一。它在Internet数据挖掘、信息检索、图书馆图书文献管理、语音识别等应用中  相似文献   

9.
基于决策树的汉语未登录词识别   总被引:13,自引:0,他引:13  
未登录词识别是汉语分词处理中的一个难点。在大规模中文文本的自动分词处理中,未登录词是造成分词错识误的一个重要原因。本文首先把未登录词识别问题看成一种分类问题。即分词程序处理后产生的分词碎片分为‘合’(合成未登录词)和‘分’(分为两单字词)两类。然后用决策树的方法来解决这个分类的问题。从语料库及现代汉语语素数据库中共统计出六类知识:前字前位成词概率、后字后位成词概率、前字自由度、后字自由度、互信息、单字词共现概率。用这些知识作为属性构建了训练集。最后用C4.5算法生成了决策树。在分词程序已经识别出一定数量的未登录词而仍有分词碎片情况下使用该方法,开放测试的召回率:69.42%,正确率:40.41%。实验结果表明,基于决策树的未登录词识别是一种值得继续探讨的方法。  相似文献   

10.
由于GIS中文查询语句的理解是为了构造查询语句,而不同的应用系统其语料库的内容和结构有其特殊性,并且语料库也不可能穷尽所有的查询语句用词,所以本文提出了基于系统语料库的GIS中文查询语句的未登录词识别算法的研究。将识别出来的未登录词通过人机交互的方式加入语料库,使所输入的查询语句的分词有自动记忆的功能,测试
结果显示,此算法正确有效,为GIS中文查询语句的正确理解奠定了基础。  相似文献   

11.
朱相荣  王磊  杨雅婷  董瑞  张俊 《计算机应用》2020,40(7):1891-1895
现有的基于循环神经网络、卷积神经网络和Transformer的自回归翻译模型,虽然都具有良好的翻译性能,但由于解码并行性较低导致了翻译速度慢的问题,针对这个问题提出一种基于非自回归模型的优化学习率策略的方法。在基于迭代优化的非自回归序列模型的基础上,改变学习率调节方法,即把warm up替换为liner annealing方法。首先评估出liner annealing优于warm up方法,然后将liner annealing应用于非自回归序列模型以得到翻译质量和解码速度的最优平衡,最后将该方法与自回归模型的方法作对比。实验结果表明该方法相较于自回归模型Transformer,当解码速度提升1.74倍时,翻译质量的双语评估替换(BLEU)分数值为41.31,可达到Transformer的95.34%。由此可见,采用liner annealing的非自回归序列模型,在降低少许翻译质量的条件下,能够有效地提升解码速度,适用于对翻译速度需求迫切的平台。  相似文献   

12.
翻译记忆中语句相似度计算方法的研究   总被引:1,自引:0,他引:1  
周文  徐国梁 《计算机应用》2007,27(5):1210-1213
对翻译记忆的关键技术——语句相似度的几种常用计算方法进行了分析,针对英汉翻译记忆系统的要求,提出了基于块的方法计算英语句子相似度,通过将英语句子按照句型分类存储,组合句子各个组成块的语义相似度与权重来得到整个句子的相似度。结果证明,它能很好的反映句子在语义和结构上的相似程度。  相似文献   

13.
针对汉维统计机器翻译中维吾尔语具有长距离依赖问题和语言模型具有数据稀疏现象,提出了一种基于泛化的维吾尔语语言模型.该模型借助维吾尔语语言模型的训练过程中生成的文本,结合字符串相似度算法,取相似的维文字符串经过归一化处理抽取规则,计算规则的参数值,利用规则给测试集在解码过程中生成n-best译文重新评分,将评分最高的译文作为最佳译文.实验结果表明,泛化语言模型减少了存储空间,同时,规则的合理使用有效地提高了翻译译文的质量.  相似文献   

14.
将RNN编码器-解码器作为传统的基于短语的PSMT系统的一部分,在传统统计机器翻译基础上,集成RNN解码器-编码器,兼容PSMT创建了新联合模型(RNN+PSMT)。新的模型不仅在维-汉、汉-英机器翻译的应用中取得了成效,而且能够捕捉到语言的规律,使得机器翻译中的一个重要评价指标的BLEU值得到了显著提高。实验结果表明,系统的整体性能超过了传统统计机器翻译。  相似文献   

15.
针对目前机器翻译模型存在的曝光偏差和译文多样性差的问题,提出一种基于强化学习和机器翻译质量评估的中朝神经机器翻译模型QR-Transformer.首先,在句子级别引入评价机制来指导模型预测不完全收敛于参考译文;其次,采用强化学习方法作为指导策略,实现模型在句子级别优化目标序列;最后,在训练过程中融入单语语料并进行多粒度数据预处理以缓解数据稀疏问题.实验表明,QR-Transformer有效提升了中朝神经机器翻译性能,与Transformer相比,中—朝语向BLEU值提升了5.39,QE分数降低了5.16,朝—中语向BLEU值提升了2.73,QE分数下降了2.82.  相似文献   

16.
针对维汉机器翻译中未登录词和译文乱序问题严重的现象, 结合维吾尔语粘着性语言特点以及最大熵分类算法, 提出了一种基于粘着性模糊规则的维汉机器翻译最大熵调序模型。该模型以最大熵模型为基础, 在维吾尔语词级别构建粘着性规则约束, 从训练语料中提取更加有效的调序规则来指导翻译解码过程。实验证明, 与当前主要MSD(mono、swap、discontinuous)等调序方法相比, 该方法较好地体现了维吾尔语的粘着性特点, 提高了译文质量。  相似文献   

17.
汉维/维汉统计机器翻译中若干问题研究   总被引:2,自引:0,他引:2       下载免费PDF全文
针对汉语和维吾尔语形态差别较大的特点,借助开源的Moses工具箱,通过各种翻译模型的对比及相关实验结果的分析,深入探讨了对汉维/维汉翻译有影响的各种因素,包括词对齐问题,汉维翻译中主语、谓语中心词、时态等的一致性问题,维汉翻译中OOV的问题,汉维句法结构差异问题。最后给出了提高汉维/维汉统计翻译性能的一些建议。  相似文献   

18.
为提升维汉机器翻译模型的翻译能力,该文提出使用多编码器多解码器的结构,搭建大规模的维汉神经网络机器翻译模型。相比于单编码器单解码器的浅层的小模型,多编码器多解码器模型具有多个编码器,可以对源语言进行多层次、多视角的压缩表示;同时具有多个解码器,可以增强目标语言的生成能力。实验证明,在大规模的训练数据上,使用该方法搭建的大规模维汉神经网络机器翻译模型,译文质量可以大幅度地超过基于短语的统计机器翻译模型和基本的神经网络翻译模型。该文还针对维汉翻译源端语言和目标端语言的翻译单元粒度进行了实验,发现维吾尔语端使用字节对编码单元、汉语端使用字单元,可以消除对汉语分词器的依赖,做到和双端都使用字节对编码单元可比的效果。  相似文献   

19.
针对现有维吾尔语形态分析研究中存在的数据稀疏、模型构建复杂等问题,提出一种基于机器翻译的维吾尔语形态分析模型,即将维吾尔语词干提取(词性标注)任务中词干提取前(词性标注前)的句子看作是机器翻译模型训练过程中的源语言端,词干提取后(词性标注后)的句子看作是目标语言端;为了达到最佳的效果,加入了外部信息模块和联合校验模块以优化模型。实验结果表明,基于机器翻译框架的维吾尔语形态分析模型在词干提取、词性标注两个任务上优于其他模型。对比英语(词干提取、词性标注)、汉语(分词、词性标注)实验结果,提出的方法更适合维吾尔语形态分析。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号