首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到15条相似文献,搜索用时 140 毫秒
1.
由于内蒙古地区蒙汉机器翻译水平落后、平行双语语料规模较小,利用传统的统计机器翻译方法会出现数据稀疏以及训练过拟合等问题,导致翻译质量不高。针对这种情况,提出基于LSTM的蒙汉神经机器翻译方法,通过利用长短时记忆模型构建端到端的神经网络框架并对蒙汉机器翻译系统进行建模。为了更有效地理解蒙古语语义信息,根据蒙古语的特点将蒙古文单词分割成词素形式,导入模型,并在模型中引入局部注意力机制计算与目标词有关联的源语词素的权重,获得蒙古语和汉语词汇间的对齐概率,从而提升翻译质量。实验结果表明,该方法相比传统蒙汉翻译系统提高了翻译质量。  相似文献   

2.
蒙古词法分析是蒙古语信息处理的基础性问题,是蒙古语信息处理工作的第一步。通过对统计模型和蒙古语构词规则进行深入研究,提出了一种融合统计和规则技术的蒙古语词切分和词性标注的方法。该方法以统计模型作为基本框架,采用树形结构描述系统的解空间,并加入了蒙古语语言学规则和词干、词缀词典。实验结果表明,该系统分词和词性标注的词级准确率为95.1%,词干/词缀级准确率为94.6%,较已有蒙古语词法分析系统的准确率有所提高。  相似文献   

3.
我们为蒙古语词法分析建立了一种生成式的概率统计模型。该模型将蒙古语语句的词法分析结果描述为有向图结构,图中节点表示分析结果中的词干、词缀及其相应标注,而边则表示节点之间的转移或生成关系。特别地,在本工作中我们刻画了词干到词干转移概率、词缀到词缀转移概率、词干到词缀生成概率、相应的标注之间的三种转移或生成概率,以及词干或词缀到相应标注相互生成概率。以内蒙古大学开发的20万词规模的三级标注人工语料库为训练数据,该模型取得了词级切分正确率95.1%,词级联合切分与标注正确率93%的成绩。  相似文献   

4.
传统蒙古文形态分析主要采用将蒙古文词缀和词干直接切分而仅保留词干的方法,该方法会丢掉蒙古文词缀所包含的大量语义信息。蒙古文词缀中包含大量格的附加成分,主要表征句子的结构特征,对其进行切分并不会影响词汇的语义特征,若不进行预处理则会造成严重的数据稀疏问题,从而影响翻译质量。因此,基于现有理论对语料预处理方法进行总结研究,重点研究了蒙古文格处理对翻译结果的影响,目的是从蒙古文形态分析的特殊性入手来提高蒙古文-汉文统计机器翻译的质量。通过优化预处理方法,使机器翻译结果的BLEU得分相比基线系统1提高了3.22个点。  相似文献   

5.
汉蒙语形态差异性及平行语料库规模小制约了汉蒙统计机器翻译性能的提升。该文将蒙古语形态信息引入汉蒙统计机器翻译中,通过将蒙古语切分成词素的形式,构造汉语词和蒙古语词素,以及蒙古语词素和蒙古语的映射关系,弥补汉蒙形态结构上的非对称性,并将词素作为中间语言,通过训练汉语—蒙古语词素以及蒙古语词素-蒙古语统计机器翻译系统,构建出新的短语翻译表和调序模型,并采用多路径解码及多特征的方式融入汉蒙统计机器翻译。实验结果表明,将基于词素媒介构建出的短语翻译表和调序模型引入现有统计机器翻译方法,使得译文在BLEU值上比基线系统有了明显提高,一定程度上消解了数据稀疏和形态差异对汉蒙统计机器翻译的影响。该方法是一种通用的方法,通过词素和短语两个层面信息的结合,实现了两种语言在形态结构上的对称,不仅适用于汉蒙统计机器翻译,还适用于形态非对称且低资源的语言对。  相似文献   

6.
蒙古语形态分析中,我们之前的有向图模型取得了较高的性能.这种建模方式以图状结构刻画句中词干和词缀之间的概率关系,从而借助上下文信息为每个词确定最佳的切分标注候选.为每个词尽可能地枚举出所有合法的切分标注候选,是有向图模型有效工作的前提.该文提出了一种基于判别式分类的词干词缀切分策略,与之前基于词干表和词缀表的枚举方案相...  相似文献   

7.
基于条件随机场的蒙古语词切分研究   总被引:1,自引:1,他引:1  
词干和构形附加成分是蒙古语词的组成成分,在构形附加成分中包含着数、格、体、时等大量语法信息。利用这些语法信息有助于使用计算机对蒙古语进行有效处理。蒙古语词在结构上表现为一个整体,为了利用其中的语法信息需要识别出词干和各构形附加成分。通过分析蒙古语词的构形特点,提出一种有效的蒙古语词标注方法,并基于条件随机场模型构建了一个实用的蒙古语词切分系统。实验表明该系统的词切分准确率比现有蒙古语词切分系统的准确率有较大提高,达到了0.992。  相似文献   

8.
近年来,随着人工智能和深度学习的发展,神经机器翻译在某些高资源语言对上取得了接近人类水平的效果。然而对于低资源语言对如汉语和蒙古语,神经机器翻译的效果并不尽如人意。为了提高蒙汉神经机器翻译的性能,该文基于编码器—解码器神经机器翻译架构,提出一种改善蒙汉神经机器翻译结果的方法。首先将蒙古语和汉语的词向量空间进行对齐并用它来初始化模型的词嵌入层,然后应用联合训练的方式同时训练蒙古语到汉语的翻译和汉语到蒙古语的翻译。并且在翻译的过程中,最后使用蒙古语和汉语的单语语料对模型进行去噪自编码的训练,增强编码器的编码能力和解码器的解码能力。实验结果表明该文所提出方法的效果明显高于基线模型,证明该方法可以提高蒙汉神经机器翻译的性能。  相似文献   

9.
该文结合最小上下文构成代价模型,借鉴并利用统计机器翻译的方法,尝试解决蒙古文形态切分问题。基于短语的统计机器翻译形态蒙文切分模型和最小上下文构成代价模型分别对词表词和未登录词进行形态切分。前者选取了短语机器翻译系统中三个常用的模型,包括短语翻译模型、词汇化翻译模型和语言模型,最小上下文构成代价模型考虑了一元词素上下文环境和词缀N-gram上下文环境。实验结果显示 基于短语统计机器翻译形态切分模型对词表词切分,最小上下文构成代价模型对未登录词处理后,总体的切分准确率达到96.94%。此外,词素融入机器翻译系统中后,译文质量有了显著的提高,更进一步的证实了本方法的有效性和实用性。  相似文献   

10.
维吾尔语形态较为复杂,构形词缀在维吾尔语中占有重要地位,其语法与汉语有较大差别。针对维吾尔语的形态特点,分析汉语端到维吾尔语端在统计机器翻译中维吾尔语词缀的作用,搭建基于短语的汉维统计机器翻译系统,对词级粒度、词干级粒度、最大词干级粒度、词干-词缀级粒度、词干-词尾级粒度的汉维平行语料库进行对比实验,研究不同粒度的维吾尔语对汉维机器翻译中的词语对齐质量和语言模型质量的影响。实验结果表明,在上述5种粒度的维吾尔语语料中,基于词干的维吾尔语和基于词干-词尾的维吾尔语目标端语料的翻译质量明显提高。  相似文献   

11.
词对齐研究是多文种信息处理工作的一项不容忽略的基础性研究内容。通过针对中文和蒙古文词对齐研究中存在的形态和词序不对称以及支撑词对齐研究的对齐语料缺乏问题,开展融合语言信息的中蒙混合词对齐模型构建方法研究。利用产生式词对齐结果以及中蒙两种语言的语言信息作为潜特征,建立高质量的融合语言信息的中蒙混合词对齐模型。实验结果证明,该文提出方法对于利用可比语料抽取对齐语料是可行的。  相似文献   

12.
蒙古文多变体附加成分智能化处理研究   总被引:3,自引:1,他引:2  
本文以蒙古文整词复杂特征合一计算和并行处理为科学目的,依据算法学可计算性理论,基于蒙古文整词输入法编码原理及方法,提出了一种多结点连续判断推理求解蒙古文多变体附加成分值的智能化模糊输入生成处理方法与技术。  相似文献   

13.
雪艳  应玉龙 《计算机应用》2009,29(7):2012-2015
在汉蒙词对齐任务的背景下,针对数词这一特殊的词类,提出了以阿拉伯数字作为转换中介的对齐方法。其基本思想是,将汉蒙文本中的数词分别转换为阿拉伯数字后再决定它们之间是否存在对应关系,即是否可以成为一个对齐连接。转换过程建立在汉蒙基本数词与阿拉伯数字信息对应表——numtable的基础上。numtable中设置了“标志位”信息,用以标明基本数词是否为“10”的倍数。数词到阿拉伯数字的转换模块依据numtable中的“标志位”信息,经过推理,将汉蒙数词分别转换为相应的阿拉伯数字。在实现转换时,不仅考虑了汉语数词和蒙古语数词各自的特征,而且以“词对齐”作为目标,对每一种语言内部不同类型的数词分别采取了不同的转换策略。  相似文献   

14.
To improve in-vocabulary performance in Mongolian speech keyword spotting task, we propose a Mongolian speech keyword spotting method by searching the stem according to the characteristic of Mongolian word-formation rule. First, Mongolian speech is decoded to lattice file by Segmentation-based LVCSR system, and this lattice file is converted to a confusion network. Then, we detect the keywords according to their stems among the confusion network. Experimental results show that the proposed method outperforms baselines based on word confusion network.  相似文献   

15.
针对蒙汉神经机器翻译过程中出现严重未登录词的问题,利用字节编码技术对蒙汉平行语料进行预处理,实验结果表明字节对编码技术有效缓解了未登录词现象。同时,为缓解蒙汉平行语料不足问题,将迁移学习策略应用到在蒙汉神经机器翻译中,实验结果表明最终的翻译译文提高了1.6个BLEU值。另外,考虑到在神经机器翻译模型中的双语词向量的质量对最终的翻译译文质量有较大影响,将基于Word2vec预训练得到的词向量嵌入到蒙汉神经机器翻译模型中,实验结果表明译文提升了0.6个BLEU值。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号