首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 109 毫秒
1.
CEMT—Ⅲ系统中汉语兼类问题的处理   总被引:2,自引:0,他引:2  
汉语中词的兼类是一个普遍存在的现象。任何工程化的汉语句法分析系统都不能回避这个重要而难以解决的歧义问题。本文根据汉英机器翻译系统CEMT-III的有2万词条的机器词典进行了统计, 其中兼类词占7.7%, CEMT-III系统采用多级渐进处理策略, 将确定性推理和非确定性推理相结合, 实现了汉语词的兼类自动消除机制。  相似文献   

2.
提出了Braille立体盲文的平面化输入方法,研究了非特定人孤立词语音识别技术,建立了一种新型盲人专用信息输入方法。该方法将Braille立体盲文抽象为平面符号,实现盲文的平面化输入及识别,并将连续隐马尔可夫模型的语音识别算法应用于非特定人孤立词语音系统中,利用嵌入式DSP系统实现了语音与盲文信号采集、处理和识别,为盲人信息输入提供了新的途径。实验结果表明,该系统语音指令识别率>92%,盲文字符识别率>91%。  相似文献   

3.
信息时代推进盲文数字化, 关乎我国广大盲人文化素质的提高和生活水平的改善. 本文实现了一种基于国家通用盲文标调规则的汉盲转换系统, 能够快速生成海量符合国家通用盲文方案的数字化资源, 满足视障人士无障碍获取信息的需求. 此系统按通用盲文规则处理汉语文本, 将其转换为符合标调规则、简写规则的盲文结果. 测试结果表明, 此系统可以准确处理标调规则、简写规则, 可得到准确的符合国家通用盲文方案的盲文数字化结果. 声调省写覆盖率、韵母简写覆盖率和篇幅增加量均与国家通用盲文方案的理论值相当, 能够快速处理长篇语料文件, 程序执行效率高, 具有实用价值, 可以用于推广国家通用盲文, 促进我国盲文数字化无障碍建设.  相似文献   

4.
汉语篇章中时间信息的分析及其在英语译文中的再现是汉英机器翻译的一个难点,本文首先提出了一种汉语篇章分析方法,然后建立了一个汉语篇章时间信息系统模型,并在汉英机器翻译中进行了实现工作。  相似文献   

5.
盲汉转换系统的研究与实现   总被引:1,自引:0,他引:1  
包塔  朱小燕 《计算机工程》2004,30(20):45-46,100
介绍了中文现行盲文和汉字相互转换中自然语言处理技术的研究与应用。在双拼盲文和汉字转换模型”研究的基础上,利用包含多知识的语言模型成功地实现了歧义程度更高的现行盲文和汉字的高精度转换。  相似文献   

6.
汉法机器翻译系统初探   总被引:2,自引:0,他引:2  
文章讨论了汉法机器翻译系统(CFMT)中的汉语分析和法语生成问题。以规范的汉语书面语的翻译为目标,研究可扩展的实用化的汉法机器翻译系统,系统中采用后部优先最大匹配算法及词义纠错的方法实施对源语文本的词切分,编程中将程序和规则相分离以提高系统的易维护和可扩充性。初步实现的系统曾对部分常用句型的例句进行了测试,表明该系统的设计是合理可行的。  相似文献   

7.
面向机器翻译的中国手语的理解与合成   总被引:4,自引:0,他引:4  
徐琳  高文 《计算机学报》2000,23(1):60-65
自然语言与可视化语言之间的自动翻译研究具有重大的现实意义和学术研究价值,它是一个崭新的、有发展前任的研究领域。该文从机器翻译的角度来考察汉语和中国手语之间的相同之处和差异,探讨两种语言在语序、句子结构、短语结构、特殊词类等方面的特点,建立了汉语中国手语机器翻译的一系列规则。在此基础之上,采用规则解释方法实现了一个汉语至可视化语言中国手语的翻译系统。  相似文献   

8.
汉盲转换是指将汉字文本自动转换为对应的盲文文本,其在盲文出版、盲人教育等领域具有重要应用价值,但当前已有系统性能难以满足实用需求。该文提出一种基于汉盲对照语料库和深度学习的汉盲自动转换方法,首次将深度学习技术引入该领域,采用按照盲文规则分词的汉字文本训练双向LSTM模型,从而实现准确度高的盲文分词。为支持模型训练,提出了从不精确对照的汉字和盲文文本中自动匹配抽取语料的方法,构建了规模为27万句、234万字、448万方盲文的篇章、句子、词语多级对照的汉盲语料库。实验结果表明,该文所提出的基于汉盲对照语料库和深度学习的汉盲转换方法准确率明显优于基于纯盲文语料库和传统机器学习模型的方法。  相似文献   

9.
该文以BLEU方法为基础,研究了基于实例的机器翻译评价方法在英汉翻译译文质量评价中的应用,并探讨了汉语词模型和字模型在研究汉语时特殊语言问题的影响。实验验证,利用BLEU方法能够在一定程度上分辨译文质量的优劣。  相似文献   

10.
汉语受限语言的设计与应用   总被引:6,自引:2,他引:4  
在机器翻译和自然语言理解等领域内, 受限语言的研究是一项有意义的工作。本文在分析考查现代汉语岐义短语的基础上, 设计了一个汉语受限语言, 籍以对存在汉语中的岐义进行受限处理, 并且给出了一个应用实例——面向受限汉语的机器翻译前编辑系统。  相似文献   

11.
神经机器翻译在平行语料充足的任务中能取得很好的效果,然而对于资源稀缺型语种的翻译任务则往往效果不佳.汉语和越南语之间没有大规模的平行语料库,在这项翻译任务中,该文探索只使用容易获得的汉语和越南语单语语料,通过挖掘单语语料中词级别的跨语言信息,融合到无监督翻译模型中提升翻译性能;该文提出了融合EMD(Earth Move...  相似文献   

12.
在特定领域的汉英机器翻译系统开发过程中,大量新词的出现导致汉语分词精度下降,而特定领域缺少标注语料使得有监督学习技术的性能难以提高。这直接导致抽取的翻译知识中出现很多错误,严重影响翻译质量。为解决这个问题,该文实现了基于生语料的领域自适应分词模型和双语引导的汉语分词,并提出融合多种分词结果的方法,通过构建格状结构(Lattice)并使用动态规划算法得到最佳汉语分词结果。为了验证所提方法,我们在NTCIR-10的汉英数据集上进行了评价实验。实验结果表明,该文提出的融合多种分词结果的汉语分词方法在分词精度F值和统计机器翻译的BLEU值上均得到了提高。  相似文献   

13.
近年来,随着人工智能和深度学习的发展,神经机器翻译在某些高资源语言对上取得了接近人类水平的效果。然而对于低资源语言对如汉语和蒙古语,神经机器翻译的效果并不尽如人意。为了提高蒙汉神经机器翻译的性能,该文基于编码器—解码器神经机器翻译架构,提出一种改善蒙汉神经机器翻译结果的方法。首先将蒙古语和汉语的词向量空间进行对齐并用它来初始化模型的词嵌入层,然后应用联合训练的方式同时训练蒙古语到汉语的翻译和汉语到蒙古语的翻译。并且在翻译的过程中,最后使用蒙古语和汉语的单语语料对模型进行去噪自编码的训练,增强编码器的编码能力和解码器的解码能力。实验结果表明该文所提出方法的效果明显高于基线模型,证明该方法可以提高蒙汉神经机器翻译的性能。  相似文献   

14.
针对蒙汉神经机器翻译过程中出现严重未登录词的问题,利用字节编码技术对蒙汉平行语料进行预处理,实验结果表明字节对编码技术有效缓解了未登录词现象。同时,为缓解蒙汉平行语料不足问题,将迁移学习策略应用到在蒙汉神经机器翻译中,实验结果表明最终的翻译译文提高了1.6个BLEU值。另外,考虑到在神经机器翻译模型中的双语词向量的质量对最终的翻译译文质量有较大影响,将基于Word2vec预训练得到的词向量嵌入到蒙汉神经机器翻译模型中,实验结果表明译文提升了0.6个BLEU值。  相似文献   

15.
维吾尔语新闻网页与对应的中文翻译网页在内容上往往并非完全可比,主要表现为双语句子序列的错位甚至部分句子缺失,这给维汉句子对齐造成了困难。此外,作为新闻要素的人名地名很多是未登录词,这进一步增加了维汉句子对齐的难度。为了提高维汉词汇的匹配概率,作者自动提取中文人名、地名并翻译为维吾尔译名,构造双语名称映射表并加入维汉双语词典。然后用维文句中词典词对应的中文译词在中文句中进行串匹配,以避免中文分词错误,累计所有匹配词对得到双语句对的词汇互译率。最后融合数字、标点、长度特征计算双语句对的相似度。在所有双语句子相似度构成的矩阵上,使用图匹配算法寻找维汉平行句对,在900个句对上最高达到95.67%的维汉对齐准确率。  相似文献   

16.
汉蒙统计机器翻译中的调序方法研究   总被引:1,自引:0,他引:1  
在基于短语的汉蒙统计机器翻译系统的研究中,我们发现存在着严重的语序错误。该文在对汉语和蒙古语句子语序进行研究的基础上,提出了基于蒙古语语序的汉语句子调序方法; 同时介绍了调序规则和调序算法的设计;最后给出了具体实验。实验证明这种方法明显提高了现有汉蒙机器翻译系统的性能。  相似文献   

17.
该文提出了一种从英汉平行语料库中自动抽取术语词典的算法。采用的是已对齐好的双语语料,中文经过了分词处理。利用英文和中文词性标注工具对英文语料和中文语料分辨进行词性标注。统计双语语料库中的名词和名词短语生成候选术集。然后对每个英文候选术语计算与其相关的中文翻译间的翻译概率。再通过设定阈值过滤掉一些与该英文候选词无关的中文翻译,最后通过贪心算法选取概率最大的词作为该英文候选词的中文翻译。  相似文献   

18.
利用单片机实现了对某引进的火灾监控报警系统液晶显示模块的汉化工作。系统中对显示信息建立相应的单词字典,进行逐词翻译。在翻译过程中,采用快速的Hash查找算法来进行查找翻译,构造了一个计算简单的哈希函数并设定了一种简单有效的处理冲突的方法,有效地缩短了翻译时间,满足了汉化系统实时性的要求。  相似文献   

19.
在神经机器翻译过程中,低频词是影响翻译模型性能的一个关键因素。由于低频词在数据集中出现次数较少,训练经常难以获得准确的低频词表示,该问题在低资源翻译中的影响更为突出。该文提出了一种低频词表示增强的低资源神经机器翻译方法。该方法的核心思想是利用单语数据上下文信息来学习低频词的概率分布,并根据该分布重新计算低频词的词嵌入,然后在所得词嵌入的基础上重新训练Transformer模型,从而有效缓解低频词表示不准确问题。该文分别在汉越和汉蒙两个语言对四个方向上分别进行实验,实验结果表明,该文提出的方法相对于基线模型均有显著的性能提升。  相似文献   

20.
汉语到维吾尔语的自动机器翻译有着重要的现实意义。目前对于汉维统计机器翻译方法的研究相对空白。该文提出了一种以维吾尔语为词干词缀粒度的汉维机器翻译方法。该方法利用维吾尔语形态分析后的词干词缀作为翻译的基本单位,并且根据其黏着语特性提出了一种基于有向图的维吾尔语“词干-词缀”语言模型。基于开放语料的实验证明我们的词干词缀翻译模型以及语言模型显著优于之前的基于词粒度的模型。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号