首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 171 毫秒
1.
越南语中存在大量的交叉歧义片段。为了解决交叉歧义给分词、词性标注、实体识别和机器翻译等带来的影响,该文选取统计特征、上下文特征和歧义字段内部特征,尝试性地构建最大熵模型,对越南语的交叉歧义进行消解。该文通过三种方法整理出包含174 646词条的越南语词典,然后通过正向和逆向最大匹配方法从25 981条人工标注好的越南语分词句子中抽取5 377条歧义字段,分别测试了三类特征对歧义模型的贡献程度,并对歧义字段做五折交叉验证实验,准确率达到了87.86%。同时,与CRFs进行对比实验,结果表明该方法能更有效消解越南语交叉歧义。  相似文献   

2.
统计机器翻译是近十年来的主流机器翻译技术,其在维汉机器翻译中良好的性能已经得到了广泛的认可。维汉统计机器翻译的最终翻译性能同样是受这几方面的影响:翻译模型、语言模型、语料质量和规模等。本文旨在通过对维汉双语训练语料的筛选来提高最终的机器翻译性能。在相关学者的研究基础上,本文提出了改进的IBM1模型评价句对齐质量、双语语言模型困惑度进行语料筛选和多种筛选指标综合求交集的方法。这些方法没有语言特性的依赖,支持维汉双语语料的筛选。通过实验可证明,使用这些方法筛选而来的语料训练出的维汉翻译模型的性能更优。  相似文献   

3.
维汉机器翻译未登录词识别研究   总被引:1,自引:1,他引:0  
针对维汉统计机器翻译中未登录词较多的现象和维吾尔语语言资源匮乏这一现状,结合维吾尔语构词特征以及相应的字符串相似度算法,提出了一种基于字符串相似度的维汉机器翻译未登录词识别模型。该模型借助短语表和外部词典,与未翻译的维语词求相似度,取相似度最大短语对应的汉语翻译作为此未登录词的最终翻译。实验证明,与基于词干切分的未登录词识别方法相比,此模型较好地保留了维吾尔语词信息,提高了译文的质量。  相似文献   

4.
CEMT—Ⅲ系统中汉语兼类问题的处理   总被引:2,自引:0,他引:2  
汉语中词的兼类是一个普遍存在的现象。任何工程化的汉语句法分析系统都不能回避这个重要而难以解决的歧义问题。本文根据汉英机器翻译系统CEMT-III的有2万词条的机器词典进行了统计, 其中兼类词占7.7%, CEMT-III系统采用多级渐进处理策略, 将确定性推理和非确定性推理相结合, 实现了汉语词的兼类自动消除机制。  相似文献   

5.
日汉机器翻译系统中的词典讨论   总被引:3,自引:0,他引:3  
本文讨论了日汉机器翻译系统中有关词典的同音词、同型词、兼类词、挑选汉译词以及惯用型处理等几个问题,这些问题的解决将直接影响日汉机器翻译系统的译文质量。  相似文献   

6.
未登录词与分词粒度是汉日日汉机器翻译研究的两个主要问题。与英语等西方语言不同,汉语与日语词语间不存在空格,分词为汉日双语处理的重要工作。由于词性标注体系、文法及语义表现上的差异,分词结果的粒度需要进一步调整,以改善统计机器翻译系统的性能。提出了面向统计机器翻译的基于汉日汉字对照表及日汉词典信息的汉语与日语的分词粒度调整方法。实验结果表明,该方法能有效地调节源语言和目标语言端的分词粒度,提高统计机器翻译系统的性能。通过对比实验结果,分析探讨分词粒度对汉日双语统计系统性能的影响。  相似文献   

7.
本文提出用面向对象理论来建立机器翻译词典基类的方法,成功地用一种通用的模式来实现机器翻译中各科电子词典的管理。新方法较大地提高了机器翻译系统的可靠性、可维护性与可重用性,并已在NHWIN中日-日中机器翻译系统中得到了很好的应用。  相似文献   

8.
针对维吾尔语数词类命名实体(时间、日期、货币、百分比)在维汉机器翻译中翻译不准确的问题,分析其构成规律及边界信息,设计基于维汉平行语料的维吾尔语数词类命名实体的识别与翻译系统。通过有限自动机结合触发词识别并翻译维语基本数词,从平行语料中自动抽取出翻译模板,匹配模板并实现翻译。实验表明,维吾尔语数词类命名实体的识别F值达到了91%,有效提高了维汉机器翻译的质量。  相似文献   

9.
针对维汉机器翻译中单个翻译模型翻译效果差且多个翻译模型间翻译差异较大的问题,提出一种基于释义信息的系统融合方法。通过提取汉语端释义信息对汉语翻译假设进行词对齐,利用词对齐信息构建并解码混淆网络,从而得到维汉机器翻译系统融合结果。实验结果表明,与单个翻译系统HPSTW相比,该方法能够有效提高翻译质量。  相似文献   

10.
IHSMT中的实例优化策略   总被引:1,自引:0,他引:1  
在基于实例的机器翻译方法中,通常采用双语句子实例的形式,但由于自然语言表达的无限多样性,使得这种存储粒度过大的句子级翻译实例的利用率较低;而在基于规则的机器翻译方法中,规则和词典具有一定的抽象性,其重复利用率高,但其中存在大量的歧义,提出了一种IHSMT中的实例自动优化算法,该算法引入了实例粒度的概念,根据规则和实例使用率,将粒度大的实例分解为较小的单元,并建立相应的词典,以提高实例的使用频率和检索效率,同时在翻译过程中,根据用户修改的统计和上下文信息,对粒度小并且有歧义的实例进行合并,以提高翻译质量和推理效率,从而使实例粒度更加合理,存储结构更优化,系统的效率更高。  相似文献   

11.
We propose an alternative method of machine–aided translation: Structure–Based Machine Translation (SBMT). SBMT uses language structure matching techniques to reduce complicated grammar rules and provide efficient and feasible translation results. SBMT comprises the following four features: (1) source language input sentence analysis; (2) source language sentence transformation into target language structure; (3) dictionary lookup; and (4) semantic disambiguation or word sense disambiguation (WSD) for correct output selection. SBMT has been designed and a prototype system has been implemented that generates satisfactory translations.  相似文献   

12.
基于深度学习的跨语言情感分析模型需要借助预训练的双语词嵌入(Bilingual Word Embedding,BWE)词典获得源语言和目标语言的文本向量表示.为了解决BWE词典较难获得的问题,该文提出一种基于词向量情感特征表示的跨语言文本情感分析方法,引入源语言的情感监督信息以获得源语言情感感知的词向量表示,使得词向量...  相似文献   

13.
面向信息检索的自适应中文分词系统   总被引:16,自引:0,他引:16  
新词的识别和歧义的消解是影响信息检索系统准确度的重要因素.提出了一种基于统计模型的、面向信息检索的自适应中文分词算法.基于此算法,设计和实现了一个全新的分词系统BUAASEISEG.它能够识别任意领域的各类新词,也能进行歧义消解和切分任意合理长度的词.它采用迭代式二元切分方法,对目标文档进行在线词频统计,使用离线词频词典或搜索引擎的倒排索引,筛选候选词并进行歧义消解.在统计模型的基础上,采用姓氏列表、量词表以及停词列表进行后处理,进一步提高了准确度.通过与著名的ICTCLAS分词系统针对新闻和论文进行对比评测,表明BUAASEISEG在新词识别和歧义消解方面有明显的优势.  相似文献   

14.
机器翻译错误分析旨在找出机器译文中存在的错误,包括错误类型、错误分布等,它在机器翻译研究和应用中发挥着重要作用。该文将人工译后编辑与错误分析结合起来,对译后编辑操作进行错误标注,采用自动标注和人工标注相结合的方法,构建了一个细粒度英汉机器翻译错误分析语料库,其中每一个标注样本包括源语言句子、机器译文、人工参考译文、译后编辑译文、词错误率和错误类型标注;标注的错误类型包括增词、漏词、错词、词序错误、未译和命名实体翻译错误等。标注的一致性检验表明了标注的有效性;对标注语料的统计分析结果能有效地指导机器翻译系统的开发和人工译员的后编辑。  相似文献   

15.
语料库作为基本的语言数据库和知识库,是各种自然语言处理方法实现的基础。随着统计方法在自然语言处理中的广泛应用,语料库建设已成为重要的研究课题。自动分词是句法分析的一项不可或缺的基础性工作,其性能直接影响句法分析。本文通过对85万字节藏语语料的统计分析和藏语词的分布特点、语法功能研究,介绍基于词典库的藏文自动分词系统的模型,给出了切分用词典库的结构、格分块算法和还原算法。系统的研制为藏文输入法研究、藏文电子词典建设、藏文字词频统计、搜索引擎的设计和实现、机器翻译系统的开发、网络信息安全、藏文语料库建设以及藏语语义分析研究奠定了基础。  相似文献   

16.
在信息检索,文本挖掘以及基于实例的机器翻译中,相似度计算都是一个关键问题.在实例机器翻译中,相似度计算一般是基于字符、词的匹配以及向量空间模型,但基于句子语义结构的相似度研究还不多见.借助了汉语框架语义网(Chinese FrameNet,简称CFN)的场景语义描述优势,提出了一种新的面向EBMT进行实例相似度计算的方...  相似文献   

17.
The lexicon is a major part of any Machine Translation (MT) system. If the lexicon of an MT system is not adequate, this will affect the quality of the whole system. Building a comprehensive lexicon, i.e., one with a high lexical coverage, is a major activity in the process of developing a good MT system. As such, the evaluation of the lexicon of an MT system is clearly a pivotal issue for the process of evaluating MT systems. In this paper, we introduce a new methodology that was devised to enable developers and users of MT Systems to evaluate their lexicons semi-automatically. This new methodology is based on the idea of the importance of a specific word or, more precisely, word sense, to a given application domain. This importance, or weight, determines how the presence of such a word in, or its absence from, the lexicon affects the MT system's lexical quality, which in turn will naturally affect the overall output quality. The method, which adopts a black-box approach to evaluation, was implemented and applied to evaluating the lexicons of three commercialEnglish–Arabic MT systems. A specific domain was chosen in which the various word-sense weights were determined by feeding sample texts from the domain into a system developed specifically for that purpose. Once this database of word senses and weights was built, test suites were presented to each of the MT systems under evaluation and their output rated by a human operator as either correct or incorrect. Based on this rating, an overall automated evaluation of the lexicons of the systems was deduced.  相似文献   

18.
该文通过构建古汉语词典模型,结合黎锦熙先生提出的句本位句法相关规则构造知识库,使用词义消歧算法,对古汉语进行基于规则的机器翻译研究。实验以基于句本位语法进行句法标注后的《论语》作为测试语料,以句子为单位进行机器翻译,通过获取待选义项、构建义项选择模型、调整句法顺序等手段生成翻译结果集,并使用二元语法模型对结果进行优选,得到机器翻译最终结果,最后对翻译结果进行了分析测评。  相似文献   

19.
基于Ontology的英汉机器翻译研究   总被引:8,自引:1,他引:7  
高质量的机器翻译(Machine Translation)系统必须充分结合语言学知识以及语言中性的世界知识。近年来,ontology被广泛用于在概念层对世界知识建模,本文介绍一个基于ontology的英汉机器翻译模型系统,在这个系统中,ontology作为世界知识的模型,它是通过把概念组织成一个层次结构并同时在概念间建立丰富的概念联系而构成的。通过把某种语言中的词汇映射到ontology中的概念,可以支持在源语言分析时进行歧义消解和目标语生成时的词汇选择,并可以作为源语言和目的语言之间的中介表示的概念来源。在系统中,中介表示是用概念图(Conceptual Graph)来表示的。  相似文献   

20.
短语对抽取是基于短语统计机器翻译方法的关键技术。当前广泛使用的Och提出的短语对抽取方法,过于依赖词对齐结果,因而只能抽取与词对齐完全相容的短语对。本文给出一种基于“松弛尺度”的短语抽取方法,对不能完全相容的短语对,结合词性标注信息和词典信息来判断是否进行抽取,放松“完全相容”的限制,可以保证为更多的源短语找到目标短语。实验表明,该抽取方法的性能比Och的方法有明显的改善和提高。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号