首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 83 毫秒
1.
语义Web中的本体自动映射   总被引:51,自引:0,他引:51  
唐杰  梁邦勇  李涓子  王克宏 《计算机学报》2006,29(11):1956-1976
分布式语义信息集成足语义Web面临的六大挑战之一.本体映射是语义集成的关键.文章基于贝叶斯决策理论提出最小风险的本体映射模型;RiMOM(Risk Minimization based Ontology Mapping).RiMOM将映射发现问题转换成风险最小化问题,提供了一个多策略的本体映射方法.该方法不仅在1:1的映射上取得了较好的效果,还实现了n:1映射,实验表明在几个公开的数据集上,RiMOM可以取得比同类方法更高的查准率和查全率.  相似文献   

2.
一个从中间语言生成目标语言的原理和方法   总被引:3,自引:0,他引:3       下载免费PDF全文
本文介绍了我们的汉英机器翻译系统(CETRAN)中一种从中间语言生成英语的生成系统,讨论了从中间语言留到目标语言转换的基本原理.目的在于通过解决汉英之间语法和语义方面的差异,得到高质量的机译结果.文中还介绍了基于语义驱动的由中间语生成英文目标语的计算机实现算法.为了说明清楚,整个叙述都注意列举了一些实例.  相似文献   

3.
智能机器翻译系统中的语境处理   总被引:1,自引:0,他引:1  
现有机器翻译系统一般都是集中在句子层面上进行翻译,较少考虑句子之间的语境信息,导致有许多问题不能很好解决.文中基于全句翻译的智能英汉机器翻译系统IMT/E-863构造了一个语言环境IMTENV,用来处理组合歧义、省略等语言现象.  相似文献   

4.
传统的基于机器翻译的跨语言情感分类方法,由于受机器翻译性能影响,导致越南语等低资源语言的情感分类准确率较低。针对源语言和目标语言标记资源不平衡的问题,提出一种基于情感语义对抗的跨语言情感分类模型。首先,将句子和句子中情感词进行拼接,用卷积神经网络对拼接后的句子分别进行特征抽取,分别获得单语语义空间下的情感语义表征;其次,通过对抗网络,在双语情感语义空间将带标签数据与无标签数据的情感语义表征进行对齐;最后,将句子与情感词最显著的表征进行拼接,得到情感分类结果。基于汉英公共数据集和自主构建的汉越数据集的实验结果表明,所提模型相比跨语言情感分类主流模型,实现了双语情感语义对齐,可以有效提升越南语情感分类的准确率,且在差异性不同的语言对上也具有明显优势。  相似文献   

5.
本文基于语义选择与信息特征设计了英语自动化机器翻译系统。通过语义信息特征制定了机器翻译流程,以GIZA++为载体进行翻译,利用伯克利对准器对齐词语,基于反向转换语法,详细阐述汉语语言模式与英语翻译语言模式的结构关联特性,以语句动静配置,实现自动化机器翻译。最后通过系统测试,结果表明,与传统机器翻译系统相比,准确率显著提高,这就表明基于语义选择与信息特征的英语自动化机器翻译系统的翻译准确率较高,可为英汉机器翻译奠定坚实的基础支持。  相似文献   

6.
利用交叉分类机制共享因特网上各种语言的信息资源是知识挖掘的重要方法,本文给出了双语交叉分类的模型以及实现方法。其主要思想是不需要进行机器翻译和人工标注,利用文本特征抽取机制提取类别特征项和文本特征项,通过基于概念扩充的对译映射规则自动生成类别和文本特征向量,在此基础上利用潜在语义分析,将双语文本在语义层面上统一起来,通过类别与文本的语义相似度进行分类。从而获取较高的精度。  相似文献   

7.
德汉机器翻译中的语义消歧策略   总被引:1,自引:1,他引:1  
本文首先分析了德语中的语义歧义现象,然后提出了几种借助配价和语义信息进行消歧的策略。这些策略目前都已应用于同济大学开发的TJ TITR 德汉机器翻译系统中。实践证明,它们不仅较好地解决了机器翻译中的语义歧义问题,而且大大提高了系统运行的效率。  相似文献   

8.
神经机器翻译凭借其良好性能成为目前机器翻译的主流方法,然而,神经机器翻译编码器能否学习到充分的语义信息一直是学术上亟待探讨的问题。为了探讨该问题,该文通过利用抽象语义表示(abstract meaning representation,AMR)所包含的语义特征,分别从单词级别、句子级别两种不同的角度去分析神经机器翻译编码器究竟在多大程度上能够捕获到语义信息,并尝试利用额外的语义信息提高机器翻译性能。实验表明: 首先神经机器翻译编码器能够学习到较好的单词级和句子级语义信息;其次,当神经机器翻译的训练集规模较小时,利用额外语义信息能够提高翻译性能。  相似文献   

9.
机器译文自动评价对机器翻译的发展和应用起着重要的促进作用,其一般通过计算机器译文和人工参考译文的相似度来度量机器译文的质量。该文通过跨语种预训练语言模型XLM将源语言句子、机器译文和人工参考译文映射到相同的语义空间,结合分层注意力和内部注意力提取源语言句子与机器译文、机器译文与人工参考译文以及源语言句子与人工参考译文之间的差异特征,并将其融入基于Bi-LSTM神经译文自动评价方法中。在WMT’19译文自动评价数据集上的实验结果表明,融合XLM词语表示的神经机器译文自动评价方法显著提高了其与人工评价的相关性。  相似文献   

10.
近年来,深度学习取得了重大突破,融合深度学习技术的神经机器翻译逐渐取代统计机器翻译,成为学术界主流的机器翻译方法。然而,传统的神经机器翻译将源端句子看作一个词序列,没有考虑句子的隐含语义信息,使得翻译结果与源端语义不一致。为了解决这个问题,一些语言学知识如句法、语义等被相继应用于神经机器翻译,并取得了不错的实验效果。语义角色也可用于表达句子语义信息,在神经机器翻译中具有一定的应用价值。文中提出了两种融合句子语义角色信息的神经机器翻译编码模型,一方面,在句子词序列中添加语义角色标签,标记每段词序列在句子中担当的语义角色,语义角色标签与源端词汇共同构成句子词序列;另一方面,通过构建源端句子的语义角色树,获取每个词在该语义角色树中的位置信息,将其作为特征向量与词向量进行拼接,构成含语义角色信息的词向量。在大规模中-英翻译任务上的实验结果表明,相较基准系统,文中提出的两种方法分别在所有测试集上平均提高了0.9和0.72个BLEU点,在其他评测指标如TER(Translation Edit Rate)和RIBES(Rank-based Intuitive Bilingual Evaluation Score)上也有不同程度的性能提升。进一步的实验分析显示,相较基准系统,文中提出的融合语义角色的神经机器翻译编码模型具有更佳的长句翻译效果和翻译充分性。  相似文献   

11.
Interlingua and transfer-based approaches tomachine translation have long been in use in competing and complementary ways. The former proves economical in situations where translation among multiple languages is involved, and can be used as a knowledge-representation scheme. But given a particular interlingua, its adoption depends on its ability (a) to capture the knowledge in texts precisely and accurately and (b) to handle cross-language divergences. This paper studies the language divergence between English and Hindi and its implication to machine translation between these languages using the Universal Networking Language (UNL). UNL has been introduced by the United Nations University, Tokyo, to facilitate the transfer and exchange of information over the internet. The representation works at the level of single sentences and defines a semantic net-like structure in which nodes are word concepts and arcs are semantic relations between these concepts. The language divergences between Hindi, an Indo-European language, and English can be considered as representing the divergences between the SOV and SVO classes of languages. The work presented here is the only one to our knowledge that describes language divergence phenomena in the framework of computational linguistics through a South Asian language.  相似文献   

12.
This paper addresses one of the central problems arising at the transfer stage in machine translation: syntactic mismatches, that is, mismatches between a source-language sentence structure and its equivalent target-language sentence structure. The level at which we assume the transfer to be carried out is the Deep-Syntactic Structure (DSyntS) as proposed in the Meaning-Text Theory (MTT). DSyntS is abstract enough to avoid all types of divergences that result either from restricted lexical co-occurrence or from surface-syntactic discrepancies between languages. As for the remaining types of syntactic divergences, all of them occur not only interlinguistically, but also intralinguistically; this means that establishing correspondences between semantically equivalent expressions of the source and target languages that diverge with respect to their syntactic structure is nothing else than paraphrasing. This allows us to adapt the powerful intralinguistic paraphrasing mechanism developed in MTT for purposes of interlinguistic transfer.  相似文献   

13.
In conventional algorithms, the lack of entity information, reference, and semantic relations in the current corpus leads to a low rate of precision and efficiency in constructing cross‐language bilingual mapping. According to natural language processing and machine translation technology, to solve the problem, this paper aims to establish a parallel corpus for information extraction based on the OntoNotes corpus by combining automatic extraction and manual adjustment. To verify the validity of the parallel corpus constructed in this paper, a comparative experiment was carried out on the corpus. The corpus entity alignment rate, anaphora absence, and syntactic structure were analysed in detail based on statistics. The data set is well performed in language processing and machine translation. The parallel corpus for information extraction constructed in this paper can produce highly precise, stable, and efficient information in the process of bilingual mapping, which provides an effective parallel corpus for the study in machine translation of bilingual mapping.  相似文献   

14.
Analysis   总被引:4,自引:0,他引:4  
This paper describes the parser, especially its mapping rule interpreter, used in KBMT-89. The interpreter is characterized by its ability to produce semantic and syntactic structures of a parse simultaneously and therefore more efficiently than other kinds of analyzers. Applicable forms of parser mapping rules, which map syntactic structures to semantic structures, are introduced. The parser, a modified version of Tomita's universal parser, is briefly described. Sample traces illustrate the functioning of the parser and mapping rule interpreter.  相似文献   

15.
机器翻译中汉语的形式和语义分析二题   总被引:3,自引:1,他引:2  
汉语分析是英汉和汉英机器翻译的难点。这篇文章提出了分析汉语的两个难题:一个是区分句法结构的歧义和多义,另一个是寻找句子成分之间的隐性语义关系和句式的意义。  相似文献   

16.
机器翻译中,在词性标注和句法语义分析阶段经常会遇到歧义,使用基于统计方法的词汇评分和句法语义评分就是对词性标注和句法语义分析阶段产生的歧义进行消歧,在用统计方法消歧时,经常遇到的一个现象就是数据稀疏问题,本文对词汇评分和句法语义评分遇到数据稀疏现象使用改进的Turing公式来平滑参数,给出平滑算法对词汇评分平滑的处理过程,在实验中给出语料与参数数量,正确率的实验结果。  相似文献   

17.
18.
基于多知识源的词汇消歧一体化处理   总被引:1,自引:0,他引:1  
词汇消歧是语言分析的基石,本文提出一种基于多知识源的词汇消歧一体化处理机制,该机制充分利用了知识库和文本结构的信息,以句法标签、词频、搭配、上下文语义,语义可选约束,句法线索等知识源为消歧指示器  相似文献   

19.
基于MDE的异构模型转换:从MARTE模型到FIACRE模型   总被引:3,自引:0,他引:3  
通过研究一个具有代表性的UML/MARTE(unified modeling language/modeling and analysis of real timeand embedded systems)模型向FIACRE(intermediate format for the architectures of embedded distributed components)形式模型的转换实例,探讨了异构模型之间在语义和语法层的相互转换问题.在语义层,通过模型转换技术构造语义映射规则,实现元语言之间的转换;在语法层,通过构造元模型的具体语法,反映元语言的语法规则,从而产生目标模型的程序实体.基于此实例研究,探讨了通用转换途径的相关框架和关键技术,并讨论了转换工作的优缺点和实 用性.  相似文献   

20.
序列到序列(seq2seq)的框架可以应用到抽象语义表示(AMR)解析任务中,把AMR解析当作一个从源端句子到目标端AMR图的翻译任务。然而,以前的工作通常把源端句子表示为一个单词序列,忽略了句子内部潜藏的句法和语义角色信息。基于seq2seq框架,该文提出了一个直接而有效的融合句法和语义角色信息的AMR解析方法。实验结果表明,该文的方法在AMR英文标准数据集上取得了6.7%的显著提升。最后,该文从多个角度深入分析了源端的句法和语义角色信息是如何对AMR解析提供帮助的。分析表明,词性信息和subword技术对AMR解析性能提升的贡献最大,上层句法和语义角色信息次之。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号