首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 359 毫秒
1.
本文介绍了德汉机器翻译系统的基本原理和方法, 指出了在汉语生成过程中, 汉语句子各成分的词组类型、句法功能、语义关系、逻辑关系之间存在着的极为错综复杂的各种联系。汉语语法的特点, 就在于汉语句子中词组类型与句法功能之间没有明确的对应关系, 而且, 词组类型与句法功能相同的成分, 它们的语义关系或逻辑关系还可能不同。因此, 汉语的自动生成就不能仅局限于依据其词组类型, 而且还要依据句法功能、语义关系、逻辑关系, 这样才能区分同形结构, 从而生成正确的汉语句子。  相似文献   

2.
本文提出一种中心词驱动的书面汉语分析方法。把汉语句子看成中心词和它的附属成分组成的递归结构。利用中心词和附属成分之间的语义联系与约束关系, 对句子进行语义-句法分析, 找出其里层结构, 从而得到句子意义的机内表达。 基于上述方法, 作者在Micro VAX II计算机上建立了汉语分析实验系统CLAS。该系统包括一个含有近万条词汇的语义词典, 一个知识库和词切分器及语义-句法分析器。实现句子的词切分和语义-句法分析。对十余种典型例句的处理, 表明本文提出的方法对汉语的分析是有效的。 自  相似文献   

3.
对于语言表达式的组成成分及它们间的关系的刻画,目前大多数语法研究都着重在句法层面,而本文的范畴表达式演算理论则着重在语义层面。我们首先考察了完全表达式与不完全表达式、句法类型与语义类型、继承、顺序、提取、并列等若干重要的语言现象以及各种语法理论对这些现象的解释,然后提出范畴表达式的形式化定义,分析了句法层面的形式约束对语义层面的内容组织的制导作用,并且用典型的语言例子直观的说明了如何利用短语结构制导,进行范畴表达式的演算。这种机制可形式化、可验证,能很好的捕捉语言的组成成分及它们间的相互关系,揭示一个句子所说的内容。  相似文献   

4.
针对汉语语句表意灵活复杂多变的特点,提出一种基于语义与情感的句子相似度计算方法,从表意层面计算句子相似度。该方法使用哈工大LTP平台对句子进行预处理,提取词语、词性、句法依存标记与语义角色标记,将语义角色标注结果作为句中语义独立成分赋予相似度权重系数,综合句法依存关系与词法关系计算两句相同标签语义独立成分相似度得到部分相似度,加权计算部分相似度得到句子整体相似度。另外,考虑到情感与句式因子,在整体相似度的基础上对满足条件的两句计算情感减益与句式减益。实验结果表明,该方法能有效提取出句子语义独立成分,从语义层面上计算句子相似度,解决了信息遗漏与句子组成成分不一致的问题,提高了句子相似度计算的准确率与鲁棒性。  相似文献   

5.
义类自动标注方法的研究   总被引:3,自引:1,他引:2  
句法分析不能满足汉语分析的需要,句法和语义相结合的分析方法适用于汉语分析。分析的基础要有一部语法语义词典。目前的机读词典多是语法词典,因而需要在语法词典中加入词的语义信息。《同义词词林》是一部较好的义类词典,但没有语法信息,可以《同义词词林》的分类体系对语法词典进行义类标注,得到语法语义词典。这一过程中有不一致的情况,特别地,对《同义词词林》中未收录的词就不能直接标注义类。本文采用《同义词词林》的分类体系,研究设计了一个汉语词自动义类标注算法,对北大《现代汉语语法信息词典》进行自动义类标注。实验结果较为满意,得到91%的准确率。  相似文献   

6.
现代汉语语义知识库用于句法分析的研究   总被引:1,自引:0,他引:1  
尹一瓴  陈群秀 《计算机应用》2004,24(Z2):264-267
汉语在词类这个语言层次上存在着许多歧义结构,仅仅依靠句子中词的词性标记无法正确获得汉语词之间的句法关系.针对这种情况,在已有的基于规则与概率模型的句法分析器基础上,使用现代汉语语义知识库作为语义资源,进行了在句法分析中引入语义信息以提高分析正确性的研究.  相似文献   

7.
拼音汉字计算机自动转换系统   总被引:4,自引:0,他引:4  
本文介绍了一种运用自然语言理解,完成汉语拼音到汉字的计算机自动转换系统。该系统利用汉语词法知识、句法知识、语义和语用知识,构造了一个层次结构的知识基,对汉语拼音形式的文章,逐句进行切词、词法分析、语法分析、语义和语用处理,最后形成正确的汉字句子、文章。 该系统已在IBM PC/XT微型计算机上实现。  相似文献   

8.
框架语义角色标注(Frame Semantic Role Labeling, FSRL)是基于FrameNet标注体系的语义分析任务。语义角色标注通常对句法有很强的依赖性,目前的语义角色标注模型大多基于双向长短时记忆网络Bi-LSTM,虽然可以获取句子中的长距离依赖信息,但无法很好地获取句子中的句法信息。因此,引入Self-Attention机制来捕获句子中每个词的句法信息。实验结果表明,该模型在CFN(Chinese FrameNet,汉语框架网)数据集上的F1值得到了提升,证明了融入self-attention机制可以改进汉语框架语义角色标注模型的性能。  相似文献   

9.
书面汉语自动分词的“生成——测试”方法   总被引:6,自引:0,他引:6  
词链现象是书面汉语自动分词的困难所在, 本文针对词链现象的复杂性, 提出了一种“生成—测试”分词法。这种方法以知识为基袖, 它通过词典的动态化、分词知识的分布化、分词系统和句法语义系统的协同工作等手段实现了词链的有效切分和汉语句子切分与理解(生成格结构)的并行。“生成—测试”方法反映了人的分词和理解过程。  相似文献   

10.
面向语料库标注的汉语依存体系的探讨   总被引:19,自引:9,他引:10  
实现大规模真实文本的处理, 是信息化社会的迫切要求, 也是国际计算语言学界的一个战略目标目前一项迫在眉睫的任务是建立一套满足大规模真实文本处理的语言处理体系, 包括分词的标准、词的分类体系、句法体系和语义体系。其中句法体系是核心环节。本文提出并论证了依存语法是合乎大规模真实文本处理要求的句法体系, 并结合汉语的特点, 研究了汉语的依存语法, 划分了种依存关系。最后简要讨论了依存语法的一些应用  相似文献   

11.
This paper describes a program (and a grammar) for carrying out the semantic phase of root-pattern word formation in Hebrew. This is achieved by first automatically extracting semantic features of roots from a Hebrew thesaurus. Once the roots are reduced to feature-value sets, a grammar is used to combine a specific root with a specific grammatical pattern. The result of the grammar operation yields the final set of semantic features and values for the word. Thus, the root-pattern words are not the minimal units of grammatical investigation. They are products of the grammar. In addition to the ability to automatically generate word meanings, the semantic information derived in this way can serve also for syntactic ambiguity resolution and automatic compilation of machine-oriented dictionaries, thesauri etc. The method described here can also be used for treating affixation and thus be useful for a wide scope of languages, including English, Hebrew and Finnish.  相似文献   

12.
This paper describes a program (and a grammar) for carrying out the semantic phase of root-pattern word formation in Hebrew. This is achieved by first automatically extracting semantic features of roots from a Hebrew thesaurus. Once the roots are reduced to feature-value sets, a grammar is used to combine a specific root with a specific grammatical pattern. The result of the grammar operation yields the final set of semantic features and values for the word. Thus, the root-pattern words are not the minimal units of grammatical investigation. They are products of the grammar. In addition to the ability to automatically generate word meanings, the semantic information derived in this way can serve also for syntactic ambiguity resolution and automatic compilation of machine-oriented dictionaries, thesauri etc. The method described here can also be used for treating affixation and thus be useful for a wide scope of languages, including English, Hebrew and Finnish.  相似文献   

13.
Distributional semantic models provide vector representations for words by gathering co-occurrence frequencies from corpora of text. Compositional distributional models extend these from words to phrases and sentences. In categorical compositional distributional semantics, phrase and sentence representations are functions of their grammatical structure and representations of the words therein. In this setting, grammatical structures are formalised by morphisms of a compact closed category and meanings of words are formalised by objects of the same category. These can be instantiated in the form of vectors or density matrices. This paper concerns the applications of this model to phrase and sentence level entailment. We argue that entropy-based distances of vectors and density matrices provide a good candidate to measure word-level entailment, show the advantage of density matrices over vectors for word level entailments, and prove that these distances extend compositionally from words to phrases and sentences. We exemplify our theoretical constructions on real data and a toy entailment dataset and provide preliminary experimental evidence.  相似文献   

14.
事件结构性语法特征与事件语义特征各有优势,二者融合利于准确表征事件触发词,进而有利于完成事件触发词抽取任务。现有的基于特征、基于结构及基于神经网络模型等的抽取方法仅能捕捉事件的部分特征,不能够准确表征事件触发词。为解决上述问题,提出一种融合了事件结构性语法特征和事件语义特征的混合模型,完成事件触发词抽取任务。首先,在初始化向量模型中融入句子的依存句法信息,使初始向量中包含事件结构性语法特征;然后,将初始向量依次传入神经网络模型中的CNN和BiGRU-E-attention模型中,在捕获多维度事件语义特征的同时,完成事件结构性语法特征与事件语义特征的融合;最后,进行事件触发词的抽取。在CEC中文突发语料库上进行事件触发词位置识别和分类实验,该模型的F值较基准模型的分别提高了0.86%和4.07%;在ACE2005英文语料库上,该模型的F值较基准模型的分别提高了1.4%和1.5%。实验结果表明,混合模型在事件触发词抽取任务中取得了优异的效果。  相似文献   

15.
This paper investigates the morphosyntactic symmetry between the elements in word combinations and word forms. Based on linguistic superoperators, the authors introduce the concepts of syntactic time and syntactic space. They develop a classification of the parts of speech and members of a sentence for the SL language, determine morphosyntactic cases, and propose a new semantic classification of predicates. The authors determine morphosyntactic and semantic-syntactic functions, introduce syntactic superoperators and use the latter to develop the rules to generate syntactic structures. They also propose rules of interpretation to match the syntactic structures with their semantic meanings.  相似文献   

16.
Short-text classification is increasingly used in a wide range of applications. However, it still remains a challenging problem due to the insufficient nature of word occurrences in short-text documents, although some recently developed methods which exploit syntactic or semantic information have enhanced performance in short-text classification. The language-dependency problem, however, caused by the heavy use of grammatical tags and lexical databases, is considered the major drawback of the previous methods when they are applied to applications in diverse languages. In this article, we propose a novel kernel, called language independent semantic (LIS) kernel, which is able to effectively compute the similarity between short-text documents without using grammatical tags and lexical databases. From the experiment results on English and Korean datasets, it is shown that the LIS kernel has better performance than several existing kernels.  相似文献   

17.
设计了一种基于决策树算法的N1+N2结构语法关系判定方法.首先建立了该结构的语料库,对每条语料都标注构建特征集所需的词性、《同义词词林》语义编码、语法关系和词义相似度等信息;然后为证明相似度在判断语法关系中的合理性,根据语言学原理研究了N1+N2结构两个名词间语义相似度与语法关系之间的内在规律:①从语法关系的角度比较两个名词间的语义相似度结果为:并列关系>复指关系>定中关系>主谓关系;②从语言功能焦点的角度比较两个名词间的语义相似度结果为:并焦型短语>后焦型短语.最后以此为基础构建了特征集,运用决策树C4.5算法建立了自动判定N1+N2结构语法关系的方法.运用该算法在自建语料库的测试集中进行测试,正确率为89.39%.  相似文献   

18.
在英语及其它的欧洲语言里,词汇语意关系已有相当充分的研究。例如,欧语词网( EuroWordNet ,Vossen 1998) 就是一个以语意关系来勾勒词汇词义的数据库。也就是说,词汇意义的掌握是透与其它词汇语意的关连来获致的。为了确保数据库建立的品质与一致性,欧语词网计画就每一个处理的语言其词汇间的词义关系是否成立提出相应的语言测试。实际经验显示,利用这些语言测试,人们可以更容易且更一致地辨识是否一对词义之间确实具有某种词义关系。而且,每一个使用数据库的人也可以据以检验其中关系连结的正确性。换句话说,对一个可检验且独立于语言的词汇语意学理论而言,这些测试提供了一个基石。本文中,我们探究为中文词义关系建立中文语言测试的可能性。尝试为一些重要的语意关系提供测试的句式和规则来评估其可行性。这项研究除了建构中文词汇语意学的理论基础,也对Miller的词汇网络架构(WordNet ,Fellbaum 1998) 提供了一个有力的支持,这个架构在词汇表征和语言本体架构研究上开拓了关系为本的进路。  相似文献   

19.
针对循环神经网络模型无法直接提取句子的双向语义特征,以及传统的词嵌入方法无法有效表示一词多义的问题,该文提出了基于ELMo和Transformer的混合模型用于情感分类。首先,该模型利用ELMo模型生成词向量。基于双向LSTM模型,ELMo能够在词向量中进一步融入词语所在句子的上下文特征,并能针对多义词的不同语义生成不同的语义向量。然后,将得到的ELMo词向量输入Transformer模型进行情感分类。为了实现分类,该文修改了Transformer的Encoder和Decoder结构。ELMo和Transformer的混合模型是循环神经网络和自注意力的组合,两种结构可从不同侧面提取句子的语义特征,得到的语义信息更加全面、丰富。实验结果表明,该方法与当前主流方法相比,在NLPCC2014 Task2数据集上分类正确率提高了3.52%;在酒店评论的4个子数据集上分类正确率分别提高了0.7%、2%、1.98%和1.36%。  相似文献   

20.
This paper presents a methodology for evaluating Arabic Machine Translation (MT) systems. We are specifically interested in evaluating lexical coverage, grammatical coverage, semantic correctness and pronoun resolution correctness. The methodology presented is statistical and is based on earlier work on evaluating MT lexicons in which the idea of the importance of a specific word sense to a given application domain and how its presence or absence in the lexicon affects the MT system’s lexical quality, which in turn will affect the overall system output quality. The same idea is used in this paper and generalized so as to apply to grammatical coverage, semantic correctness and correctness of pronoun resolution. The approach adopted in this paper has been implemented and applied to evaluating four English-Arabic commercial MT systems. The results of the evaluation of these systems are presented for the domain of the Internet and Arabization.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号