首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 468 毫秒
1.
宏观篇章结构解析旨在通过分析篇章的整体结构,为理解篇章的内容和主旨奠定基础。现有的研究大都采用了单一的自顶向下或自底向上的构建策略逐级地构建结构树,而单向构建策略无法根据不同待解析序列选择合适的解析动作,在解析流程中容易陷入决策局限性并将错误向后传播。该文提出一种集成自顶向下和自底向上两种构建策略的指针网络模型,该模型能同时利用两种构建策略的语义信息,从而选择合适的构建方式。在汉语宏观篇章树库(MCDTB 2.0)上的实验表明,通过集成两种构建方式,该文模型能有效提升篇章单元间的局部语义交互能力并减少构建过程中的错误传播,从而取得性能最优值。  相似文献   

2.
在语言学当中,动词跟受其支配的语义成分可以构成-个最基本的语义结构,动词与这些成分之间蕴含着语义以及语法关系.结合这一研究成果,提出动词属性的概念,分析其语义特征,并将其运用于自然语言处理模型的具体实践中,通过对以自然语言形式表达的用户需求中动词属性进行理解和分析,结合自然语言理解系统"动的"结构的运行,将最终分析结果转化成概念设计要求,较好地解决了动词属性结构与"动的"结构存在耦合的现象.  相似文献   

3.
语句的主题提取是口语对话系统中话语分析部分的工作。目前的口语对话系统大多将自然语言处理的重点放在语法和语义平面,而忽视了对上下文语境的分析,该文提出一种基于规则的语句主题提取方法,通过自底向上与自顶向下两种分析器完成主题与用户意图的提取,为系统的自然语言生成提供更准确的领域知识,从而大大提高了系统的整体性能。  相似文献   

4.
自然语言接口的语义分析任务是将自然语言指令转化为某种目标系统的形式化描述逻辑,是对自然语言的形式化建模,但语义分析模型在可视化、并发性、复杂度、一致性、可变性等方面还不够完善.在吸收语义网、深度网络、依存分析等现有概念基础上,提出一种综合的意元网络MNet的语义分析方法.MNet由意元、内关系、外关系及特征属性构成,并通过层次化递归的方式进行定义,期待面向从短语、句子到篇章的整体语义空间描述.从元关系、树结构和网结构3个过程设计了MNet一般构造算法.重点提出了自底向上规约式的MNet语义依存树构造算法,实验表明MNet能有效解决语义依存分析和自然语言控制接口问题.将SCADA系统的自然语言操控接口的语义分析过程转化成MNet的一般构造过程,为自然语言语义分析提供了一定的思路.  相似文献   

5.
基于语义模式分解的英语介词语义分析和汉译   总被引:1,自引:0,他引:1       下载免费PDF全文
在研究英语介词相关短语和句式的基础上,给出了语义模式的概念,构建了介词相关短语语义模式库、相关句式语义模式库、主虚量库和固定搭配知识库。根据介词相关短语语义模式特点,提出了一种基于语义模式分解的介词语义分析和汉译算法,结合相关句式语义模式库和固定搭配知识库,对英语介词进行语义分析和汉译。实验表明,利用该文方法能有效解决英语介词汉译的问题。  相似文献   

6.
组合范畴语法(CCG)是一种类型驱动的语法,可以高度词例化(lexicalized)并兼顾句法和一定程度上语义的表达,可为深层次的文本分析提供有效支持。将CCG应用于真实文本分析需要编制大规模的词库,为了避免为此付出的昂贵人力和资源,一个经济有效的解决方案是利用现有短语句法树库来自动生成CCG树库。该文提出在清华中文树库的基础上自动生成CCG树库的方法,在预定义的中文句型和基于清华树库的动词子范畴框架的支持下,通过标准转换算法,得到一个包含32 737句、超过35万词次的中文CCG树库。该树库通过手工和自动评价验证,又与已有文献所报告的多语种CCG树库构建工作比较,均证明该文所述方法的有效性。  相似文献   

7.
一种多知识源汉语语言模型的研究与实现   总被引:7,自引:0,他引:7  
针对汉语语言模型中知识获取不足的问题,提出了一种统计与多种形式规则信息结合的机制,将规则的表示量化,提出语法语义规则的概念,通过扩充词网络,对其于最大可能性的n元概率值合理调整,将短语构成规则,二元语法语义规则,最少分词原则等融入统计模型框架,构成多知识源语言模型,模型应用于智能拼音汉字转换系统,明显提高了音字转换正确率,并适于处理长距离和递归语言现象。  相似文献   

8.
语义解析的目标是将自然语言表达映射为机器可理解的逻辑表达,该任务的关键挑战在于难以刻画自然语言中蕴含的组合语义。目前,结合深度神经网络模型的语义解析方法已经成为该领域的主流方法,该类方法通常采用编码器—解码器框架,通过设计树形结构的解码器或者在解码器中添加语法限制,从语法层面上提升逻辑表达生成的准确率。与现有的神经语义解析方法不同,该文从语义建模角度出发,以语义框架作为中间形式,通过自顶向下的生成方式,显式地建模自然语言表达中蕴含的层次化语义结构。模型先根据自然语言输入,自顶向下地生成语义框架,再将语义框架表示融入到逻辑表达的生成过程中。三个数据集上的实验结果表明,该文提出的模型能更准确地生成语义框架,并且在语义解析任务中取得更好的效果。  相似文献   

9.
演绎数据库语义查询优化是运用数据库中的语义知识,即完整性约束条件,将用户提交的一种查询转换为能有效执行,并与原查询等价的查询的一种优化方法.至今在这一领域已有了许多的算法,但大多是基于自顶向下的查询计算模式.而本文提出的静态语义查询优化算法及其改进算法是在优化“并”和“连接”操作的过程中进行自底向上的查询计算,因此相对自顶向下的计算方式更有效地提高了查询执行效率.  相似文献   

10.
汉语是一种话题显著的语言。汉语篇章中,同一话题会多次延续,也可能发生话题转换。该文讨论一种话题转换现象: 原话题的说明中的某个成分成为新话题,但该新话题及其说明并不构成原话题的说明或原话题说明的一部分。这种话题可称为新支话题。该文对动词按照词汇语义进行分类,揭示动词将其宾语引出成为新支话题的能力所在。文章给出了《围城》中动词引出新支话题的全部实例的词汇语义分布统计。  相似文献   

11.
This paper describes a method of knowledge representation as a set of text expressed statements. The method is based on the identification of word-categories/phrases and their semantic relationships within the observed statement. Furthermore, the identification of semantic relationships between words/phrases using wh-questions that clarify the role of the word/phrase in the relationship is described. A conceptual model of the computer system based on the formalization method of text-expressed knowledge is proposed. The subsystem text formalization is described in detail, especially its parts: syntactic analysis of the sentence, sentence formalization, phrase structure grammar and lexicon. The phrase structure grammar is formed by induction and it is used to generate the language of the formalized notation of a sentence. The derivation of grammar is based on the simple phrase structure grammar which was used for the syntactical analysis of informal language notation. In its base, the suggested method translates sentences of the informal language into formal language sentences which are generated by the derivated phrase structure grammar. Current limitations of the method that also set the path of its further development are shown. Next concrete steps in the development of the method are also described.  相似文献   

12.
依存树到串模型使用基于HDR片段的翻译规则。HDR片段是由中心词及其所有依存节点组成的树片段。这种翻译规则可以较好地捕捉语言中的句子模式和短语模式等组合现象,但在捕捉非组合现象(如习惯用语或固定搭配)方面存在不足。这类非组合现象易于由短语捕捉。为了更好地改善依存树到串模型的性能,本文提出了三种引入双语短语的方法,分别为引入句法短语、引入泛化句法短语及引入非句法短语。实验结果表明,同时使用句法短语、泛化句法短语及非句法短语时,可以将依存树到串模型的性能显著提高约1.0 BLEU值。  相似文献   

13.
提出一种基于短语和依存句法结构的中文语义角色标注(SRL)方法。联合短语句法特征和依存句法特征,对句法树进行剪枝,过滤句法树上不可能担当语义角色的组块短语单元和关系结点,对担当语义角色的组块或节点进行角色类别标注。基于正确句法树和正确谓词的识别结果表明,该方法的SRL性能F1值为73.53%,优于目前国内外的同类系统。  相似文献   

14.
最长名词短语携带着丰富的句法和语义信息,经常与句法成分对应,在句子中充当一定的语义角色。最长名词短语识别在自然语言处理中占重要地位,是分析和理解句子结构、意义的基础。该文通过梳理不同概念的最长名词短语的含义,从句法树角度界定了藏语最长名词短语的基本概念;从句法树库中抽取6 038个句子,分析了最长名词短语的结构类型、边界特征和出现频次,最后采用序列标注模型和句法分析模型对最长名词短语进行识别。序列标注模型识别结果的正确率、召回率和F1值分别为87.14%、84.72%、85.92%。句法分析模型识别结果的正确率、召回率、F1值分别为85.02%、84.51%、84.76%。  相似文献   

15.
为了实现大型语料库中近义词/同义词短语的查找,提出了一种基于共同语境的近义词/同义词短语查找模型,它通过[n]-gram分布式方法捕获语义相似性,不需要解析就能隐式地保存局部句法结构,使底层方法语言独立;具体实现分为两个阶段:第一阶段是上下文收集和过滤,即用围绕查询短语的本地上下文作为条件模型的特征来捕获语义和语法信息。第二阶段是候选词短语收集和筛选,即对数据中的每个“左”“右”和“配对”的全部实例进行迭代,以收集一组近义词/同义词候选短语;还给出了构成模型的要素和用于评价模型性能的评分函数;基于不同大型语料库的实验结果表明,提出的建模方法在总的统计评分查找性能和整体可扩展性方面都优于常用的其他查找方法模型。  相似文献   

16.
现代汉语存在着许多歧义短语结构,仅依靠句中词性标记无法获得词与词之间正确的搭配关系。本文研究了大量包含歧义的短语实例,分析了计算机处理汉语结构时面临的定界歧义和结构关系歧义问题,在已有短语结构规则的基础上归纳出了七种结构歧义模式,提出了分析歧义模式的关键是四种基本搭配信息的判断,并实现了基于语义知识和搭配知识的消歧算法。对887处短语进行排歧的实验结果表明,处理短语结构的正确率由82.30%上升到87.18%。  相似文献   

17.
In this paper, we introduce variability of syntactic phrases and propose a new retrieval approach reflecting the variability of syntactic phrase representation. With variability measure of a phrase, we can estimate how likely a phrase in a given query would appear in relevant documents and control the impact of syntactic phrases in a retrieval model. Various experimental results over different types of queries and document collections show that our retrieval model based on variability of syntactic phrases is very effective in terms of retrieval performance, especially for long natural language queries.  相似文献   

18.
In this paper, we present our attempts to design and implement a large-coverage computational grammar for the Persian language based on the Generalized Phrase Structured Grammar (GPSG) model. This grammatical model was developed for continuous speech recognition (CSR) applications, but is suitable for other applications that need the syntactic analysis of Persian. In this work, we investigate various syntactic structures relevant to the modern Persian language, and then describe these structures according to a phrase structure model. Noun (N), Verb (V), Adjective (ADJ), Adverb (ADV), and Preposition (P) are considered basic syntactic categories, and X-bar theory is used to define Noun phrases, Verb phrases, Adjective phrases, Adverbial phrases, and Prepositional phrases. However, we have to extend Noun phrase levels in X-bar theory to four levels due to certain complexities in the structure of Noun phrases in the Persian language. A set of 120 grammatical rules for describing different phrase structures of Persian is extracted, and a few instances of the rules are presented in this paper. These rules cover the major syntactic structures of the modern Persian language. For evaluation, the obtained grammatical model is utilized in a bottom-up chart parser for parsing 100 Persian sentences. Our grammatical model can take 89 sentences into account. Incorporating this grammar in a Persian CSR system leads to a 31% reduction in word error rate.  相似文献   

19.
Phrase-based translation models, with sequences of words (phrases) as translation units, achieve state-of-the-art translation performance. However, phrase reordering is a major challenge for this model. Recently, researchers have focused on utilizing syntax to improve phrase reordering. In adding syntactic knowledge into phrase reordering model, using handcrafted or probabilistic syntactic rules to reorder the source-language approximating the target-language word order has been successful in improving translation quality. However, it suffers from propagating the pre-ordering errors to the later translation step (e.g. decoding). In this paper, we propose a novel framework to uniformly represent the handcrafted and probabilistic syntactic rules and integrate them more effectively into phrase-based translation. In the translation phase, for a source sentence to be translated, handcrafted or probabilistic syntactic rules are first acquired from the source parse tree prior to translation, and then instead of reordering the source sentence directly, we input these rules into the decoder and design a new algorithm to apply these rules during decoding. In order to attach more importance to the syntactic rules and distinguish reordering between syntactic and non-syntactic unit reordering, we propose to design respectively a syntactic reordering model and a non-syntactic reordering model. The syntactic rules will guide phrase reordering in decoding within the syntactic reordering model. Extensive experiments on Chinese-to-English translation show that our approach, whether incorporating handcrafted or probabilistic syntactic rules, significantly outperforms the previous methods.  相似文献   

20.
短语表是基于短语的统计机器翻译系统的一个核心组成部分,基于启发式方法抽取到的短语表受单词对齐错误和未对齐词的影响严重,同时抽取到的短语也并非句法意义上的短语。该文提出一种基于EM(Expectation-maximization)算法的双语句法短语抽取方法来抽取双语句法短语,此方法可以通过不断迭代的方式使各参数值达到最优。通过加入双语句法短语、增加新特征、重新训练三种不同的方法,将获得的双语句法短语与基于短语的统计机器翻译方法结合以提高统计机器翻译系统的性能。结果表明: 三种方法都不同程度提高了译文的BLEU(BiLingual Evaluation Understudy)值,其中增加新特征方法提高了0.64个点。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号