首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 187 毫秒
1.
目前,大部分句法分析都忽略标点符号这一重要的句法特征或者只进行非常简单的处理。本文根据标点符号的句法结构特性,提出规则分层的方法,将标点融入汉语句法分析中。利用标点符号的分割作用,将长句分成一个个小的句子的序列,并对每个小的句子单元进行句法和结构分析,再根据已经抽取出来的类型规则进行二次句法分析,从而得到一个完整的句法分析树。实验表明,这种方法不但解决了部分长句无法正确得到句法树的难题,而且分析的歧义减小了,效率得到了提高。  相似文献   

2.
引入标点处理的层次化汉语长句句法分析方法   总被引:6,自引:1,他引:6  
在分析汉语标点符号用法和句法功能的基础上,本文提出了一种新的面向汉语长句的层次化句法分析方法。这种方法和传统的不考虑标点符号的一遍分析方法的主要区别在于两个方面:第一,利用部分标点符号的特殊功能将复杂长句分割成子句序列,从而把整句的句法分析分成两级来进行。这种“分而治之”的策略大大降低了在传统的一遍分析方法中同时识别子句或短语之间的句法关系以及子句和短语内部成分的句法关系的困难。第二,从大规模树库中提取包含所有标点符号的语法规则和相应概率分布信息,有利于句法分析和歧义消解。实验证明我们的方法与传统的一遍图表(chart)分析方法相比,能够大大减少时间消耗和歧义边的个数,并且提高了复杂长句分析的正确率和召回率约7%。  相似文献   

3.
本文根据汉语句法结构的特点, 提出了一种生成具有复杂特征集的多叉树的汉语句法分析方法。实现上, 提出了分阶段处理、部分人机对话、句法和语义知识并用等策略, 实现了一个初步实用的系统。本文最后给出了部分实验结果  相似文献   

4.
概率句法分析器(PCFG Parser)是基于概率规则集的上下文无关文法的句法分析器。规则集主要是针对词类和短语类。然而事实上,词性相同而词汇不同,其所常用的句法规则也通常不同。目前NLP研究的一个趋势和热点就是词汇化的句法分析。针对概率句法分析独立性假设中缺乏词汇化的缺陷,本文将谓语动词的子语类信息与概率句法分析结合起来,提出一种基于动词子语类信息的词汇化概率句法分析方法。论文建立了基于汉语动词子语类框架的统计句法分析模型,并且针对动词子语类框架难以获取的问题,提出一种词汇化概率句法分析与动词子语类框架获取的互动方法。实验利用这种互动的方法获取了汉语中十个常用高频动词的概率化子语类信息,并结合原有的概率句法分析器PCFG实现了一个基于动词子语类信息的概率句法分析器原型系统S-PCFG。实验证明了基于动词子语类信息的概率句法分析对自然语言句法分析的准确率和速度均有所提高。同时分析了新的概率句法分析器的不足之处,为进一步的改进提供条件。  相似文献   

5.
郑伟发 《福建电脑》2009,25(7):71-72
本文采用中科院句法分析树库所采用的短语标记,基于汉语句子结构中上下文相关的特点,计算隐马尔科夫模型的观察概率,并利用隐马尔科夫模型构建汉语自动句法分析模型,从浅层到完全对句法进行分析;同时,利用规则集和最大成组法对划分歧义进行制约和优选。实验证明,该算法能有效地消除歧义并提高句法分析正确率。  相似文献   

6.
《软件》2019,(4):145-149
标点符号的正确性对于用户生成文本的词性标注,命名实体识别,依存句法分析等有着重要的作用,正确的标点标注可以使用户生成文本的语法结构准确完整。线性链条件随机场模型可以容纳任意的非独立的特征信息,本文通过选取标点符号所在位置左右词性对作为模型的观测序列,使用条件随机场进行标点符号的标注。实验的测试语料采用京东在线产品评论,结果表明基于线性链条件随机场的用户生成文本标点标注效率较高。  相似文献   

7.
在对Dan Bikel基于Collins中心词驱动概率句法分析模型实现的句法分析器进行深入研究分析的基础上,对其进行了两个方面的改进。一是通过提供N-best词性候选序列,改进原模型在词性方面的处理,改善了句法分析的结果;二是在该模型中引进单独的基本名词短语识别,从而降低句法分析的复杂度,提高了效率,其中,针对中文的特点,通过对BaseNP的概念进行一系列的扩展,深入研究了基于不同层次概念的BaseNP对句法分析的影响并探讨更适合中文句法分析的BaseNP定义。利用改进的句法分析模型进行中文句法分析实验,实验结果表明,改进模型可以缩短分析时间26%,提高F值4.4个百分点,交叉括号平均减少18%。  相似文献   

8.
面向特定领域的汉语句法主干分析   总被引:3,自引:3,他引:3  
本文提出了一种面向特定领域的汉语句法主干分析方法。该方法中包括浅层句法分析、模板匹配两个关键环节,形成用模板表示的句法主干。在浅层句法分析中,本文使用了级联的隐马尔可夫模型进行了短语的归并;而后以已有的汉语句子模板为基础,进行模板匹配以达到句法主干分析的目标。在针对体育新闻领域语料的开放测试中,模板匹配的精确率和召回率分别达到了98.04%和81.43% ,句子级的精确率和召回率分别达到了96.97%、84.85% ,实验表明该方法在特定领域是有效的。  相似文献   

9.
针对目前基于浅层语法特征和依存句法单特征的汉语韵律层级预测能力较弱的情况,提出一种改进的汉语韵律预测方法。通过从输入文本的依存句法分析结果中自动提取依存句法单特征,并对其中关键特征进行特征融合,得到依存信息融合特征。将依存句法单特征与融合特征进行韵律层级预测实验对比,选取最优的依存特征组合与浅层语法特征相结合,利用决策树C4.5算法实现韵律结构层级的预测。经过大量的语料训练和测试结果表明,依存信息融合特征相比依存句法单特征整体韵律层级的预测准确率均有所提升,相对于浅层语法特征,韵律词和韵律短语的预测准确率分别提高了5.8%和15.4%。  相似文献   

10.
在哈萨克语句法分析中,该文用平均感知器算法训练句法分析模型,用柱搜索算法进行解码,可以快速准确地对哈萨克语句子进行短语结构句法分析。在解析句子过程中,构建了一个双向LSTM模型,利用它提取句子中每个单词之间组成结构的信息,以预测每个单词在句法树中的句法组成部分,然后将结果作为辅助前瞻特征传递给句法分析过程。实验证明,此方法与基线模型相比,在准确率和召回率上均有提高。  相似文献   

11.
一个基于GLR算法的英汉机器翻译浅层句法分析器   总被引:5,自引:0,他引:5  
浅层句法分析是指短语级的自然语言句法分析。在研制MatLink英汉机器翻译系统的过程中,提出了扩充的CFG文法用于描述英语短语句法,并改进了GLR算法,设计实现了用于英汉翻译的英语浅层句法分析器。该分析器采用多出口的分析表结构,引入符号映射函数实现短语边界的自动识别,用孩子兄弟树描述短语的句法结构,并通过短语转换模式实现源语言向目标语言的短语级转换。最后,通过对一个实例句子的分析阐述了该浅层句法分析器的设计思想和工作过程。  相似文献   

12.
卢露  矫红岩  李梦  荀恩东 《自动化学报》2022,48(12):2911-2921
为快速构建一个大规模、多领域的高质树库,提出一种基于短语功能与句法角色组块的、便于标注多层次结构的标注体系,在篇章中综合利用标点、句法结构、表述功能作为句边界判断标准,确立合理的句边界与层次;在句子中以组块的句法功能为主,参考篇章功能、人际功能,以4个性质标记、8个功能标记、4个句标记来描写句中3类5种组块,标注基本句型骨架,突出中心词信息.目前已初步构建有质量保证的千万汉字规模的浅层结构分析树,包含60余万小句的9千余条句型结构库,语料涉及百科、新闻、专利等应用领域文本1万余篇;同时,也探索了高效的标注众包管理模式.  相似文献   

13.
句法分析是自然语言处理的基础技术,主流的由数据驱动的神经网络句法分析模型需要大规模的标注数据,但是通过人工标注扩展树库成本很高,因此如何利用现有标注树库进行数据增强成为研究焦点。在汉语句法分析的数据增强任务中,对于给定的标注树库,要求数据增强所生成的句子满足如下条件:第一,要求生成句具有多样化且完整的句法树结构;第二,要求生成句具有合理的语义。对此,我们首次提出基于词汇化树邻接语法的数据增强方法。针对第一个需求,该文设计实现基于词汇化树邻接语法的词汇化树抽取算法与句法树合成算法,基于该语法可以在句法树之间进行“接插”和“替换”的操作,从而推导生成新的句法树,并且用语言学的知识保证生成句符合语法规则且具有完整的句法树结构。针对第二个需求,该文利用语言模型对生成句进行语义合理性评估,选取语义合理的句子作为最终的增强数据,从而获取高质量的标注树库。我们以汉语为例开展研究,在汉语树库CTB5上进行句法分析的数据增强评测实验。实验结果显示,在小样本(CTB5的20%)实验中,通过该方法得到的增强数据使依存句法分析和成分句法分析的精度分别提高1.39%和2.14%。在鲁棒性实验中,该文通过构建扩展...  相似文献   

14.
In this paper, we present our attempts to design and implement a large-coverage computational grammar for the Persian language based on the Generalized Phrase Structured Grammar (GPSG) model. This grammatical model was developed for continuous speech recognition (CSR) applications, but is suitable for other applications that need the syntactic analysis of Persian. In this work, we investigate various syntactic structures relevant to the modern Persian language, and then describe these structures according to a phrase structure model. Noun (N), Verb (V), Adjective (ADJ), Adverb (ADV), and Preposition (P) are considered basic syntactic categories, and X-bar theory is used to define Noun phrases, Verb phrases, Adjective phrases, Adverbial phrases, and Prepositional phrases. However, we have to extend Noun phrase levels in X-bar theory to four levels due to certain complexities in the structure of Noun phrases in the Persian language. A set of 120 grammatical rules for describing different phrase structures of Persian is extracted, and a few instances of the rules are presented in this paper. These rules cover the major syntactic structures of the modern Persian language. For evaluation, the obtained grammatical model is utilized in a bottom-up chart parser for parsing 100 Persian sentences. Our grammatical model can take 89 sentences into account. Incorporating this grammar in a Persian CSR system leads to a 31% reduction in word error rate.  相似文献   

15.
组块分析的主要任务是语块的识别和划分,它使句法分析的任务在某种程度上得到简化。针对长句子组块分析所遇到的困难,该文提出了一种基于分治策略的组块分析方法。该方法的基本思想是首先对句子进行最长名词短语识别,根据识别的结果,将句子分解为最长名词短语部分和句子框架部分;然后,针对不同的分析单元选用不同的模型加以分析,再将分析结果进行组合,完成整个组块分析过程。该方法将整句分解为更小的组块分析单元,降低了句子的复杂度。通过在宾州中文树库CTB4数据集上的实验结果显示,各种组块识别结果平均F1值结果为91.79%,优于目前其他的组块分析方法。  相似文献   

16.
汉语术语定义的结构分析和提取   总被引:13,自引:2,他引:13  
本文介绍的工作是在汉语句法分析研究基础上的一种应用研究,对术语如何下定义问题进行了理论上的探讨。术语的定义形式在汉语语法结构方面提供了模板结构和构成方式,可以作为知识发现研究的数据基础,也可以作为特定领域的语法知识系统。本文针对电子学和计算机领域的语料进行了分词和词性标注处理,然后应用句法分析工具分析出句子中的短语成分,并根据汉语句子的句型结构,总结出术语定义的结构特点,自动提取定义的模板。最后根据已建立的数据和概念描述,给出了术语发现的算法。  相似文献   

17.
汉语篇章时间短语的分析与时制验算   总被引:5,自引:0,他引:5  
汉英机器翻译中,汉语篇章的时间信息是生成正确英语词时态的基础,时制是时间信息重要组成部分,需要在篇间中通过时间短语的语义分析获得,首先对汉语篇章时间短时间了语义分类,然后设计了时间短语语义表示结构TPSRS,用概念信息体关联网络CIURN表示了汉语篇间语境知识,给出了在篇章语境中分析时间短语的算法TPPA,提出了通过时制验算来推导汉语篇章中时间短语的时制和事件的时制,最后在汉英机译系统ICENT中进行了实现,对已知写作时间的汉语篇章取得了较好的实验结果。  相似文献   

18.
汉语短语的自动划分和标注   总被引:13,自引:2,他引:13  
考虑到传统的基于规则的汉语分析器对大规模真实文本的分析所遇到的困难, 本文在使用统计方法进行汉语自动句法分析方面作了一些探索, 提出了一套基于统计的汉语短语自动划分和标注算法, 它分为预测划分点、括号匹配和分析树生成等三个处理阶段, 其间利用了从人工标注的树库中统计得到的各种数据进行自动句法排歧, 最终得到一棵最佳句法分析树, 从而可以自顶向下地完成对一句句子的短语自动划分和标注, 对一千多句句子的封闭测试结果表明, 短语划分的正确率约为86%, 短语标注的正确率约为92%, 处理效果还是比较令人满意的。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号