首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 140 毫秒
1.
该文通过研究国内外相关的句法分析算法与理论,再结合维吾尔语自身的特点对基于规则的维吾尔语句法分析方法进行讨论,由于维吾尔语作为一种自然语言,具有自然语言所共有的一些规则,发现国外经典的句法分析方法同样适合于维吾尔语的句法分析,本论文主要讨论了自项向下的的自动句法分析方法。  相似文献   

2.
郑伟发 《福建电脑》2009,25(7):71-72
本文采用中科院句法分析树库所采用的短语标记,基于汉语句子结构中上下文相关的特点,计算隐马尔科夫模型的观察概率,并利用隐马尔科夫模型构建汉语自动句法分析模型,从浅层到完全对句法进行分析;同时,利用规则集和最大成组法对划分歧义进行制约和优选。实验证明,该算法能有效地消除歧义并提高句法分析正确率。  相似文献   

3.
句法分析是自然语言处理的基础技术,主流的由数据驱动的神经网络句法分析模型需要大规模的标注数据,但是通过人工标注扩展树库成本很高,因此如何利用现有标注树库进行数据增强成为研究焦点。在汉语句法分析的数据增强任务中,对于给定的标注树库,要求数据增强所生成的句子满足如下条件: 第一,要求生成句具有多样化且完整的句法树结构;第二,要求生成句具有合理的语义。对此,我们首次提出基于词汇化树邻接语法的数据增强方法。针对第一个需求,该文设计实现基于词汇化树邻接语法的词汇化树抽取算法与句法树合成算法,基于该语法可以在句法树之间进行“接插”和“替换”的操作,从而推导生成新的句法树,并且用语言学的知识保证生成句符合语法规则且具有完整的句法树结构。针对第二个需求,该文利用语言模型对生成句进行语义合理性评估,选取语义合理的句子作为最终的增强数据,从而获取高质量的标注树库。我们以汉语为例开展研究,在汉语树库CTB5上进行句法分析的数据增强评测实验。实验结果显示,在小样本(CTB5的20%)实验中,通过该方法得到的增强数据使依存句法分析和成分句法分析的精度分别提高1.39%和2.14%。在鲁棒性实验中,该文通过构建扩展测试集进行评测实验,在扩展测试集上,通过该方法得到的增强数据使依存句法分析和成分句法分析的精度分别提高1.43%和0.44%,表现出更好的鲁棒性。  相似文献   

4.
蒋志鹏  关毅 《自动化学报》2019,45(2):276-288
完全句法分析是自然语言处理(Natural language processing,NLP)中重要的结构化过程,由于中文电子病历(Chinese electronic medical record,CEMR)句法标注语料匮乏,目前还没有面向中文电子病历的完全句法分析研究.本文针对中文电子病历模式化强的子语言特征,首次以树片段形式化中文电子病历复用的模式,提出了面向数据句法分析(Data-oriented parsing,DOP)和层次句法分析融合模型.在树片段抽取阶段,提出效率更高的标准树片段和局部树片段抽取算法,分别解决了标准树片段的重复比对问题,以及二次树核(Quadratic tree kernel,QTK)的效率低下问题,获得了标准树片段集和局部树片段集.基于上述两个树片段集,提出词汇和词性混合匹配策略和最大化树片段组合算法改进面向数据句法分析模型,缓解了无效树片段带来的噪声.实验结果表明,该融合模型能够有效改善中文电子病历句法分析效果,基于少量标注语料F1值能够达到目前最高的80.87%,并且在跨科室句法分析上超过Stanford parser和Berkeley parser 2%以上.  相似文献   

5.
层次句法分析是一种简单快速的完全句法分析方法,该方法将句法分析分解为词性标注、组块分析和构建句法树三个阶段。该文将其中的组块分析细分为基本块分析和复杂块分析,利用条件随机域模型代替最大熵模型进行序列化标注。由于层次句分析中错误累积问题尤为严重,该文提出了一种简单可行的错误预判及协同纠错算法,跟踪本层预判的错误标注结果进入下一层,利用两层预测分数相结合的方式协同纠错。实验结果表明,加入纠错方法后,层次句法分析在保证解析速度的同时,获得了与主流中文句法分析器相当的解析精度。  相似文献   

6.
在概述统计句法分析主要特征的基础上,对目前主流分析方法进行了深入分析,提出了实用化的基于统计的句法分析器必须引入结构信息、上下文信息、词汇信息以及语义信息才能提高性能和可靠性的观点。总结了基于统计的汉语句法分析方法当前的研究现状,最后探讨了基于统计的汉语句法分析方法的不足之处和发展趋势。  相似文献   

7.
一种现代汉语句法分析方法的建立与实现   总被引:1,自引:0,他引:1  
本文以7万小学生语文课本分词语料为基础,建立一个隐马尔可夫模型与层次分析法相结合的完全句法分析方法,实现了现代汉语完全句法分析。实验结果表明,该方法具有一定的独创性和高效性,其完全句法分析正确率在封闭和开放测试中分别为92.43%和65.374%。  相似文献   

8.
针对中文组合范畴语法(CCG)分析困难的特点,研究如何将两种彼此相互独立的技术共同应用在中文CCG句法分析上。首先使用预标注算法,使用对数线性模型通过去除那些概率较低的词汇范畴来对句子的潜在分析空间进行剪枝。然后应用启发式搜索算法进一步加速分析过程。最后从时间效率和分析精度两个维度对所使用的方法进行验证。实验表明,基于启发式搜索与预标注的句法分析算法可以显著地提高分析效率与分析精度。  相似文献   

9.
基于动作建模的中文依存句法分析   总被引:1,自引:0,他引:1  
决策式依存句法分析,也就是基于分析动作的句法分析方法,常常被认为是一种高效的分析算法,但是它的性能稍低于一些更复杂的句法分析模型。本文将决策式句法分析同产生式、判别式句法分析这些复杂模型做了比较,试验数据采用宾州中文树库。结果显示,对于中文依存句法分析,决策式句法分析在性能上好于产生式和判别式句法分析。更进一步,我们观察到决策式句法分析是一种贪婪的算法,它在每个分析步骤只挑选最有可能的分析动作而丢失了对整句话依存分析的全局视角。基于此,我们提出了两种模型用来对句法分析动作进行建模以避免原决策式依存分析方法的贪婪性。试验结果显示,基于动作建模的依存分析模型在性能上好于原决策式依存分析方法,同时保持了较低的时间复杂度。  相似文献   

10.
文章首先阐述浅层句法分析可以转化为一个分类问题,然后论述了如何用随机森林的方法来完成这个分类任务。接下来对随机森林算法进行了改进,即基本模型+Bootstrap方式。实验结果显示,针对CoNLL2000提出的浅层句法分析任务,基本模型+Bootstrap方式的Fβ值可以达到92.25%,较基本模型有明显提高。  相似文献   

11.
稀疏数据严重影响句子结构分析模型的结果, 而句法结构是语义内容和句法分析形式的结合。本文在语义结构信息标注的基础上提出了一种基于语义搭配关系的词聚类模型和算法,建立基于语义类的头驱动句子结构分析统计模型。该语言模型不但比较成功地解决了数据稀疏问题, 而且句子结构分析系统性能也有了明显的提高。句子结构分析实验结果表明,基于语义类的头驱动的句子结构分析统计模型,其召回率和精确率的值相应为88.26%和88.73%,综合指标改进了8.39%。  相似文献   

12.
句法分析前沿动态综述   总被引:3,自引:2,他引:1  
句法分析的目标是分析输入句子并得到其句法结构,是自然语言处理领域的经典任务之一。目前针对该任务的研究主要集中于如何通过从数据中自动学习来提升句法分析器的精度。该文对句法分析方向的前沿动态进行了调研,分别从有监督句法分析、无监督句法分析和跨领域跨语言句法分析三个子方向梳理和介绍了2018—2019年发表的新方法和新发现,并对句法分析子方向的研究前景进行了分析和展望。  相似文献   

13.
统计句法分析建模中基于信息论的特征类型分析   总被引:2,自引:0,他引:2  
统计句法分析利用概率评价模型评价每棵选句法树存在的可能性,选择概率值最高的候选句法树作为最终的句法分析结果。因此,统计句法分析的核心是一个概率评价模型,而各种概率评价模型的本质区别主要在于它们分别是根据上下文中的哪些特征来赋予句法树概率的。在统计句法分析研究领域,虽然已经提出了大量的概率评价模型,然而,不同的模型用得到了不同类型的特征,如何评价这些特征类型对于句法分析的作用呢?针对以上的问题,本研究为统计句法分析提出了一种特征类型的分析模型,该模型可以从信息论的角度量化地分析不同类型的上下文特征对于句法结构的预测作用。其基本思想是利用信息论中熵与条件熵的度量来显示一个特征类型是否抓住了预测句法结构的主要信息。如果加入某个特征类型之后当前句法结构的不确定性(熵)明显下降,则认为该特征类型抓住了上下文中影响句法结构的某些主要信息。特征类型分析的信息论模型利用预测信息量、预测信息增益、预测信息关联度以及预测信息总量四种度量从不同的仙量化地分析各种特征类型及特征类型组合对于当前目标的预测作用。实验以Penn TreeBank为训练集,将上下文中不同的特征类型对于句法分析规则的预测作用进行了系统的量化分析,得出了一系列有关不同特征类型及特征类型组合对句法结构的预测作用的结论。  相似文献   

14.
汉语组块分析研究综述   总被引:2,自引:0,他引:2  
组块分析作为浅层句法分析的代表,既可以满足很多语言信息处理系统对于句法功能的需求,又可以作为子任务,在词法分析和完全句法分析以及语义分析中间架起一座桥梁,为句子进行进一步深入分析提供有力的支持,因此众多的研究将注意力集中于组块分析上。该文主要对组块的定义和分类、组块识别方法、组块的标注和评测以及组块内部关系分析等几方面的研究进展进行详细的综述。最后,探讨了组块分析存在的问题并对未来的发展方向进行了展望。  相似文献   

15.
四种基本统计句法分析模型在汉语句法分析中的性能比较   总被引:6,自引:1,他引:5  
统计模型的选择是统计句法分析的关键。目前句法分析常用的有四种经典统计模型—PCFG模型,基于历史模型、分层渐近式模型和头驱动模型。本文通过实验,在已有的10000句汉语树库基础上,测试了这四种经典模型在现有数据规模下各自的性能,并论述了这四种经典模型的各自特点。本文旨在通过对四种基本模型的比较研究,为具体应用中句法分析模型的选择提供参考和依据。  相似文献   

16.
This article aims to show the effectiveness of evolutionary algorithms in automatically parsing sentences of real texts. Parsing methods based on complete search techniques are limited by the exponential increase of the size of the search space with the size of the grammar and the length of the sentences to be parsed. Approximated methods, such as evolutionary algorithms, can provide approximate results, adequate to deal with the indeterminism that ambiguity introduces in natural language processing. This work investigates different alternatives to implement an evolutionary bottom-up parser. Different genetic operators have been considered and evaluated. We focus on statistical parsing models to establish preferences among different parses. It is not our aim to propose a new statistical model for parsing but a new algorithm to perform the parsing once the model has been defined. The training data are extracted from syntactically annotated corpora (treebanks) which provide sets of lexical and syntactic tags as well as the grammar in which the parsing is based. We have tested the system with two corpora: Susanne and Penn Treebank, obtaining very encouraging results.  相似文献   

17.
基于SVM的组块识别及其错误驱动学习方法   总被引:1,自引:0,他引:1  
给出了一种错误驱动学习机制与SVM相结合的汉语组块识别方法。该方法在SVM组块识别的基础上,对SVM识别结果中的错误词语序列的词性、组块标注信息等进行分析,获得候选校正规则集;之后按照阈值条件对候选集进行筛选,得到最终的校正规则集;最后应用该规则集对SVM的组块识别结果进行校正。实验结果表明,与单独采用SVM模型的组块识别相比,加入错误驱动学习方法后,组块识别的精确率、召回率和F值均得到了提高。  相似文献   

18.
该文以联接理论、事件结构理论为指导,进行词汇语义类、语义角色、句法成分对应关系的研究。选择人教社中小学语文课文语料,标注语义角色、句法成分及中心词的词汇语义类。在标注语料库的基础上,统计分析了词汇语义类与语义角色的对应关系,重点分析各语义类语义角色映射为句法成分的规律,并进一步总结了各词汇语义类的语义角色与句法成分的对应的特点。尽管词汇语义类、语义角色、句法成分之间存在错综复杂的关系,但还是有规律的,可以为计算机句法分析提供一些依据。  相似文献   

19.
组块分析的主要任务是语块的识别和划分,它使句法分析的任务在某种程度上得到简化。针对长句子组块分析所遇到的困难,该文提出了一种基于分治策略的组块分析方法。该方法的基本思想是首先对句子进行最长名词短语识别,根据识别的结果,将句子分解为最长名词短语部分和句子框架部分;然后,针对不同的分析单元选用不同的模型加以分析,再将分析结果进行组合,完成整个组块分析过程。该方法将整句分解为更小的组块分析单元,降低了句子的复杂度。通过在宾州中文树库CTB4数据集上的实验结果显示,各种组块识别结果平均F1值结果为91.79%,优于目前其他的组块分析方法。  相似文献   

20.
引入标点处理的层次化汉语长句句法分析方法   总被引:6,自引:1,他引:6  
在分析汉语标点符号用法和句法功能的基础上,本文提出了一种新的面向汉语长句的层次化句法分析方法。这种方法和传统的不考虑标点符号的一遍分析方法的主要区别在于两个方面:第一,利用部分标点符号的特殊功能将复杂长句分割成子句序列,从而把整句的句法分析分成两级来进行。这种“分而治之”的策略大大降低了在传统的一遍分析方法中同时识别子句或短语之间的句法关系以及子句和短语内部成分的句法关系的困难。第二,从大规模树库中提取包含所有标点符号的语法规则和相应概率分布信息,有利于句法分析和歧义消解。实验证明我们的方法与传统的一遍图表(chart)分析方法相比,能够大大减少时间消耗和歧义边的个数,并且提高了复杂长句分析的正确率和召回率约7%。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号