共查询到17条相似文献,搜索用时 78 毫秒
1.
汉语结构优先关系的自动获取* 总被引:1,自引:0,他引:1
提出了一种用于定量描述歧义结构分布特点的知识表示机制:结构优先关系SPR(structure preference relation),介绍了针对不同语料文本的两种SPR获取方法:树库语料的自动发现和原始文本的自动获取,并且通过不同的实验证明了这些方法的可行性和实用性.另外,还介绍了SPR的若干应用前景,并提出进一步的研究方向. 相似文献
2.
基于规则的汉语句法分析方法研究 总被引:4,自引:1,他引:4
该文从汉语的句法结构特点出发对基于规则的汉语句法分析方法进行讨论,从中总结出这类方法的一般特征,提出实用化的基于规则的汉语句法分析器必须引入其它辅助分析手段才能提高性能和可靠性。 相似文献
3.
以语法功能匹配作为句法分析的基本方法,以100万词清华973树库作为语法功能调查的主要资源,实现了一种基于语法功能匹配的句法分析算法。该算法能有效减少伪歧义,具有良好的分析效率,其分析结果包含了丰富而准确的语法信息。实验表明,短语正确率与召回率在封闭测试和开放测试中分别达到75.17%、73.69%和65.06%、56.55%。 相似文献
4.
一个汉语短语自动界定模型* 总被引:4,自引:1,他引:4
本文提出了一个汉语短语自动界定模型,它通过基于统计的自动界定处理.利用通过错误驱动自动学习而得到的调整规则进行界定情况局部调整,利用人工总结的全局调整规则进行精调整等3个处理阶段,可以较好地确定一句经过正确切分和词性标注处理的汉语句子中不同短语的边界位置。从而为进一步的汉语短语自动划分和标注处理打下了良好的基础.对1000多句句子的实验结果表明,模型的界定正确事达到了96.33%(封闭测试)、94.54%(开放测试). 相似文献
5.
在概述统计句法分析主要特征的基础上,对目前主流分析方法进行了深入分析,提出了实用化的基于统计的句法分析器必须引入结构信息、上下文信息、词汇信息以及语义信息才能提高性能和可靠性的观点。总结了基于统计的汉语句法分析方法当前的研究现状,最后探讨了基于统计的汉语句法分析方法的不足之处和发展趋势。 相似文献
6.
7.
8.
一种适合于数据库汉语接口的低限制扩充LR句法分析方法 总被引:2,自引:0,他引:2
本文讨论了数据库汉语接口的句法分析,提出了一种基于扩充的LR分析技术的低限制性句法分析方法。研究表明,该方法在不改变原分析矩阵规模的前提下,较大地扩充了可处理的语言集合,提高了对句子的容错能力,降低了句法限制。 相似文献
9.
10.
旨在探索利用语言学手段来提高句法分析精度的可能性.采用MaltParser和自建的汉语依存树库进行相关汉语依存句法分析实验.通过对句法分析结果的分析,找出影响句法分析精度的主要因素,并据此对树库中处理某些语言结构的方式进行修改.然后再对得到的句法分析数据进行进一步分析,以确定所用方法的有效性.结果表明,无标记依存句法分析精度提高了5.5%,有标记依存句法分析精度提高了7.5%. 相似文献
11.
基于移进归约的句法分析系统具有线性的时间复杂度,因此在大规模句法分析任务中具有特别实际的意义。然而目前移进归约句法分析系统的性能远低于领域内最好的句法分析器,例如,伯克利句法分析器。该文研究如何利用向上学习和无标注数据改进移进归约句法分析系统,使之尽可能接近伯克利句法分析器的性能。我们首先应用伯克利句法分析器对大规模的无标注数据进行自动分析,然后利用得到的自动标注数据作为额外的训练数据改进词性标注系统和移进归约句法分析器。实验结果表明,向上学习方法和无标注数据使移进归约句法分析的性能提高了2.3%,达到82.4%。这个性能与伯克利句法分析器的性能可比。与此同时,该文最终得到的句法分析系统拥有明显的速度优势(7倍速度于伯克利句法分析器)。 相似文献
12.
统计与规则并举的汉语句法分析模型 总被引:6,自引:0,他引:6
在自然语言分析中,传统的基于规则的方法和近年兴起的基于统计的方法各有利弊,如何把二者有机的结合起来,以提高分析器的处理能力,是当前计算语言学的重要课题。本文采用依存文法,提出了一种基于依存文法的融合语料库,规则方法和统计方法的汉语分析模型。该模型的特点是将汉语依存文法分析看作是与词性标注过程等价的一个基于统计的标注过程。文中首先介绍了CRSP的设计思想,然后讨论了从标注过的语料中获取知识的方法,叙 相似文献
13.
基于标点符号分割的汉语句法分析算法 总被引:6,自引:0,他引:6
目前大部分句法解析器都忽略标点符号这一重要的句法特征或者只进行非常简单的处理。本文根据标点符号的句法结构特性,提出单独解析块的概念,并且根据标点符号在句子中的特有特征和位置关系,给出了基于决策树算法(Id3)单独解析块识别方法,将标点融入汉语句法分析中。本文所用的实验数据(包括训练集和测试集)均来自中文宾州树库5.0。对句长大于40个词的汉语长句单独进行了实验,句法分析精度和召回率分别提高1.59%和0.93%,同时时间开销降低了近2/3。实验结果表明,标点对汉语长句句法分析非常有利, 系统性能获得了较大提高。 相似文献
14.
基于动作建模的中文依存句法分析 总被引:1,自引:0,他引:1
决策式依存句法分析,也就是基于分析动作的句法分析方法,常常被认为是一种高效的分析算法,但是它的性能稍低于一些更复杂的句法分析模型。本文将决策式句法分析同产生式、判别式句法分析这些复杂模型做了比较,试验数据采用宾州中文树库。结果显示,对于中文依存句法分析,决策式句法分析在性能上好于产生式和判别式句法分析。更进一步,我们观察到决策式句法分析是一种贪婪的算法,它在每个分析步骤只挑选最有可能的分析动作而丢失了对整句话依存分析的全局视角。基于此,我们提出了两种模型用来对句法分析动作进行建模以避免原决策式依存分析方法的贪婪性。试验结果显示,基于动作建模的依存分析模型在性能上好于原决策式依存分析方法,同时保持了较低的时间复杂度。 相似文献
15.
基于DOP的汉语句法分析技术 总被引:2,自引:1,他引:2
本文提出一种以DOP技术作为基本框架,同时利用基于相似的概率评估技术,实现汉语句法分析的方法。其中,对于输入语句,首先需要经过词汇层与词性层两层初选。然后,基于已构建知识源,获取输入语句的片段组合形式。最后,对输入语句与初选结果进行相似性评估,完成输入语句的组合分析过程。为论证方法有效性,基于包含1000个语句的真实汉语语料构建知识源,并采用包含100个语句的真实汉语语料作为测试集。实验表明,句法分析的各项指标都比较令人满意,可有效地实现汉语句法分析。 相似文献
16.
引入标点处理的层次化汉语长句句法分析方法 总被引:6,自引:1,他引:6
在分析汉语标点符号用法和句法功能的基础上,本文提出了一种新的面向汉语长句的层次化句法分析方法。这种方法和传统的不考虑标点符号的一遍分析方法的主要区别在于两个方面:第一,利用部分标点符号的特殊功能将复杂长句分割成子句序列,从而把整句的句法分析分成两级来进行。这种“分而治之”的策略大大降低了在传统的一遍分析方法中同时识别子句或短语之间的句法关系以及子句和短语内部成分的句法关系的困难。第二,从大规模树库中提取包含所有标点符号的语法规则和相应概率分布信息,有利于句法分析和歧义消解。实验证明我们的方法与传统的一遍图表(chart)分析方法相比,能够大大减少时间消耗和歧义边的个数,并且提高了复杂长句分析的正确率和召回率约7%。 相似文献