共查询到18条相似文献,搜索用时 46 毫秒
1.
基于动作建模的中文依存句法分析 总被引:1,自引:0,他引:1
决策式依存句法分析,也就是基于分析动作的句法分析方法,常常被认为是一种高效的分析算法,但是它的性能稍低于一些更复杂的句法分析模型。本文将决策式句法分析同产生式、判别式句法分析这些复杂模型做了比较,试验数据采用宾州中文树库。结果显示,对于中文依存句法分析,决策式句法分析在性能上好于产生式和判别式句法分析。更进一步,我们观察到决策式句法分析是一种贪婪的算法,它在每个分析步骤只挑选最有可能的分析动作而丢失了对整句话依存分析的全局视角。基于此,我们提出了两种模型用来对句法分析动作进行建模以避免原决策式依存分析方法的贪婪性。试验结果显示,基于动作建模的依存分析模型在性能上好于原决策式依存分析方法,同时保持了较低的时间复杂度。 相似文献
2.
采用一种基于混合统计模型的方法来实现中文基本名词短语识别。首先简要分析目前的研究现状,明确中文Base NP识别的任务,然后采用以基于转换的标注和条件随机域模型为底层,支持向量机模型为高层的混合统计模型来进行中文BaseNP的识别。在ACE2005中文语料上的实验表明,F值比使用单一模型提高了1.37%,达到了88.67%,能提高中文基本名词短语的识别性能。 相似文献
3.
沈超 《计算机应用与软件》2011,28(2)
确定性依存句法分析(又称为基于动作的依存句法分析或基于转换的依存句法分析),由于采用了贪婪的搜索策略,它是一类比较有效率的依存句法分析方法.在一种主流的确定性依存句法分析方法-Yamada-Matsumoto算法的基础上,通过改进其转换模型,提出了一种基于子树的确定性依存句法分析方法.在新的方法中,引入了子树的结构,因而能够更加灵活地确定词与词间的依存关系.最后,通过在中文宾州树库上的实验,证明了这个新方法的有效性. 相似文献
4.
5.
介绍依存句法分析的理论和方法,句法分析是自然语言处理中的关键技术之一.比较自顶向下算法、自底向上算法和最大生成树算法,从而得出最大生成树算法是效果最好的.利用句法分析可以提高问题分类的正确率,从而提高整个系统的正确性. 相似文献
6.
《计算机科学与探索》2017,(7):1114-1121
句法分析是自然语言理解的一项基础技术,是迈向深层语言理解的基石。目前常用的句法分析方法的语法模型建立在上下文无关文法的假设上。事实上,短语结构树的节点之间具有很强的上下文相关性,充分利用结构信息,可进一步提高句法分析的准确性。融合了句法结构树中的多结构信息(在非终节点中增加父亲节点及左、右姐妹节点等标记)以加强语法规则的上下文约束,并采用结构化支持向量机的方法对句法进行了分析。实验表明,该融合多结构信息的句法分析方法可以消解结构歧义,提升句法分析精确率和F1值。 相似文献
7.
8.
9.
中文人称名词短语单复数自动识别 总被引:1,自引:1,他引:1
名词短语的单复数信息在共指消解中是必不可少的特征. 与英语不同, 中文属于汉藏语系, 名词本身不能明显体现单复数信息, 需要借助其所在的名词短语来进行体现. 本文在自动内容抽取(Automatic content extraction, ACE)语料上抽取得到人称名词短语的单复数信息, 分别采用了基于规则和机器学习的方法来进行人称名词短语的单复数自动识别. 基于规则的方法, 在一些知识资源的基础上定义了规则模板库, 每条规则采用槽和槽值的方法来进行体现; 机器学习方法采用最大熵模型组合考察了词形、词性、词义、数量关系等特征. 两种方法分别达到了48.24\%和87.48\%的正确率. 实验结果显示, 基于规则的方法能够保证精确率而不能保证召回率, 机器学习的方法可以更好地完成单复数信息的识别任务. 相似文献
10.
基于字符的中文分词、词性标注和依存句法分析联合模型 总被引:1,自引:0,他引:1
目前,基于转移的中文分词、词性标注和依存句法分析联合模型存在两大问题: 一是任务的融合方式有待改进;二是模型性能受限于全标注语料的规模。针对第一个问题,该文利用词语内部结构将基于词语的依存句法树扩展成了基于字符的依存句法树,采用转移策略,实现了基于字符的中文分词、词性标注和依存句法分析联合模型;依据序列标注的中文分词方法,将基于转移的中文分词处理方案重新设计为4种转移动作: Shift_S、Shift_B、Shift_M和Shift_E,同时能够将以往中文分词的研究成果融入联合模型。针对第二个问题,该文使用具有部分标注信息的语料,从中抽取字符串层面的n-gram特征和结构层面的依存子树特征融入联合模型,实现了半监督的中文分词、词性标注和依存句法分析联合模型。在宾州中文树库上的实验结果表明,该文的模型在中文分词、词性标注和依存分析任务上的F1值分别达到了98.31%、94.84%和81.71%,较单任务模型的结果分别提升了0.92%、1.77%和3.95%。其中,中文分词和词性标注在目前公布的研究结果中取得了最好成绩。 相似文献
11.
决策式分析有着贪婪的特性,容易引起错误增殖。针对该问题,提出一种基于SVM的汉语决策式依存分析算法。利用SVM构建根查找器,用根结点将句子划分为2个子句。从子句中识别出介词短语,采用改进后的Nivre算法分析子句。该算法在分析句子之前做预处理从而降低句子复杂度,减少错误增殖,分析准确率也相应得到提高。实验结果表明,该分析策略的准确率比Nivre算法提高了3.38%。 相似文献
12.
为克服传统的全监督机器学习模型的训练依赖于大量的标注样本的弱点,给出一种半监督学习和主动学习相结合的算法。根据主动学习选择策略选择最有价值的句子来标注,结合半监督来充分利用未标注的句子。结合汉语语料的特点,改进主动学习选择策略。实验结果表明,与采用随机选择标注样本相比,在使用相同数目的训练样本的情况下,该算法可以使学习器的F-score调高10.2%,在分类器到达相同性能的情况下,人工标注量可以减少32%,学习器对标注样本的需求得到了有效降低。 相似文献
13.
提出了一个汉语基本短语分析模型,将汉语短语的边界划分和短语标识分开,假定这两个过程相互独立,采用最大熵方法分别建立模型解决。最大熵模型的关键是如何选取有效的特征,文中给出了两个步骤相关的特征空间以及特征选择过程和算法。实验表明,模型的短语定界精确率达到95.27%,标注精确率达到96.2%。 相似文献
14.
15.
16.
17.
在汉语一体化依存分析中,如何利用分词、词性标注和句法分析的中间结果作为分析特征成为核心问题,也是三个任务相互制约协调、共同提高性能的关键所在。目前无论基于特征工程的方法还是基于深度学习的方法尚无法充分利用分析过程中依存子树的完整信息,而依存子树作为中间结果的主要成分对三个任务的后续分析具有重要的指导意义。该文在基于转移的依存分析框架下,提出Stack-Tree LSTM依存子树编码方法,通过对分析栈中所有依存子树的有效建模,获取任意时刻的依存子树的完整信息作为特征参与转移动作决策。利用该编码方式提出词性特征使用方法,融合N-gram特征构建汉语一体化依存分析神经网络模型。最后在宾州汉语树库上进行了验证实验,并与已有方法进行了比较。实验结果显示: 该文提出的模型在分词、词性标注和依存分析任务上的性能非常接近特征工程最好的结果,并且均超过已有的一体化依存分析神经网络模型。 相似文献
18.
某些“基数词+时间单位词”组成的中文时间表达式在不同语境中可能表现为时点式,也可能表现为时段式。为自动判定中文时间表达式的类型,提出一种基于依存分析的判定方法。该方法首先借助依存分析考察中文时间表达式在句中所受的句法约束,然后将这些约束转化为具有可计算性的依存规则,最后利用依存规则对中文时间表达式的类型进行判定。实验结果显示,在此方法中,时间表达式确认的正确率、召回率、F值分别达到82.3%、88.1%和85.1%;时间表达式类型判定的正确率、召回率、F值分别达到77.1%、82.5%和79.7%。 相似文献