首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 140 毫秒
1.
基于移进归约的句法分析系统具有线性的时间复杂度,因此在大规模句法分析任务中具有特别实际的意义。然而目前移进归约句法分析系统的性能远低于领域内最好的句法分析器,例如,伯克利句法分析器。该文研究如何利用向上学习和无标注数据改进移进归约句法分析系统,使之尽可能接近伯克利句法分析器的性能。我们首先应用伯克利句法分析器对大规模的无标注数据进行自动分析,然后利用得到的自动标注数据作为额外的训练数据改进词性标注系统和移进归约句法分析器。实验结果表明,向上学习方法和无标注数据使移进归约句法分析的性能提高了2.3%,达到82.4%。这个性能与伯克利句法分析器的性能可比。与此同时,该文最终得到的句法分析系统拥有明显的速度优势(7倍速度于伯克利句法分析器)。  相似文献   

2.
在对Dan Bikel基于Collins中心词驱动概率句法分析模型实现的句法分析器进行深入研究分析的基础上,对其进行了两个方面的改进。一是通过提供N-best词性候选序列,改进原模型在词性方面的处理,改善了句法分析的结果;二是在该模型中引进单独的基本名词短语识别,从而降低句法分析的复杂度,提高了效率,其中,针对中文的特点,通过对BaseNP的概念进行一系列的扩展,深入研究了基于不同层次概念的BaseNP对句法分析的影响并探讨更适合中文句法分析的BaseNP定义。利用改进的句法分析模型进行中文句法分析实验,实验结果表明,改进模型可以缩短分析时间26%,提高F值4.4个百分点,交叉括号平均减少18%。  相似文献   

3.
句法分析性能的高低对机器翻译、信息检索、语音识别等自然语言处理相关应用领域的发展有着很大的影响。该文基于LDC 14年的新华社语料,采用开源中文句法分析器Stanford parser和Berkeley parser,在内部分词系统和外部分词系统两种策略下对句法分析的性能进行对比分析,并就实验结果提出自己的分析和思考。  相似文献   

4.
基于动作建模的中文依存句法分析   总被引:1,自引:0,他引:1  
决策式依存句法分析,也就是基于分析动作的句法分析方法,常常被认为是一种高效的分析算法,但是它的性能稍低于一些更复杂的句法分析模型。本文将决策式句法分析同产生式、判别式句法分析这些复杂模型做了比较,试验数据采用宾州中文树库。结果显示,对于中文依存句法分析,决策式句法分析在性能上好于产生式和判别式句法分析。更进一步,我们观察到决策式句法分析是一种贪婪的算法,它在每个分析步骤只挑选最有可能的分析动作而丢失了对整句话依存分析的全局视角。基于此,我们提出了两种模型用来对句法分析动作进行建模以避免原决策式依存分析方法的贪婪性。试验结果显示,基于动作建模的依存分析模型在性能上好于原决策式依存分析方法,同时保持了较低的时间复杂度。  相似文献   

5.
蒋志鹏  关毅 《自动化学报》2019,45(2):276-288
完全句法分析是自然语言处理(Natural language processing,NLP)中重要的结构化过程,由于中文电子病历(Chinese electronic medical record,CEMR)句法标注语料匮乏,目前还没有面向中文电子病历的完全句法分析研究.本文针对中文电子病历模式化强的子语言特征,首次以树片段形式化中文电子病历复用的模式,提出了面向数据句法分析(Data-oriented parsing,DOP)和层次句法分析融合模型.在树片段抽取阶段,提出效率更高的标准树片段和局部树片段抽取算法,分别解决了标准树片段的重复比对问题,以及二次树核(Quadratic tree kernel,QTK)的效率低下问题,获得了标准树片段集和局部树片段集.基于上述两个树片段集,提出词汇和词性混合匹配策略和最大化树片段组合算法改进面向数据句法分析模型,缓解了无效树片段带来的噪声.实验结果表明,该融合模型能够有效改善中文电子病历句法分析效果,基于少量标注语料F1值能够达到目前最高的80.87%,并且在跨科室句法分析上超过Stanford parser和Berkeley parser 2%以上.  相似文献   

6.
该文提出了一种面向移进—归约句法分析器的单模型系统整合算法。在训练阶段,该方法通过调整训练数据的分布,来构建用于整合的多个移进—归约句法分析器。在解码阶段,该方法首先使用各个移进—归约句法分析器对待分析的句子进行句法分析,然后利用一个线性模型对各句法分析器输出的句法树进行评分,从中选出得分最高的句法树作为最终结果。该文中的实验是在宾州英文树库上进行的。实验结果表明,该文中的方法能够显著改善基准系统的性能。  相似文献   

7.
概率句法分析器(PCFG Parser)是基于概率规则集的上下文无关文法的句法分析器。规则集主要是针对词类和短语类。然而事实上,词性相同而词汇不同,其所常用的句法规则也通常不同。目前NLP研究的一个趋势和热点就是词汇化的句法分析。针对概率句法分析独立性假设中缺乏词汇化的缺陷,本文将谓语动词的子语类信息与概率句法分析结合起来,提出一种基于动词子语类信息的词汇化概率句法分析方法。论文建立了基于汉语动词子语类框架的统计句法分析模型,并且针对动词子语类框架难以获取的问题,提出一种词汇化概率句法分析与动词子语类框架获取的互动方法。实验利用这种互动的方法获取了汉语中十个常用高频动词的概率化子语类信息,并结合原有的概率句法分析器PCFG实现了一个基于动词子语类信息的概率句法分析器原型系统S-PCFG。实验证明了基于动词子语类信息的概率句法分析对自然语言句法分析的准确率和速度均有所提高。同时分析了新的概率句法分析器的不足之处,为进一步的改进提供条件。  相似文献   

8.
一种基于句法语义特征的汉语句法分析器   总被引:4,自引:2,他引:2  
句法分析不是简单地符号推理,而应该是一种实体推理。增加语义信息是实现句法分析实体推理的有效手段。本文所介绍的句法分析器有两个特色:一是利用基于词的兼类处理规则大大提高了句法分析的效率;二是利用词静态和动态的句法语义特征来限制句法规则过强的生成能力,取得了较好的效果。  相似文献   

9.
基于浅层句法分析的中文语义角色标注研究   总被引:2,自引:1,他引:1  
语义角色标注是获取语义信息的一种重要手段。许多现有的语义角色标注都是在完全句法分析的基础上进行的,但由于现阶段中文完全句法分析器性能比较低,基于自动完全句法分析的中文语义角色标注效果并不理想。因此该文将中文语义角色标注建立在了浅层句法分析的基础上。在句法分析阶段,利用构词法获得词语的“伪中心语素”特征,有效缓解了词语级别的数据稀疏问题,从而提高了句法分析的性能,F值达到了0.93。在角色标注阶段,利用构词法获得了目标动词的语素特征,细粒度地描述了动词本身的结构,从而为角色标注提供了更多的信息。此外,该文还提出了句子的“粗框架”特征,有效模拟了基于完全句法分析的角色标注中的子类框架信息。该文所实现的角色标注系统的F值达到了0.74,比前人的工作(0.71)有较为显著的提升,从而证明了该文的方法是有效的。  相似文献   

10.
层次句法分析是一种简单快速的完全句法分析方法,该方法将句法分析分解为词性标注、组块分析和构建句法树三个阶段。该文将其中的组块分析细分为基本块分析和复杂块分析,利用条件随机域模型代替最大熵模型进行序列化标注。由于层次句分析中错误累积问题尤为严重,该文提出了一种简单可行的错误预判及协同纠错算法,跟踪本层预判的错误标注结果进入下一层,利用两层预测分数相结合的方式协同纠错。实验结果表明,加入纠错方法后,层次句法分析在保证解析速度的同时,获得了与主流中文句法分析器相当的解析精度。  相似文献   

11.
基于字符的中文分词、词性标注和依存句法分析联合模型   总被引:1,自引:0,他引:1  
目前,基于转移的中文分词、词性标注和依存句法分析联合模型存在两大问题: 一是任务的融合方式有待改进;二是模型性能受限于全标注语料的规模。针对第一个问题,该文利用词语内部结构将基于词语的依存句法树扩展成了基于字符的依存句法树,采用转移策略,实现了基于字符的中文分词、词性标注和依存句法分析联合模型;依据序列标注的中文分词方法,将基于转移的中文分词处理方案重新设计为4种转移动作: Shift_S、Shift_B、Shift_M和Shift_E,同时能够将以往中文分词的研究成果融入联合模型。针对第二个问题,该文使用具有部分标注信息的语料,从中抽取字符串层面的n-gram特征和结构层面的依存子树特征融入联合模型,实现了半监督的中文分词、词性标注和依存句法分析联合模型。在宾州中文树库上的实验结果表明,该文的模型在中文分词、词性标注和依存分析任务上的F1值分别达到了98.31%、94.84%和81.71%,较单任务模型的结果分别提升了0.92%、1.77%和3.95%。其中,中文分词和词性标注在目前公布的研究结果中取得了最好成绩。  相似文献   

12.
确定性依存句法分析(又称为基于动作的依存句法分析或基于转换的依存句法分析),由于采用了贪婪的搜索策略,它是一类比较有效率的依存句法分析方法.在一种主流的确定性依存句法分析方法-Yamada-Matsumoto算法的基础上,通过改进其转换模型,提出了一种基于子树的确定性依存句法分析方法.在新的方法中,引入了子树的结构,因而能够更加灵活地确定词与词间的依存关系.最后,通过在中文宾州树库上的实验,证明了这个新方法的有效性.  相似文献   

13.
四种基本统计句法分析模型在汉语句法分析中的性能比较   总被引:5,自引:1,他引:5  
统计模型的选择是统计句法分析的关键。目前句法分析常用的有四种经典统计模型—PCFG模型,基于历史模型、分层渐近式模型和头驱动模型。本文通过实验,在已有的10000句汉语树库基础上,测试了这四种经典模型在现有数据规模下各自的性能,并论述了这四种经典模型的各自特点。本文旨在通过对四种基本模型的比较研究,为具体应用中句法分析模型的选择提供参考和依据。  相似文献   

14.
基于ER模型和受限汉语的数据库中文查询语言研究   总被引:7,自引:0,他引:7  
本文给出了一个基于ER模型和受限汉语的关系数据库汉语查询语言的计算模型RChiQL(Restrictive Chinese Query Language)及其实现方案,系统模拟人脑对语言处理的并行机制,将中文查询句的处理分为四个相互依存、相互交织的步骤(词的切分,文法分析,语义分析和SQL转换) ,其中引入了一种新的文法GWERSC(Grammar with ER Semantic Characteristics ,ER语义特征文法) ,其内嵌的ER模型语义既有利于语法分析又简化了语义分析,取得了很好的效果。  相似文献   

15.
This paper puts forward and explores the problem of empty element (EE) recovery in Chinese from the syntactic parsing perspective, which has been largely ignored in the literature. First, we demonstrate why EEs play a critical role in syntactic parsing of Chinese and how EEs can better benefit syntactic parsing of Chinese via re-categorization from the syntactic perspective. Then, we propose two ways to automatically recover EEs: a joint constituent parsing approach and a chunk-based dependency parsing approach. Evaluation on the Chinese TreeBank (CTB) 5.1 corpus shows that integrating EE recovery into the Charniak parser achieves a significant performance improvement of 1.29 in Fl-measure. To the best of our knowledge, this is the first close examination of EEs in syntactic parsing of Chinese, which deserves more attention in the future with regard to its specific importance.  相似文献   

16.
结合结构下文及词汇信息的汉语句法分析方法   总被引:2,自引:0,他引:2  
针对句法分析中上下文无关语法模型对句子信息利用的不足,通过融入结构下文和部分词汇信息,提出两种基于概率上下文无关语法模型的短语结构消歧方法,以达到消解结构歧义的目的;引入分层分析的算法,通过损失一定的时间效率使得在提高分析准确率的同时保证分析结果的全面性。实验结果表明,融入结构下文及词汇信息的汉语句法分析方法,利用了更多的句子信息,与上下文无关语法相比有着更强的消歧能力。  相似文献   

17.
在基于神经网络的依存句法分析中,对分析栈和决策层信息的表示和利用依然有值得深入研究的空间。针对分析栈的表示,已有工作并没有对单棵依存子树独立编码的表示,导致无法利用各个依存子树的局部特征;也没有对生成的依存弧序列进行编码,导致无法利用依存弧的全局信息。针对决策层的表示,已有工作利用MLP预测转移动作,该结构无法利用历史决策动作的信息。对此,该文提出基于多特征融合编码的神经网络依存句法分析模型,基于依存子树和历史生成的依存弧表示分析栈,利用TreeLSTM网络编码依存子树信息,利用LSTM网络编码历史生成的依存弧序列,以更好地表示分析栈的局部信息和全局信息。进一步提出基于LSTM网络的结构预测转移动作序列,引入历史决策动作信息作为特征辅助当前决策。该文以汉语为具体研究对象,在CTB5汉语依存分析数据上验证所提出的多特征融合编码的神经网络模型。实验结果显示,汉语依存句法分析性能得到改进,在目前公布的基于转移的分析系统中取得最好成绩,在UAS和LAS评价指标上分别达到87.8%和86.8%的精度,表明所提出的对依存子树局部特征及历史依存弧信息和历史决策动作信息的编码方法,在改进依存分析模型性能方面的有效性。  相似文献   

18.
汉英机器翻译源语分析中词的识别   总被引:1,自引:1,他引:0  
汉英MT源语分析首先遇到的问题是词的识别。汉语中的“词”没有明确的定义,语素和词、词和词组、词组和句子,相互之间也没有清楚的界限。按照先分词、再句法分析的办法,会在分词时遇到构词问题和句法问题相互交错的困难。作者认为,可以把字作为源语句法分析的起始点,使词和词组的识别与句法分析同时进行。本文叙述了这种观点及其实现过程,并且以处理离合词为例,说明了识别的基本方法。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号