首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 78 毫秒
1.
句法分析是自然语言处理的基础技术,主流的由数据驱动的神经网络句法分析模型需要大规模的标注数据,但是通过人工标注扩展树库成本很高,因此如何利用现有标注树库进行数据增强成为研究焦点。在汉语句法分析的数据增强任务中,对于给定的标注树库,要求数据增强所生成的句子满足如下条件:第一,要求生成句具有多样化且完整的句法树结构;第二,要求生成句具有合理的语义。对此,我们首次提出基于词汇化树邻接语法的数据增强方法。针对第一个需求,该文设计实现基于词汇化树邻接语法的词汇化树抽取算法与句法树合成算法,基于该语法可以在句法树之间进行“接插”和“替换”的操作,从而推导生成新的句法树,并且用语言学的知识保证生成句符合语法规则且具有完整的句法树结构。针对第二个需求,该文利用语言模型对生成句进行语义合理性评估,选取语义合理的句子作为最终的增强数据,从而获取高质量的标注树库。我们以汉语为例开展研究,在汉语树库CTB5上进行句法分析的数据增强评测实验。实验结果显示,在小样本(CTB5的20%)实验中,通过该方法得到的增强数据使依存句法分析和成分句法分析的精度分别提高1.39%和2.14%。在鲁棒性实验中,该文通过构建扩展...  相似文献   

2.
赵亚琴  周献中 《计算机应用》2005,25(6):1339-1341,1344
提出并实现了一种基于神经网络的GLR(Generalized LR)句法分析算法,该算法结合神经网络自学习、自组织和并行分布处理等优点,以BP神经网络结构模型取代了GLR算法的分析表,模拟其移进和归约动作,通过计算网络输出来分析句法结构。该分析算法较好地解决了GLR算法对于存在多个移进归约冲突动作时,复制分析栈会使得动作表变得很大的缺点,实验结果表明,这种算法具有较好的泛化能力。  相似文献   

3.
以语法功能匹配作为句法分析的基本方法,以100万词清华973树库作为语法功能调查的主要资源,实现了一种基于语法功能匹配的句法分析算法。该算法能有效减少伪歧义,具有良好的分析效率,其分析结果包含了丰富而准确的语法信息。实验表明,短语正确率与召回率在封闭测试和开放测试中分别达到75.17%、73.69%和65.06%、56.55%。  相似文献   

4.
针对中文组合范畴语法(CCG)分析困难的特点,研究如何将两种彼此相互独立的技术共同应用在中文CCG句法分析上。首先使用预标注算法,使用对数线性模型通过去除那些概率较低的词汇范畴来对句子的潜在分析空间进行剪枝。然后应用启发式搜索算法进一步加速分析过程。最后从时间效率和分析精度两个维度对所使用的方法进行验证。实验表明,基于启发式搜索与预标注的句法分析算法可以显著地提高分析效率与分析精度。  相似文献   

5.
采用GLR算法对维吾尔语句子进行句法分析,并且与平行LR算法进行比较,比较它们的分析过程,针对于维吾尔语在单词集上进行句法分析。分析结果采用最优规则,选取最优的句法分析树,对下一步的句法分析研究提供很大的帮助。  相似文献   

6.
结合结构下文及词汇信息的汉语句法分析方法   总被引:2,自引:0,他引:2  
针对句法分析中上下文无关语法模型对句子信息利用的不足,通过融入结构下文和部分词汇信息,提出两种基于概率上下文无关语法模型的短语结构消歧方法,以达到消解结构歧义的目的;引入分层分析的算法,通过损失一定的时间效率使得在提高分析准确率的同时保证分析结果的全面性。实验结果表明,融入结构下文及词汇信息的汉语句法分析方法,利用了更多的句子信息,与上下文无关语法相比有着更强的消歧能力。  相似文献   

7.
时态逻辑不可递归公理化的性质,造成它的公理化系统和证明论方法不适于时态查询语言的建模.这使得时态逻辑无法利用公理化系统的良好性质及相关证明论方法对时态数据库的推理和查询做更为严谨和细致地刻画.因此寻找时态逻辑的替代者,以公理化的方式对时态查询语言做句法和语义的分析是必要的.考虑的2个主要工具是作为句法分析工具的以Lambek演算为核心的范畴语法系统,和作为语义分析工具的类型演算λ-演算.这主要是基于类型论的演算特点、SQL语句与陈述句的相似性、Lambek演算和λ-演算的公理化与证明论方法,及它们作为句法和语义分析工具之间的密切联系与对应性决定的.据此从Lambek演算出发,结合时态的处理,构建了并发的Lambek演算(LCTQ)及相应的范畴语法,对以公理化系统为基础的时态查询语言的句法分析做相关研究,并从证明论性质上保障了计算性资源,使得系统更为严谨和完善.  相似文献   

8.
一种有效的汉语概率句法分析算法通过制定语法功能词表和包含语法功能词的概率上下文无关规则集进行句法分析。它以语法功能词为切入点,首先识别出所有包含语法功能词的短语,然后分析短语之间的组合关系,最终得到句法树。实验表明该算法能获得较高的准确率。  相似文献   

9.
词组入句时发生语法性质转变,词组的句法范畴就应该转换,这种转换依赖词组作为整体进入更大词组的结构需要。要解释这种现象,组合范畴语法应该增加相应的转换规则。从集合论角度看,汉语有名词—动词—形容词依次包含关系,由此可归纳基本句法结构之间的转类套叠。在类有定职的前提下,得出转类套叠对应的范畴转换规则,形成有范畴转换机制的组合范畴语法C2-CCG。研究表明这种基于词组本位的形式语法有希望解释中文句法中各种转类套叠。  相似文献   

10.
概率句法分析器(PCFG Parser)是基于概率规则集的上下文无关文法的句法分析器。规则集主要是针对词类和短语类。然而事实上,词性相同而词汇不同,其所常用的句法规则也通常不同。目前NLP研究的一个趋势和热点就是词汇化的句法分析。针对概率句法分析独立性假设中缺乏词汇化的缺陷,本文将谓语动词的子语类信息与概率句法分析结合起来,提出一种基于动词子语类信息的词汇化概率句法分析方法。论文建立了基于汉语动词子语类框架的统计句法分析模型,并且针对动词子语类框架难以获取的问题,提出一种词汇化概率句法分析与动词子语类框架获取的互动方法。实验利用这种互动的方法获取了汉语中十个常用高频动词的概率化子语类信息,并结合原有的概率句法分析器PCFG实现了一个基于动词子语类信息的概率句法分析器原型系统S-PCFG。实验证明了基于动词子语类信息的概率句法分析对自然语言句法分析的准确率和速度均有所提高。同时分析了新的概率句法分析器的不足之处,为进一步的改进提供条件。  相似文献   

11.
一种有效的概率上下文无关文法分析算法*   总被引:3,自引:1,他引:3  
朱胜火  周明  刘昕  黄昌宁 《软件学报》1998,9(8):592-597
句法分析的研究是自然语言处理领域的一个重要组成部分。该提出并实现了一种有效的概率上下无关法SCFG(stochastic context-free grammer)的分析算法。首先对原有的GLR分析有加以改造,以便能够利用分析过程的控制结构来计算有关的概率;然后对分析过程中的每个状态增设了下标,以区分不同的归约路径。通过上述手段,成功地引入了状态的前向(Forward)概率和内(Inner)  相似文献   

12.
基于SAX的XML文档解析和存储技术应用   总被引:2,自引:1,他引:2  
田斌  孙霞 《微机发展》2005,15(3):90-92,144
XML作为一种中间的数据接口,已经显示出其不可替代的重要性。SAX使得Web应用程序能方便地解析和利用XML文档,同时使用哈希表存储数据可以使外部程序方便地调用解析XML文档后的数据。文中首先分析了SAX编程接口,对XML文档的解析机制进行了较深入的探讨;然后提出了一种使用哈希表存储XML数据以供外部程序调用的实现技术。  相似文献   

13.
汉语多重关系复句的关系层次分析   总被引:8,自引:0,他引:8  
鲁松  白硕  李素建  刘群 《软件学报》2001,12(7):987-995
汉语多重关系复句的句法分析问题主要由复句中的关系分析和层次分析两部分组成.将多重关系复句中的层次分析作为研究对象.它是针对多种逻辑或并列关系,按照一定层次组成复杂主从关系复句而进行的关系层次分析过程.为了有效地形式化地表示多重关系复句的层次结构,提出了关系层次树的概念,并以此为基础构造文法,采用部分数据驱动的确定性移进-归约算法实现多重关系复句的关系层次分析.通过开放测试对计算机实现的多重关系复句句法分析器进行考察,93.56%的正确率使所提出的分析方法的有效性和正确性得到了充分的验证.  相似文献   

14.
加速XML解析过程的研究   总被引:2,自引:0,他引:2  
论文介绍XML的发展背景,分析其解析技术的模型特点:DOM使用方便但是非常耗内存,SAX内存使用少却难以回访,VTD模型在资源消耗上进行折中的情况下,能够较快的解析、随机存取较大的XML文档。对比这三种模型的相应软件实现的解析性能,详细介绍VTD解析模型的定长和易定位特征,探讨了该模型在硬件芯片上解析XML的适用性和实现前景。  相似文献   

15.
基于标点符号分割的汉语句法分析算法   总被引:6,自引:0,他引:6  
目前大部分句法解析器都忽略标点符号这一重要的句法特征或者只进行非常简单的处理。本文根据标点符号的句法结构特性,提出单独解析块的概念,并且根据标点符号在句子中的特有特征和位置关系,给出了基于决策树算法(Id3)单独解析块识别方法,将标点融入汉语句法分析中。本文所用的实验数据(包括训练集和测试集)均来自中文宾州树库5.0。对句长大于40个词的汉语长句单独进行了实验,句法分析精度和召回率分别提高1.59%和0.93%,同时时间开销降低了近2/3。实验结果表明,标点对汉语长句句法分析非常有利, 系统性能获得了较大提高。  相似文献   

16.
一种层次化的LSD规则体系及其分析算法   总被引:1,自引:0,他引:1  
本文提出了一种基于词汇属性结构描述和规则继承的层次化LSD规则体系,讨论了该规则体系下的规则搜索策略和词汇化规则索引的实现方法,并在此基础上首次给出了LSD文法的非确定性分析算法。该规则系统具有从传统属性文法到现代词汇文法的可伸缩性,同时较好地解决了线性规则库中复杂的规则交互问题。  相似文献   

17.
该文吸收已有动词研究的相关成果,提出了动词语义词典开发的相关原则和研制思路,界定并描写了词典中所涉及的相关属性信息,并对词典的总体文件结构及其各个库的信息进行了描写和说明。最终开发了融合词汇语义和句法语义,涵盖词形、词性、释义、义类、义场、句法范畴信息、语义范畴信息、语义句模等多种信息参数的开放性的动词语义知识词典。该词典可以在歧义分化、词义关系考察、句法—语义接口、句模抽取等方面提供支持。  相似文献   

18.
在软交换应用服务器的各种实现方案中;基于业务逻辑描述清晰,实现简单,以及同样在开放第三方业务支持上的便捷的考虑,本文提出了对基于CPL脚本语言的应用服务器的研究。用CPL脚本实现的应用可以达到业务逻辑可以和呼叫控制相分离的目的,为满足应用服务器频繁的业务逻辑修改以及丰富的新业务开发提供了最大便利,也为服务器的可靠性提供了很大的支持。  相似文献   

19.
内部类是定义在一个类内,它有静态内部类与非静态内部类两种。内部类可以访问外部类的成员,但外部类不能直接访问内部类的成员。由内部类可以引申出匿名内部类,匿名内部类在处理事件时是非常方便的。  相似文献   

20.
气象景观的真实感模拟是计算机图形学中研究的热点和难点之一.综述了近年来在气象景观的真实感建模与绘制技术方面取得的最新研究进展;介绍了这些方法的基本原理,并对其进行分析和比较;最后对气象景观建模和绘制技术的未来提出了一些建议.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号