首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 93 毫秒
1.
基于树核函数的英文代词消解研究   总被引:1,自引:1,他引:0  
该文提出了一种基于树核的英文代词消解方法。针对结构化信息在指代消解中的重要作用,该文使用SVM提供的卷积树核函数自动获取句法结构信息,将句法树作为一个特征,和其他基本特征相结合。该文系统的分析了训练用例的过滤及不同的剪枝策略对模型性能的影响,同时还分析了树核函数对于几句之内的代词消解有比较好的结果。在ACE2004 NWIRE基准数据上进行实验的结果说明树核能显著地提高代词消解系统的性能,并且对一句之内的代词消解有较好的效果。  相似文献   

2.
基于树核函数,提出了从使用中心理论、集成竞争者信息和融入语义角色相关信息这3个方面对结构化句法树进行动态扩展来提升中英文代词消解的性能。首先探索了3种基本结构化句法树捕获方案,并使用SVMLight中提供的卷积树核函数直接进行基于结构化句法树的相似度计算,从而完成指代消解任务;其次,在分析3种结构化句法树捕获方案的基础上,从中心理论、竞争者信息和语义角色相关信息等几方面对捕获的结构化句法树进行了扩展;最后,通过ACE 2004 NWIRE英文语料和ACE 2005 NWIRE中文语料上的实验,说明了这些扩展能够提升代词消解的性能。  相似文献   

3.
孔芳  周国栋 《软件学报》2012,23(5):1085-1099
基于树核函数,提出了从使用中心理论、集成竞争者信息和融入语义角色相关信息这3个方面对结构化句法树进行动态扩展来提升中英文代词消解的性能.首先探索了3种基本结构化句法树捕获方案,并使用SVMLight 中提供的卷积树核函数直接进行基于结构化句法树的相似度计算,从而完成指代消解任务;其次,在分析3种结构化句法树捕获方案的基础上,从中心理论、竞争者信息和语义角色相关信息等几方面对捕获的结构化句法树进行了扩 展;最后,通过ACE 2004 NWIRE英文语料和ACE 2005 NWIRE中文语料上的实验,说明了这些扩展能够提升代词消解的性能.  相似文献   

4.
指代消解是自然语言处理中语篇理解的关键问题之一。近年来对于树核函数的研究为指代消解提出了新的思路。基于树核函数,提出了一种新的中文代词的消解方法。将句法树作为一个特征,使用SVM提供的树核函数自动获取句法信息。在ACE2005 NWIRE基准数据上进行实验的结果表明树核对中文代词的消解能起到显著的作用,其中F值达到了75.8%。  相似文献   

5.
结合规则与语义的中文人称代词指代消解   总被引:1,自引:1,他引:0  
指代消解是一种为了确定文章中出现的指代词与前文中出现的内容是否为同一事物的技术,在海量信息文本智能处理中具有重要的作用,而人称代词在各种指代词集合中占有相当一部分比例。本文采用规则与语义相结合的方法对中文人称代词进行指代消解,在基础的语法过滤规则之上新增同位语规则过滤指代词的候选消解项;提出更精确的同义词距离计算方法,利用同义词词林和知网对人称代词的关联词与候选先行词的关联词进行语义关系计算,选择关联度最高的候选先行词作为最终的指代结果。通 过不同方法的对比实验和在真实语料数据集上的实验表明,本文所提方法获得了较好的效果。  相似文献   

6.
基于树核函数的“it”待消解项识别研究   总被引:3,自引:1,他引:2  
该文在基于特征的英文代词指代消解平台上,使用复合核函数,研究指代消解中待消解项“it”的识别问题。围绕“it”是否是待消解项,该文采取有效策略获得“it”句法结构信息与平面特征信息,并将它们结合起来生成“it”待消解项分类器。在测试分类器性能的同时,将其运用到代词指代消解中以检验它对指代消解的作用。最后在ACE2003基准语料上实验表明采用复合核生成的分类器具有较高的准确率,并能显著提高代词指代消解性能。  相似文献   

7.
付健  孔芳 《计算机工程》2020,46(1):45-51
在LEE等人提出的端到端指代消解模型基础上,考虑中文行文特点,提出一种融合结构化信息的中文指代消解模型。压缩文档中所进行有句子对应的成分句法树并获取文档压缩树叶节点深度,采用成分句法树的结构化嵌入(SECT)方法将结构信息进行向量化处理,将词性、文档压缩树叶节点深度与SECT信息作为3个特征向量引入模型中进行中文指代消解。在CoNLL2012数据集中的测试结果表明,通过结合上述3个特征,可使该模型的中文指代消解性能得到有效提高,其平均F_1值可达62.33%,较基准模型提升5.28%。  相似文献   

8.
付健  孔芳 《计算机科学》2020,47(3):231-236
随着深度学习的兴起与发展,越来越多的学者开始将深度学习技术应用于指代消解任务中。但现有的神经指代消解模型普遍只关注文本的线性特征,忽略了传统方法中已证明非常有效的结构信息的融入。以目前表现最佳的Lee等提出的神经网络模型为基础,借助成分句法树对上述问题进行了改进:1)提出了一种枚举句法树中以结点为短语的抽取策略,避免了暴力枚举策略所受到的长度限制与不符合句法规则的短语集噪音的引入;2)利用树的遍历得到结点序列,结合结点的高度与路径等特征,直接对成分句法树进行上下文表示并将其融入模型中,避免了只使用字、词序列而产生的结构信息缺失问题。在CoNLL 2012 Shared Task的数据集上对所提模型进行了一系列实验,实验结果显示,其中文指代消解的F 1值达到了62.35,英文指代消解的F 1值也达到了67.24,从而验证了所提结构信息融入策略能大大提升指代消解的性能。  相似文献   

9.
指代消解是文本理解和信息抽取的一项重要任务。针对这一任务,提出了基于混合策略的藏文人称代词指代消解方法,通过对藏文人名、人称代词的形态特征和构词规律的研究,制定了三类消解规则和有效统计特征,采用基于规则、最大熵模型以及规则与最大熵模型相结合的三种方法实现了藏文人称代词的指代消解系统。在包含2?306个待消解对的藏文句子集上,经测试分别获得76.02%、86.21%和88.16%的F值。  相似文献   

10.
以基于机器学习的指代(Anaphora)消解平台为基础,研究代词待消解项识别问题.挖掘能区分代词是否为待消解项的特征集,总结归纳具有规律的代词待消解项的句法结构,使用机器学习的方法将二者结合生成代词待消解项过滤器并将其加入到代词指代消解平台.在ACE2003基准语料上测试过滤器自身性能及对代词指代消解的贡献.实验表明过滤器具有较高的准确率,能明显地提高代词指代消解系统的性能.  相似文献   

11.
介绍了一种基于树核函数的零指代项识别方法,并给出了具体的实现系统。为了能够裁剪出包含零指代项的句法结构树,首先对CTB的语料进行了相关的人工标注,构建了一个基准语料库;然后,提出了3种不同的裁剪策略,获得了零指代项的结构化信息,生成了零指代项分类器;最后,构建了一个基于规则的原型系统,作为研究内容的实验对象。实验结果显示,提出的基于树核函数的零指代项识别方法获得的识别率明显优于基于规则的原型系统。  相似文献   

12.
蛋白质交互关系(PPI)抽取是生物医学信息抽取领域的一个重要部分,具有很高的应用价值和实际意义。该文使用一种基于SVM的组合核方法进行蛋白质关系抽取,将基于特征的平面核和基于结构的卷积树核组合。一棵完整的句法解析树中包含了较多噪声,需对其修剪以提高PPI抽取效果。首先讨论不同的树的剪裁策略对实验结果的影响,分别使用完全树、最小完全树、最小树和最短路径闭包树进行实验,最短路径闭包树效果最好;然后在最短路径闭包树的基础上提出一种动态拓展树,该树取得了明显优于其他解析树的效果。最后基于组合核在AIMED上进行10倍交叉实验,精确率、召回率和F值分别达到了82.40%、51.30%和63.23%。  相似文献   

13.
许健 《计算机应用研究》2021,38(8):2394-2400
针对传统漏洞检测分类需要定义人工特征以及相似度匹配算法不能检测非克隆漏洞、现有深度学习漏洞检测的方法特征维度过大以及只针对函数调用的问题,提出一种融合滑动窗口和哈希函数的深度学习方法,对源代码进行静态漏洞检测分类.首先抽取源代码的方法体,形成正负样本集,对样本集中的每个样本构建抽象语法树,根据语法树中的节点类型替换程序员自定义的变量名以及方法名,并以先序遍历的方式序列化抽象语法树;然后对抽象语法树节点中的节点信息进行分词,为每个词分配一个独立的节点编号;其次对树节点进行进一步的拆分,形成词序列,基于滑动窗口与哈希函数训练出相应的漏洞检测分类模型.最后,在SARD数据集中选取CWE190整数上溢和CWE191整数下溢两类漏洞进行实验,该模型在CWE190、CWE191中的分类准确率和召回率分别达到97.4%、94.2%和97.6%、95.1%.实验结果表明,提出方法能够检测到代码中的安全漏洞类型,并且在分类准确率和召回率上优于现有的方法.  相似文献   

14.
在文语转换系统中,从文本中预测出准确的韵律结构对于提高合成语音的自然度具有重要的作用。利用10 000句标注了词性标记的文本语料,在语言学专家的指导下,人工标注了语料的韵律词和韵律短语。选择了标注结果一致性最高的500句语句,标注了语法层级结构,并利用语法树高度描述语法词之间连接的紧密程度。通过分析韵律短语边界与语法结构的关系,发现韵律短语边界受语法树高度、语法词词性和语法词词长的影响,因此选择了这三个特征,利用TBL算法和400句训练语句训练了预测模型。测试集上的预测结果表明,提出的方法在小规模训练语料下,韵律短语预测的精确率达到了75.2%,召回率达到了77.1%,F-Score达到了76.1%。  相似文献   

15.
为了检测程序设计类课程中出现的作业抄袭行为,提出了基于抽象语法树的抄袭检测方法.运用语法分析工具对代码进行语法分析生成抽象语法树(AST),通过计算生物学中序列匹配的算法进行程序相似度的计算.提取程序相似部分的AST特征,生成空间向量,聚类分析找出“抄袭团伙”.实验结果表明,该方法对抄袭行为具有较好的检测效果,并能比较准确地找到“抄袭团伙”.  相似文献   

16.
针对传统人脸对齐算法效率较低的问题,提出一种基于形状索引的高斯差分(DoG)特征与高斯过程回归树(GPRT)的人脸关键点检测算法。首先,由高斯过程回归树的内核测量两个输入之间的相似性,并表示为两个输入进入相同叶子的树木数。然后基于高斯过程回归树模型提取形状索引DoG特征,并进一步完成GPRT的特征设计。最后从局部视网膜模式中采集滤波回应来增加稳定性,实现对抗几何差异的鲁棒性。在LFPW人脸数据库上验证结果表明该方法能够取得良好的性能表现,证明了基于形状索引的DoG特征与GPRT的人脸关键点检测算法的有效性。  相似文献   

17.
Tremendous increase in user-generated content (UGC) published over the web in the form of natural language has posed a formidable challenge to automated information extraction (IE) and content analysis (CA). Techniques based on tree kernels (TK) have been successfully used for modelling semantic compositionality in many natural language processing (NLP) applications. Essentially, these techniques obtain the similarity of two production rules based on exact string comparison between the peer nodes. However, semantically identical tree fragments are forbidden even though they can contribute to the similarity of two trees. A mechanism needs to be addressed that accounts for the similarity of rules with varied syntax and vocabulary holding knowledge that are relatively analogous. In this paper, a hierarchical framework based on document object model (DOM) tree and linguistic kernels that jointly address subjectivity detection, opinion extraction and polarity classification is addressed. The model proceeds in three stages: during first stage, the contents of each DOM tree node is analysed to estimate the complexity of vocabulary and syntax using readability test. In second stage, the semantic tree kernels extended with word embeddings are used to classify nodes containing subjective and objective content. Finally, the content returned to be subjective is further examined for opinion polarity classification using fine-grained linguistic kernels. The efficiency of the proposed model is demonstrated through a series of experiments being conducted. The results reveal that the proposed polarity-enriched tree kernel (PETK) results in better prediction performance compared to the conventional tree kernels.  相似文献   

18.
藏语微博是目前流行的藏文网络媒体形式。对藏文微博文本进行情感挖掘,能够有效提高政府对藏语言的监测能力。传统的文本分类方法对中文微博能够达到不错的效果,但由于藏文具有自身的语言特点,传统方法对藏语的分类效率并不高。本文提出了一种基于语义空间的藏文微博情感分析方法。该方法首先使用句法树生成句法结构;然后结合句法结构和语义特征向量构建语义特征空间,在特征空间中通过K-means方法聚类形成语义簇质心;最后计算基于簇的TF-IDF值作为最终的微博情感特征值。实验结果表明,与目前常用的SVM TF-IDF和Naive Bayes 最大熵方法相比,该方法能更准确地对藏文微博进行情感分类。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号