首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到14条相似文献,搜索用时 66 毫秒
1.
针对在采用支持核函数的机器学习算法进行基于特征的中文领域实体关系抽取中,不同核函数对不同中文领域关系抽取在效果上存在差异性的问题,该文提出一种基于凸组合核函数的中文领域实体关系抽取方法。首先,选取实体上下文的词、词性等信息,短语句法树信息及依存信息作为特征,然后通过以径向基核函数,Sigmoid核函数及多项式核函数组成的不同组合比例的凸组合核函数将特征矩阵映射成为不同的高维矩阵,利用支持向量机训练这些高维矩阵构建不同分类模型后测试抽取性能,以确定最优组合比例的凸组合核函数。在收集600篇旅游领域语料上进行关系抽取,实验结果表明最优凸组合核函数能增加实体关系抽取效果, F值达到62.9。  相似文献   

2.
基于合一句法和实体语义树的中文语义关系抽取   总被引:1,自引:0,他引:1  
该文提出了一种基于卷积树核函数的中文实体语义关系抽取方法,该方法通过在关系实例的结构化信息中加入实体语义信息,如实体类型、引用类型和GPE角色等,从而构造能有效捕获结构化信息和实体语义信息的合一句法和实体语义关系树,以提高中文语义关系抽取的性能。在ACE RDC 2005中文基准语料上进行的关系探测和关系抽取的实验表明,该方法能显著提高中文语义关系抽取性能,大类抽取的最佳F值达到67.0,这说明结构化句法信息和实体语义信息在中文语义关系抽取中具有互补性。  相似文献   

3.
基于本体关系匹配的信息抽取   总被引:3,自引:0,他引:3       下载免费PDF全文
何召卫  陈俊亮 《计算机工程》2007,33(21):207-209
目前,稳定可靠的信息抽取是一个有待解决的问题,该文提出了基于本体关系匹配信息抽取算法,应用语义Web把信息抽取目标文档描述为特殊的本体格式,采用机器学习理论对本体进行分析和处理。测试数据集的实验结果显示,本体关系集匹配算法优于其他4种信息抽取算法。  相似文献   

4.
针对传统径向基核函数的训练矩阵中所有元素都十分接近零而不利于分类的问题,该文提出了一种融合了改进的径向基核函数及其他核函数的多核融合中文领域实体关系抽取方法。利用径向基核函数的数学特性,提出一种改进的训练矩阵,使训练矩阵中的向量离散化,并以此改进的径向基核函数融合多项式核函数及卷积树核函数,通过枚举的方式寻找最优的复合核函数参数,并以上述多核融合方法与支持向量机结合进行中文领域实体关系抽取。在旅游领域的语料上测试,相对于单一核方法及传统多核融合方法,关系抽取性能得到提高。  相似文献   

5.
基于树核函数的实体语义关系抽取方法研究   总被引:3,自引:2,他引:3  
该文描述了一种改进的基于树核函数的实体语义关系抽取方法,通过在原有关系实例的结构化信息中加入实体语义信息和去除冗余信息的方法来提高关系抽取的性能。该方法在最短路径包含树的基础上,首先加入实体类型、引用类型等与实体相关的语义信息,然后对树进行裁剪,去掉修饰语冗余和并列冗余信息,并扩充所有格结构,最后生成实体语义关系实例。在ACE RDC 2004基准语料上进行的关系检测和7个关系大类抽取的实验表明,该方法在较大程度上提高了实体语义关系识别和分类的效果,F值分别达到了79.1%和71.9%。  相似文献   

6.
关系抽取是信息抽取的主要任务之一,远程监督作为关系抽取中的一种有效的方法,已成功地应用于包含上千关系的大型语料库.然而,远程监督造成的错误标注会影响关系抽取的性能.为了缓解这一问题,现有的远程监督关系抽取方法选择每个实体对中一个最好的句子或通过注意力机制赋予每个句子不同的权重.但这些方法并不能完全解决错误标注的问题.本...  相似文献   

7.
黄晨 《福建电脑》2009,25(6):45-46
命名实体语义关系抽取是信息抽取中的主要任务之一,本文对现有的语义关系抽取系统构建方法进行了分类和介绍,并对这些方法进行了讨论和比较,回顾语义关系抽取研究的历史,总结语义关系抽取技术的现状,将有助语义关系抽取技术研究工作的向前发展。  相似文献   

8.
基于核方法的中文实体关系抽取研究   总被引:3,自引:1,他引:3  
命名实体关系抽取是信息抽取领域中的重要研究课题之一。该文探讨了核方法在中文关系抽取上的有效性问题,主要分为三部分研究了在卷积树核中使用不同的语法树对关系抽取性能的影响;通过构造复合核检查了树核与平面核之间的互补效果;改进了最短路径依赖核,将核计算建立在原最短依赖路径的最长公共子序列上,以消除原始最短路径依赖核对依赖路径长度相同的过严要求。因为核方法开始被用于英文关系抽取时,F1值也只有40%左右,而我们在ACE2007标准语料集上的实验结果表明,只使用作用在语法树上的卷积核时,中文关系抽取的F1值达到了35%,可见卷积核方法对中文关系抽取也是有效的,同时实验也表明最短路径依赖核对中文关系抽取效果不明显。  相似文献   

9.
关系抽取被广泛应用在问答系统、社会网络分析、本体构建等领域。核对识别实体间关系有很大优势及潜力,近年来广受关注。本文将特征空间归纳为浅层分析和深层分析,进一步划分后者为句法结构和依存结构,总结了对每类特征空间的应用及扩展。分析了典型的计算相似度的核函数,归纳了对典型核函数的扩展方式。对已有相关研究的结果进行评价,分析了典型核的优缺点。最后基于上述优缺点分析,总结了现有研究的不足,指出了基于核的关系抽取的下一步研究方向。  相似文献   

10.
李颖  郝晓燕  王勇 《计算机科学》2017,44(Z6):80-83
传统信息抽取针对特定的领域。当转换到新领域时,需要人工编写新的抽取规则和人工标记新的训练样本。开放信息抽取突破了传统信息抽取的局限性。现有的开放式信息抽取系统大多针对英文,然而,目前对于中文的研究相对较少,并主要以抽取三元组为主,没有针对中文抽取多元组的方法。因此提出了一种基于依存分析的中文开放式多元实体关系抽取方法。首先,对文本集进行预处理和依存关系分析;然后将动词视为候选关系词,将与此动词有满足条件的有效依存路径的基本名词短语视为实体词,关联两个及两个以上的实体词的关系词可与实体词组成候选多元实体关系组;最后,使用经过训练的逻辑回归分类器对多元实体关系组进行过滤。对百度百科数据集的抽取结果显示,所提方法在抽取大量实体关系多元组时准确性可达到81%。  相似文献   

11.
语义信息在命名实体间语义关系抽取中具有重要的作用。该文以《同义词词林》为例,系统全面地研究了词汇语义信息对基于树核函数的中文语义关系抽取的有效性,深入探讨了不同级别的语义信息和一词多义等现象对关系抽取的影响,详细分析了词汇语义信息和实体类型信息之间的冗余性。在ACE2005中文语料库上的关系抽取实验表明,在未知实体类型的前提下,语义信息能显著提高抽取性能;而在已知实体类型的情况下,语义信息也能明显提高某些关系类型的抽取性能,这说明《词林》语义信息和实体类型信息在中文语义关系抽取中具有一定的互补性。  相似文献   

12.
吴晓芳  杨志豪  林鸿飞  王健 《计算机工程》2015,41(1):284-288,295
在生物医学领域,通过知识提取过程从海量的生物医学文献中提取疾病、基因和药物之间的关系并可视化显示,可以为临床医学实验提供有效的假设检验,推动生物医学科技的发展。为此,提出一种基于语义关系的以疾病为中心的疾病、基因和药物间的知识提取系统。利用Sem Rep得到特定主题Medline文献的语义输出,通过显著信息提取算法提取Sem Rep的语义输出关系。对照OMIM和GHR在线数据库进行评估,实验结果显示该显著信息提取系统的准确率可达0.76。  相似文献   

13.
无指导的中文开放式实体关系抽取   总被引:1,自引:0,他引:1  
传统的实体关系抽取需要预先定义关系类型体系,然而定义一个全面的实体关系类型体系是很困难的.开放式实体关系抽取技术解决了预先定义关系类型体系的问题,但是在中文上的研究还比较少.提出面向大规模网络文本的无指导开放式中文实体关系抽取方法,首先使用实体之间的距离限制和关系指示词的位置限制获取候选关系三元组;然后采用全局排序和类型排序的方法来挖掘关系指示词;最后使用关系指示词和句式规则对关系三元组进行过滤.在获取大量关系三元组的同时,还保证了80%以上的微观平均准确率.  相似文献   

14.
该文提出了一种基于卷积树核的无指导中文实体关系抽取方法。该方法以最短路径包含树作为关系实例的结构化表示形式,以卷积树核函数作为树相似度计算方法,并采用分层聚类方法进行无指导中文实体关系抽取。在ACE RDC 2005中文基准语料库上的无指导关系抽取实验表明,采用该方法的F值最高可达到60.1,这说明基于卷积树核的无指导中文实体关系抽取是行之有效的。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号