共查询到14条相似文献,搜索用时 171 毫秒
1.
针对在采用支持核函数的机器学习算法进行基于特征的中文领域实体关系抽取中,不同核函数对不同中文领域关系抽取在效果上存在差异性的问题,该文提出一种基于凸组合核函数的中文领域实体关系抽取方法。首先,选取实体上下文的词、词性等信息,短语句法树信息及依存信息作为特征,然后通过以径向基核函数,Sigmoid核函数及多项式核函数组成的不同组合比例的凸组合核函数将特征矩阵映射成为不同的高维矩阵,利用支持向量机训练这些高维矩阵构建不同分类模型后测试抽取性能,以确定最优组合比例的凸组合核函数。在收集600篇旅游领域语料上进行关系抽取,实验结果表明最优凸组合核函数能增加实体关系抽取效果, F值达到62.9。 相似文献
2.
基于合一句法和实体语义树的中文语义关系抽取 总被引:1,自引:0,他引:1
该文提出了一种基于卷积树核函数的中文实体语义关系抽取方法,该方法通过在关系实例的结构化信息中加入实体语义信息,如实体类型、引用类型和GPE角色等,从而构造能有效捕获结构化信息和实体语义信息的合一句法和实体语义关系树,以提高中文语义关系抽取的性能。在ACE RDC 2005中文基准语料上进行的关系探测和关系抽取的实验表明,该方法能显著提高中文语义关系抽取性能,大类抽取的最佳F值达到67.0,这说明结构化句法信息和实体语义信息在中文语义关系抽取中具有互补性。 相似文献
3.
4.
针对传统径向基核函数的训练矩阵中所有元素都十分接近零而不利于分类的问题,该文提出了一种融合了改进的径向基核函数及其他核函数的多核融合中文领域实体关系抽取方法。利用径向基核函数的数学特性,提出一种改进的训练矩阵,使训练矩阵中的向量离散化,并以此改进的径向基核函数融合多项式核函数及卷积树核函数,通过枚举的方式寻找最优的复合核函数参数,并以上述多核融合方法与支持向量机结合进行中文领域实体关系抽取。在旅游领域的语料上测试,相对于单一核方法及传统多核融合方法,关系抽取性能得到提高。 相似文献
5.
基于树核函数的实体语义关系抽取方法研究 总被引:3,自引:2,他引:3
该文描述了一种改进的基于树核函数的实体语义关系抽取方法,通过在原有关系实例的结构化信息中加入实体语义信息和去除冗余信息的方法来提高关系抽取的性能。该方法在最短路径包含树的基础上,首先加入实体类型、引用类型等与实体相关的语义信息,然后对树进行裁剪,去掉修饰语冗余和并列冗余信息,并扩充所有格结构,最后生成实体语义关系实例。在ACE RDC 2004基准语料上进行的关系检测和7个关系大类抽取的实验表明,该方法在较大程度上提高了实体语义关系识别和分类的效果,F值分别达到了79.1%和71.9%。 相似文献
6.
关系抽取是信息抽取的主要任务之一,远程监督作为关系抽取中的一种有效的方法,已成功地应用于包含上千关系的大型语料库.然而,远程监督造成的错误标注会影响关系抽取的性能.为了缓解这一问题,现有的远程监督关系抽取方法选择每个实体对中一个最好的句子或通过注意力机制赋予每个句子不同的权重.但这些方法并不能完全解决错误标注的问题.本... 相似文献
7.
命名实体语义关系抽取是信息抽取中的主要任务之一,本文对现有的语义关系抽取系统构建方法进行了分类和介绍,并对这些方法进行了讨论和比较,回顾语义关系抽取研究的历史,总结语义关系抽取技术的现状,将有助语义关系抽取技术研究工作的向前发展。 相似文献
8.
基于核方法的中文实体关系抽取研究 总被引:3,自引:1,他引:3
命名实体关系抽取是信息抽取领域中的重要研究课题之一。该文探讨了核方法在中文关系抽取上的有效性问题,主要分为三部分研究了在卷积树核中使用不同的语法树对关系抽取性能的影响;通过构造复合核检查了树核与平面核之间的互补效果;改进了最短路径依赖核,将核计算建立在原最短依赖路径的最长公共子序列上,以消除原始最短路径依赖核对依赖路径长度相同的过严要求。因为核方法开始被用于英文关系抽取时,F1值也只有40%左右,而我们在ACE2007标准语料集上的实验结果表明,只使用作用在语法树上的卷积核时,中文关系抽取的F1值达到了35%,可见卷积核方法对中文关系抽取也是有效的,同时实验也表明最短路径依赖核对中文关系抽取效果不明显。 相似文献
9.
10.
传统信息抽取针对特定的领域。当转换到新领域时,需要人工编写新的抽取规则和人工标记新的训练样本。开放信息抽取突破了传统信息抽取的局限性。现有的开放式信息抽取系统大多针对英文,然而,目前对于中文的研究相对较少,并主要以抽取三元组为主,没有针对中文抽取多元组的方法。因此提出了一种基于依存分析的中文开放式多元实体关系抽取方法。首先,对文本集进行预处理和依存关系分析;然后将动词视为候选关系词,将与此动词有满足条件的有效依存路径的基本名词短语视为实体词,关联两个及两个以上的实体词的关系词可与实体词组成候选多元实体关系组;最后,使用经过训练的逻辑回归分类器对多元实体关系组进行过滤。对百度百科数据集的抽取结果显示,所提方法在抽取大量实体关系多元组时准确性可达到81%。 相似文献
11.
语义信息在命名实体间语义关系抽取中具有重要的作用。该文以《同义词词林》为例,系统全面地研究了词汇语义信息对基于树核函数的中文语义关系抽取的有效性,深入探讨了不同级别的语义信息和一词多义等现象对关系抽取的影响,详细分析了词汇语义信息和实体类型信息之间的冗余性。在ACE2005中文语料库上的关系抽取实验表明,在未知实体类型的前提下,语义信息能显著提高抽取性能;而在已知实体类型的情况下,语义信息也能明显提高某些关系类型的抽取性能,这说明《词林》语义信息和实体类型信息在中文语义关系抽取中具有一定的互补性。 相似文献
12.
13.
无指导的中文开放式实体关系抽取 总被引:1,自引:0,他引:1
传统的实体关系抽取需要预先定义关系类型体系,然而定义一个全面的实体关系类型体系是很困难的.开放式实体关系抽取技术解决了预先定义关系类型体系的问题,但是在中文上的研究还比较少.提出面向大规模网络文本的无指导开放式中文实体关系抽取方法,首先使用实体之间的距离限制和关系指示词的位置限制获取候选关系三元组;然后采用全局排序和类型排序的方法来挖掘关系指示词;最后使用关系指示词和句式规则对关系三元组进行过滤.在获取大量关系三元组的同时,还保证了80%以上的微观平均准确率. 相似文献