共查询到18条相似文献,搜索用时 62 毫秒
1.
作为语义网络和本体的基础,实体关系抽取已被广泛应用于信息检索、机器翻译和自动问答系统中.实体关系抽取的核心问题在于实体关系特征的选择和提取.中文长句的句式较复杂,经常包含多个实体的特点以及数据稀疏问题,给中文关系探测和关系抽取任务带了挑战.为了解决上述问题,提出了一种基于句法语义特征的实体关系抽取方法.通过将2个实体各自的依存句法关系进行组合,获取依存句法关系组合特征,利用依存句法分析和词性标注选择最近句法依赖动词特征.将这2个新特征加入到基于特征的关系探测和关系抽取中,使用支持向量机(support vector machine, SVM)方法,以真实旅游领域文本作为语料进行实验.实验表明,从句法和语义上提取的2个特征能够有效地提高实体关系探测和关系抽取的性能,其准确率、召回率和F1值均优于已有方法.此外,最近句法依赖动词特征非常有效,尤其对数据稀疏的关系类型贡献最大,在关系探测和关系抽取上的性能均优于当前经典的基于动词特征方法. 相似文献
2.
实体间语义关系抽取是信息抽取中的重要环节,其目的是从文本中找出实体对之间的语义关系并对它们进行分类。本文主要通过发掘有效的词汇特征、实体特征、基本短语块特征等基本语言学特征,采用基于支持向量机的学习方法,来提高中文实体间语义关系抽取的性能,使得关系抽取的准确率和召回率得到提高,最终提高关系探测、大类抽取和子类抽取的F值。 相似文献
3.
针对基于特征向量的实体关系抽取方法中特征向量一般构造方法存在的不足,提出了基于互信息的实体对特征向量构造方法.该方法引入词和实体关系类别之间的互信息作为一个句子中实体对左右两边上下文特征提取的判断标准,并对实体关系类别特征词条进行编码,在此基础上再对实体对左右两边的上下文信息进行编码.这样做压缩了实体对上下文信息编码的维数,突出了实体关系各类别特性.实验结果表明本文的实体关系特征向量构造方法提高了中文实体关系抽取的准确率和召回率. 相似文献
4.
命名实体关系抽取是信息抽取领域中的重要研究课题。本文采用基于特征向量的机器学习算法支持向量机(SVM)进行实体关系抽取实验。在现有的算法中,特征提取方法以基于关键词集的向量空间模型为主。本文提出一种基于语义的文本特征提取方法,并且在关系抽取实验中取得较好的效果。实验证明将语义特征应用到关系抽取领域中可以明显提高性能。 相似文献
5.
6.
语言学组合特征在语义关系抽取中的应用 总被引:1,自引:0,他引:1
语义关系抽取是信息抽取中的一个重要的研究领域。目前基于特征向量的语义关系抽取已经很难通过发掘新的特征来提高抽取的性能。本文提出了一种特征组合方法,通过在各种词法、语法、语义的基本特征内部及特征之间进行合理的组合形成组合特征,使用基于支持向量机的学习方法,使得关系抽取的准确率和召回率得到了提高。在ACE 2004语料库的7个关系大类和23个关系子类抽取实验中F值分别达到了66.6%和59.50%。实验结果表明通过对基本语言学特征进行组合所得到的组合特征能够显著地提高语义关系抽取的性能。 相似文献
7.
8.
基于多分类SVM-KNN的实体关系抽取方法 总被引:1,自引:0,他引:1
实体关系抽取是信息抽取领域的重要研究课题之一。传统的实体关系抽取研究注重于从实体对出现的上下文中提取词法和语义等特征,然后利用分类器(如SVM)进行实体关系抽取,但该类方法忽略了分类器对实体抽取性能的影响。针对SVM分类器对超平面附近样本分类正确率低的问题,本文设计了一种基于双投票机制的SVM模糊样本选择方法。在此基础上,对确定区域样本直接使用SVM分类器进行分类,并利用KNN算法对模糊区域样本进行二次分类。在SemEval-2010评测任务提供的实体关系抽取数据上进行实验,实验结果表明该方法能较大提高实体关系抽取的性能。 相似文献
9.
10.
基于特征组合的中文语义角色标注 总被引:1,自引:0,他引:1
提出一种基于特征组合和支持向量机(support vector machine,简称SVM)的语义角色标注(semantic role labeling,简称SRL)方法.该方法以句法成分作为基本标注单元,首先从当前基于句法分析的语义角色标注系统中选出高效特征,构成基本特征集合.然后提出一种基于统计的特征组合方法.该方法能够根据正反例中组合特征的分布状况,以类间距离和类内距离之比作为统计量来衡量组合特征对分类所产生的效果,保留分类效果较好的组合特征.最后,在Chinese PropBank(CPB)语料上利用支持向量机进行分类实验,结果表明,引入该特征组合方法后,语义角色标注整体F值达91.81%,提高了近2%. 相似文献
11.
基于合一句法和实体语义树的中文语义关系抽取 总被引:1,自引:0,他引:1
该文提出了一种基于卷积树核函数的中文实体语义关系抽取方法,该方法通过在关系实例的结构化信息中加入实体语义信息,如实体类型、引用类型和GPE角色等,从而构造能有效捕获结构化信息和实体语义信息的合一句法和实体语义关系树,以提高中文语义关系抽取的性能。在ACE RDC 2005中文基准语料上进行的关系探测和关系抽取的实验表明,该方法能显著提高中文语义关系抽取性能,大类抽取的最佳F值达到67.0,这说明结构化句法信息和实体语义信息在中文语义关系抽取中具有互补性。 相似文献
12.
13.
14.
网页标题具有简洁、信息量大的特点,而且其中蕴含了丰富、动态、复杂的人物关系。本文主要针对网页标题文本中的人物关系抽取进行研究,提出一种双模型投票的机器学习方法:首先,针对19种关系类型分别进行特征抽取和选择;其次,使用两种统计模型——最大熵和支持向量机,分别进行模型训练;再次,对于每种关系类型利用模型投票的方法,即选择训练集中得到性能较好的模型作为该类的模型;最后,使用训练好的模型对测试集进行测试。结果显示,本文方法对于人物关系抽取任务取得了总体F1值为67.64%的性能。 相似文献
15.
基于树核函数的实体语义关系抽取方法研究 总被引:3,自引:2,他引:3
该文描述了一种改进的基于树核函数的实体语义关系抽取方法,通过在原有关系实例的结构化信息中加入实体语义信息和去除冗余信息的方法来提高关系抽取的性能。该方法在最短路径包含树的基础上,首先加入实体类型、引用类型等与实体相关的语义信息,然后对树进行裁剪,去掉修饰语冗余和并列冗余信息,并扩充所有格结构,最后生成实体语义关系实例。在ACE RDC 2004基准语料上进行的关系检测和7个关系大类抽取的实验表明,该方法在较大程度上提高了实体语义关系识别和分类的效果,F值分别达到了79.1%和71.9%。 相似文献
16.
17.
18.
语义关系识别是对文档进行处理识别出包含的语义关系的过程,是构建本体重要组成部分之一.在石油领域本体的构建过程中,由于石油领域的文档具有组合词多的特点,语义关系识别更加困难.目前使用的语义识别算法主要是基于关联规则的识别算法,但此类算法没有领域针对性.通过分析石油文档的特点,提出一种基于改进词向量的石油文档语义关系识别算法,以连续词袋(Continuous Bag-Of-Words,CBOW)模型为基础,对石油专业术语进行扩展训练,引入负采样和二次采样技术提高训练准确率和效率,利用向量特征训练支持向量机(Support Vector Mechine,SVM)分类器进行语义关系识别.实验结果表明,该方法训练的词向量能够准确识别石油领域的语义关系,在石油领域具有明显的优势. 相似文献