首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 62 毫秒
1.
作为语义网络和本体的基础,实体关系抽取已被广泛应用于信息检索、机器翻译和自动问答系统中.实体关系抽取的核心问题在于实体关系特征的选择和提取.中文长句的句式较复杂,经常包含多个实体的特点以及数据稀疏问题,给中文关系探测和关系抽取任务带了挑战.为了解决上述问题,提出了一种基于句法语义特征的实体关系抽取方法.通过将2个实体各自的依存句法关系进行组合,获取依存句法关系组合特征,利用依存句法分析和词性标注选择最近句法依赖动词特征.将这2个新特征加入到基于特征的关系探测和关系抽取中,使用支持向量机(support vector machine, SVM)方法,以真实旅游领域文本作为语料进行实验.实验表明,从句法和语义上提取的2个特征能够有效地提高实体关系探测和关系抽取的性能,其准确率、召回率和F1值均优于已有方法.此外,最近句法依赖动词特征非常有效,尤其对数据稀疏的关系类型贡献最大,在关系探测和关系抽取上的性能均优于当前经典的基于动词特征方法.  相似文献   

2.
季元叶 《福建电脑》2010,26(6):78-79
实体间语义关系抽取是信息抽取中的重要环节,其目的是从文本中找出实体对之间的语义关系并对它们进行分类。本文主要通过发掘有效的词汇特征、实体特征、基本短语块特征等基本语言学特征,采用基于支持向量机的学习方法,来提高中文实体间语义关系抽取的性能,使得关系抽取的准确率和召回率得到提高,最终提高关系探测、大类抽取和子类抽取的F值。  相似文献   

3.
针对基于特征向量的实体关系抽取方法中特征向量一般构造方法存在的不足,提出了基于互信息的实体对特征向量构造方法.该方法引入词和实体关系类别之间的互信息作为一个句子中实体对左右两边上下文特征提取的判断标准,并对实体关系类别特征词条进行编码,在此基础上再对实体对左右两边的上下文信息进行编码.这样做压缩了实体对上下文信息编码的维数,突出了实体关系各类别特性.实验结果表明本文的实体关系特征向量构造方法提高了中文实体关系抽取的准确率和召回率.  相似文献   

4.
命名实体关系抽取是信息抽取领域中的重要研究课题。本文采用基于特征向量的机器学习算法支持向量机(SVM)进行实体关系抽取实验。在现有的算法中,特征提取方法以基于关键词集的向量空间模型为主。本文提出一种基于语义的文本特征提取方法,并且在关系抽取实验中取得较好的效果。实验证明将语义特征应用到关系抽取领域中可以明显提高性能。  相似文献   

5.
提出一种基于支持向量机和自扩展的实体关系抽取方法,用于解决实体关系抽取研究中测试语料库缺乏的问题.采用自扩展方法自动学习未标注语料库,减少人工标注的时间;从标注语料中构造特征向量;支持向量机对特征向量进行学习,得到分类模型,实现实体关系的自动抽取.  相似文献   

6.
语言学组合特征在语义关系抽取中的应用   总被引:1,自引:0,他引:1  
语义关系抽取是信息抽取中的一个重要的研究领域。目前基于特征向量的语义关系抽取已经很难通过发掘新的特征来提高抽取的性能。本文提出了一种特征组合方法,通过在各种词法、语法、语义的基本特征内部及特征之间进行合理的组合形成组合特征,使用基于支持向量机的学习方法,使得关系抽取的准确率和召回率得到了提高。在ACE 2004语料库的7个关系大类和23个关系子类抽取实验中F值分别达到了66.6%和59.50%。实验结果表明通过对基本语言学特征进行组合所得到的组合特征能够显著地提高语义关系抽取的性能。  相似文献   

7.
实体关系抽取的核心问题是实体关系特征的选择。以往的研究通常都以词法特征、实体原始特征等来刻画实体关系,其抽取效果已难再提高。在传统方法的基础上,该文提出一种基于句法特征、语义特征的实体关系抽取方法,融入了依存句法关系、核心谓词、语义角色标注等特征,选择SVM作为机器学习的实现途径,以真实新闻文本作为语料进行实验。实验结果表明该方法的F1值有明显提升。  相似文献   

8.
基于多分类SVM-KNN的实体关系抽取方法   总被引:1,自引:0,他引:1  
实体关系抽取是信息抽取领域的重要研究课题之一。传统的实体关系抽取研究注重于从实体对出现的上下文中提取词法和语义等特征,然后利用分类器(如SVM)进行实体关系抽取,但该类方法忽略了分类器对实体抽取性能的影响。针对SVM分类器对超平面附近样本分类正确率低的问题,本文设计了一种基于双投票机制的SVM模糊样本选择方法。在此基础上,对确定区域样本直接使用SVM分类器进行分类,并利用KNN算法对模糊区域样本进行二次分类。在SemEval-2010评测任务提供的实体关系抽取数据上进行实验,实验结果表明该方法能较大提高实体关系抽取的性能。  相似文献   

9.
当前的电子病历实体关系抽取方法存在两个问题:忽视了位置向量噪声和语义表示匮乏.该文提出一种基于位置降噪和丰富语义的实体关系抽取模型.模型首先利用位置信息和专业领域语料训练的词向量信息获取每个词的注意力权重,然后将此权重与通用领域语料训练的词向量结合,实现位置向量降噪和丰富语义引入,最后根据加权后的词向量判断实体关系类型...  相似文献   

10.
基于特征组合的中文语义角色标注   总被引:1,自引:0,他引:1  
提出一种基于特征组合和支持向量机(support vector machine,简称SVM)的语义角色标注(semantic role labeling,简称SRL)方法.该方法以句法成分作为基本标注单元,首先从当前基于句法分析的语义角色标注系统中选出高效特征,构成基本特征集合.然后提出一种基于统计的特征组合方法.该方法能够根据正反例中组合特征的分布状况,以类间距离和类内距离之比作为统计量来衡量组合特征对分类所产生的效果,保留分类效果较好的组合特征.最后,在Chinese PropBank(CPB)语料上利用支持向量机进行分类实验,结果表明,引入该特征组合方法后,语义角色标注整体F值达91.81%,提高了近2%.  相似文献   

11.
基于合一句法和实体语义树的中文语义关系抽取   总被引:1,自引:0,他引:1  
该文提出了一种基于卷积树核函数的中文实体语义关系抽取方法,该方法通过在关系实例的结构化信息中加入实体语义信息,如实体类型、引用类型和GPE角色等,从而构造能有效捕获结构化信息和实体语义信息的合一句法和实体语义关系树,以提高中文语义关系抽取的性能。在ACE RDC 2005中文基准语料上进行的关系探测和关系抽取的实验表明,该方法能显著提高中文语义关系抽取性能,大类抽取的最佳F值达到67.0,这说明结构化句法信息和实体语义信息在中文语义关系抽取中具有互补性。  相似文献   

12.
关系抽取是构建知识图谱的一项核心技术.由于中文具有复杂的语法和句式,同时现有的神经网络模型提取特征有限以及语义表征能力较差,从而影响中文实体关系抽取的性能.文章提出了一种融合多特征的BERT预训练模型的实体关系抽取算法.首先对语料进行预处理,提取关键词、实体对信息和实体类型特征并进行融合,以此来强化BERT模型的语义学...  相似文献   

13.
为克服基于漏洞库等传统安全防护策略的短板,实现对未知攻击行为的识别和预警.使用时间窗划分和深度包检测技术,将端到端的通信内容转化为控制行为序列.根据工控协议的语义特性,采用语义向量模型将行为序列转化为统一维度的特征向量.基于单类支持向量机(OCSVM)仅使用正常行为样本构造的异常识别模型,克服了无法从生产环境中获得异常样本的困难.对于所仿真出的多种异常行为序列,模型识别的平均准确率能够达到93%以上.  相似文献   

14.
网页标题具有简洁、信息量大的特点,而且其中蕴含了丰富、动态、复杂的人物关系。本文主要针对网页标题文本中的人物关系抽取进行研究,提出一种双模型投票的机器学习方法:首先,针对19种关系类型分别进行特征抽取和选择;其次,使用两种统计模型——最大熵和支持向量机,分别进行模型训练;再次,对于每种关系类型利用模型投票的方法,即选择训练集中得到性能较好的模型作为该类的模型;最后,使用训练好的模型对测试集进行测试。结果显示,本文方法对于人物关系抽取任务取得了总体F1值为67.64%的性能。  相似文献   

15.
基于树核函数的实体语义关系抽取方法研究   总被引:3,自引:2,他引:3  
该文描述了一种改进的基于树核函数的实体语义关系抽取方法,通过在原有关系实例的结构化信息中加入实体语义信息和去除冗余信息的方法来提高关系抽取的性能。该方法在最短路径包含树的基础上,首先加入实体类型、引用类型等与实体相关的语义信息,然后对树进行裁剪,去掉修饰语冗余和并列冗余信息,并扩充所有格结构,最后生成实体语义关系实例。在ACE RDC 2004基准语料上进行的关系检测和7个关系大类抽取的实验表明,该方法在较大程度上提高了实体语义关系识别和分类的效果,F值分别达到了79.1%和71.9%。  相似文献   

16.
基于支持向量数据描述的分类方法研究   总被引:1,自引:1,他引:1       下载免费PDF全文
针对单类数据的分类问题,提出一种基于支持向量数据描述(SVDD)的分类算法。该算法利用SVDD获得包含单类数据的最小球形边界,通过该边界对未知样本数据进行分类,同时采用可行方向方法求解边界优化中的二次规划问题,并在UCI机器学习数据集上将该算法与LS—SVM算法进行比较。实验结果表明,该算法不仅获得了更高的分类准确率,而且具有较低的运行时间。  相似文献   

17.
王桂文  孙涵 《计算机工程》2012,38(13):192-195,198
针对传统字符特征提取算法中特征不稳定的缺点,提出一种基于正交盖氏矩的特征提取方法。采用支持向量机解决车牌字符识别问题,自动寻找对分类有较好区分能力的支持向量,由此构成的分类器可以最大化类间间隔,达到正确区分类别的目的。实验结果表明,该方法对于实时视频流中的车牌识别能取得理想效果,在解决有限样本、非线性及高维模式识别问题中表现出优越的性能,且具有适应性强和效率高的特点。  相似文献   

18.
语义关系识别是对文档进行处理识别出包含的语义关系的过程,是构建本体重要组成部分之一.在石油领域本体的构建过程中,由于石油领域的文档具有组合词多的特点,语义关系识别更加困难.目前使用的语义识别算法主要是基于关联规则的识别算法,但此类算法没有领域针对性.通过分析石油文档的特点,提出一种基于改进词向量的石油文档语义关系识别算法,以连续词袋(Continuous Bag-Of-Words,CBOW)模型为基础,对石油专业术语进行扩展训练,引入负采样和二次采样技术提高训练准确率和效率,利用向量特征训练支持向量机(Support Vector Mechine,SVM)分类器进行语义关系识别.实验结果表明,该方法训练的词向量能够准确识别石油领域的语义关系,在石油领域具有明显的优势.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号