首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
实体关系语料库是信息抽取领域的基础数据资源,其规模和质量直接影响信息抽取深度学习模型的效果。目前建立的特定领域语料库在重叠关系方面的研究较少,且现有方法需要高昂的人工标注成本。该文融合已有的基于实体识别和触发词规则的语料标注算法,基于自定义关系schema实现网络文本中重叠关系的自动标注。首先,借助特定领域专业词典进行命名实体识别,构造命名实体集;然后根据自定义关系模式schema和依存句法分析进行特征词聚类,构造触发词词典;最后,基于命名实体集和触发词词典进行语料回标。该算法有效减少了人工标注量,标注速度快,标注后的语料规模较大,有效提取重叠关系信息,为特定领域信息抽取扩充语料库提供了可行方案。同时,该文探讨了数据源可用性,评价了标注质量并对语料库进行了统计分析。实验结果显示,该方法总体回标成功率为76.7%,总体关系标注准确率为85.8%,利用基础重叠关系抽取模型进行实验,实验结果F1值达到93.68%。  相似文献   

2.
基于知识图谱的网络安全动态预警方法,能够主动感知和应对网络安全攻击,增强感知的实时性和精准性。然而,在构建网络安全知识图谱的实体抽取过程中,传统的命名实体识别工具和方法无法识别网络安全领域中的特定类别实体,文本中的未登录和中英文混合的网络安全实体也难以被准确识别。网络安全文本中的网络安全命名实体存在中英文混合、单词缩写等问题,仅基于字的命名实体识别方法难以充分表征字或词的语义信息。因此,论文考虑中英文更细粒度的部件语义捕捉字或词的语义特征,提出一种基于部件CNN的网络安全命名实体识别方法(C C-NS-NER),利用部件CNN抽取词语部件特征中的关键语义特征,丰富字词级别的语义信息,并引入BiLSTM-CRF确保抽取字向量和部件特征中的抽象信息,同时获取标签之间的关联信息,识别文本中的网络安全命名实体。在人工标注的网络安全数据集上的实验结果表明,该方法相较于传统模型,能有效获取字或词的部件语义信息,显著提高网络安全命名实体识别的效果。  相似文献   

3.
提出一种基于SVM和AdaBoost的Web实体信息抽取方法。首先提出一种基于SVM的Web页面主数据区域识别方法,基于Web实体实例在页面中的展示特征,有效地将Web页面进行数据区域分割,识别出Web实体实例所在的主数据区域;然后基于Web实体属性标签的特征,提出一种基于AdaBoost的集成学习方法,从页面的主数据区域自动地抽取Web实体信息。在两个真实数据集上进行实验,并与相关研究工作进行比较,实验结果说明该方法能够取得良好的抽取效果。  相似文献   

4.
命名实体识别是文本信息处理的重要基础,已逐步成为自然语言处理的一项关键技术。文章分析了Web招聘信息抽取中的命名实体识别方法,研究了基于自然语言理解方式识别组织机构名、职位名,并实现了一个Web招聘信息抽取原型系统。经测试,本系统在命名实体识别方面取得了较满意的实验结果。正确率和召回率都在77%以上。  相似文献   

5.
基于神经网络的触发词抽取模型利用实体信息判别触发词,但大量无关实体会影响触发词抽取效果。提出一种借助局部实体特征的事件触发词抽取方法,该方法先初步过滤无关实体,并将保留实体分为核心与非核心2类分别进行建模。利用卷积神经网络(CNN)抽取局部特征的特性,从众多实体中定位有助于触发词识别的局部重要实体,采用注意力机制提高其权重,同时利用有效非核心实体的语义排除干扰实体,从而借助重要实体的特征信息判别触发词。在特定和通用领域事件语料库上的实验结果均表明,该方法能够减少无关实体对触发词抽取的干扰,其触发词抽取性能的F1值比基准系统最高可提升0.017。  相似文献   

6.
中文实体关系抽取中的特征选择研究   总被引:9,自引:4,他引:9  
命名实体关系抽取是信息抽取研究领域中的重要研究课题之一。通过分析,本文提出将中文实体关系划分为: 包含实体关系与非包含实体关系。针对同一种句法特征在识别它们时性能的明显差异,本文对这两种关系采用了不同的句法特征集,并提出了一些适合各自特点的新的句法特征。在CRF 模型框架下,以ACE2007 的语料作为实验数据,结果表明本文的划分方法和新特征有效的提高了汉语实体关系抽取任务的性能。关键词: 计算机应用;中文信息处理;实体关系抽取;包含关系;非包含关系;特征选择;ACE 评测  相似文献   

7.
从非结构化文本中进行实体和关系抽取已经成为自然语言处理的一项关键任务,然而命名实体识别(NER)和关系抽取(RE)两个任务经常被分开考虑,从而丢失了大量的关联信息。鉴于此,该文提出了一种端到端的基于多层感知机SGM模块进行信息过滤的实体关系联合抽取方法。该方法在不引入外部其他复杂特征的情况下获得了丰富的语义,充分利用了实体和关系之间的关联。该文从句子级、词语级和字符级三个级别输入信息,利用SGM模块进行信息提取以获得高效的语义表示,之后利用Span-attention进行融合得到Span的具体表示,最后利用全连接层进行实体和关系的联合抽取。该文使用NYT10和NYT11数据集验证所提方法的有效性。实验结果表明,在NYT10和NYT11数据集上,该文提出的模型在关系抽取任务中的F1值分别达到了70.6%和68.3%,相比于其他模型有较大提升。  相似文献   

8.
人名消歧已经成为自然语言处理和信息抽取应用中亟待解决的重要问题。运用中文自然语言处理和信息抽取系统识别命名实体和实体关系,生成实体信息对象(Entity Profile),采用实体信息对象(EP)中的个人信息特征,实体关系和上下文相关信息在Hadoop平台上基于凝聚的层次聚类方法解决了实体消歧问题。采用哈尔滨工业大学整理的全网新闻语料作为人名消歧训练和测试数据,着重研究了中文人名消歧特征的选取,参数的确定和验证,在训练集和测试集上分别取得了91.33%和88.73%的F值。说明提出的方法具有较好的可行性。  相似文献   

9.
一种面向海量中文文本的典型类属关系识别方法   总被引:1,自引:0,他引:1  
传统基于文本的类属关系自动抽取算法只简单记录关系出现的位置、频次等信息,而忽略了大量上下文信息,不能有效辨识典型类属关系。为此,提出一种面向互联网文本典型类属关系的识别方法。通过提取实体概念的语言学特征和上下文语义特征构成实体特征集,基于朴素贝叶斯分类器,计算任意实体属于不同概念的可能性,从而识别典型类属关系。实验结果证明,与基于频率的识别方法相比,该方法能将典型类属关系的识别准确率提高5%以上。  相似文献   

10.
许多的生物医学命名实体识别(Bio-NER)工作都集中于提取扁平化的实体,而忽略了嵌套实体和不连续实体.此外,大多数生物医学命名实体都未遵循统一的命名法,具有许多典型的领域特征,但其使用效率较低.为此提出一种结合CRF的边界组合命名实体识别方法,有效地利用了生物医学实体特征.该方法包括边界检测、边界组合和实体筛选三个步骤.首先使用神经网络模型和基于特征的CRF模型识别实体开始和结束边界,然后经过边界组合产生候选实体,最后使用多输入的卷积神经网络模型对候选实体进行筛选并分类.实验表明,该方法能够有效地识别生物医学文献中的嵌套和不连续实体,在GENIA数据集上达到81.89%的F值.  相似文献   

11.
生物医学命名实体识别是从生物医学文献中获取关键知识的基础与关键任务.文中提出基于深层条件随机场的生物医学命名实体识别方法,构建多层结构的深层条件随机场模型,在不同层次的特征上结合增量式学习策略,选择最优特征集.最后通过基于〈全名,缩写〉对和基于领域信息的错误纠正算法,进一步修正识别结果.在生物医学命名实体评测语料JNLPBA上的实验验证文中方法的有效性.  相似文献   

12.
随着生命科学技术的发展,生物医学领域文献呈指数级增长,如何从海量文献中挖掘、抽取有价值的信息成为生物医学领域新的研究契机。作为信息抽取的核心技术,命名实体识别和关系抽取成为生物医学文本挖掘的基础和关键,其主要工作为识别生物医学文本中的实体,并提取实体间存在的生物医学语义关系。当前深度学习技术在各领域自然语言处理任务中取得了长足的发展,旨在总结基于神经网络的生物医学实体识别和关系抽取的方法,从概念、进展、现状等多角度全面阐述各项技术在生物医学领域的发展历程,进一步明确生物医学文本信息抽取工作的探索方向。  相似文献   

13.
张传岩  洪晓光  彭朝晖  李庆忠 《软件学报》2012,23(10):2612-2627
在传统信息抽取的基础上,研究Web实体活动抽取,基于格语法对实体活动进行了形式化定义,并提出一种基于SVM(supported vector machine)和扩展条件随机场的Web实体活动抽取方法,能够从Web上准确地抽取实体的活动信息.首先,为了避免人工标注训练数据的繁重工作,提出一种基于启发式规则的训练数据生成算法,将语义角色标注的训练数据集转化为适合Web实体活动抽取的训练数据集,分别训练支持向量机分类器和扩展条件随机场.在抽取过程中,通过分类器获得包含实体活动的语句,然后利用扩展条件随机场对传统条件随机场中不能利用的标签频率特征和关系特征建模,标注自然语句中的待抽取信息,提高标注的准确率.通过多领域的实验,其结果表明,所提出的抽取方法能够较好地适用于Web实体活动抽取.  相似文献   

14.
命名实体关系抽取是信息抽取领域中的重要研究课题。本文采用基于特征向量的机器学习算法支持向量机(SVM)进行实体关系抽取实验。在现有的算法中,特征提取方法以基于关键词集的向量空间模型为主。本文提出一种基于语义的文本特征提取方法,并且在关系抽取实验中取得较好的效果。实验证明将语义特征应用到关系抽取领域中可以明显提高性能。  相似文献   

15.
电子病历(EMRs)中包含着丰富的信息,如临床症状、诊断结果和药物疗效.命名实体识别(Named Entity Recognition,NER)旨在从非结构化文本中抽取命名实体,这也是从电子病历中抽取有价值信息的初始步骤.本文提出一种基于预训练模型RoBERTa-WWM (A Robustly Optimized BE...  相似文献   

16.
闫俊英 《福建电脑》2013,(5):59-61,73
对信息抽取技术的概念、发展及信息抽取系统的体系结构进行介绍。信息抽取技术的核心任务是命名实体识别和实体关系抽取,总结现有的各种关系抽取方法,常用的关系抽取技术主要分为基于知识工程、基于机器学习和基于Ontology三大类方法,分别对三种方法进行介绍。  相似文献   

17.
命名实体识别和关系抽取是自然语言处理领域的两个重要基本问题.联合抽取方法被提出用于解决传统解决管道抽取方法中存在的一些问题.为了充分融合头实体和句子的语义信息,同时解决可能存在的重叠三元组问题,论文提出了一种新的实体关系联合抽取方法,主要通过序列标注的方式抽取实体关系.该方法主要使用条件层归一化(Condi-tional Layer Normalization)进行信息融合.同时,该方法还赋予了待抽取的头实体和尾实体不同的语义编码.实验结果表明,该方法在使用预训练的BERT预处理编码器的情况下,在NYT和WebNLG数据集上有很好的表现.  相似文献   

18.
实体关系抽取是目前信息抽取研究的热点.提出的简历信息抽取,就是从网页数据中抽取得到关于人的出身、学习教育、工作经历的三类不同关系元组(由两个实体和关系表示组成),从而整理出现实生活中人的简历信息.在基于句子分块(Chunk)和命名实体识别(NER)标记的抽取模式基础上,利用Wikipedia作为知识库,提出基于当前元组与关系表示集合语义相似度的关系判别算法对按照模式抽取得到的关系元组进行过滤和分类.实验结果表明抽取精度和F值对比基准方法上有了较大提高,并且实现了较高精度的简历信息类型分类.  相似文献   

19.
基于span的联合抽取模型在命名实体识别和关系抽取上取得了优异的效果。这些模型将文本span作为候选实体,并将span元组视为候选关系元组。span的语义表示在实体识别和关系分类中共享。然而现有基于span的模型无法很好地捕获这些候选实体和关系的语义,为了解决这些问题,提出了一种融合attention机制的span的联合抽取模型。特别地,attention用于计算相关语义表示,包括span特定特征语义表示和句子上下文的语义表示。实验结果表明,所提出的模型优于以前的模型,并在ACE2005、CoNLL2004和ADE 3个基准数据集上达到了当前最优的结果。  相似文献   

20.
电子病历命名实体识别和实体关系抽取研究综述   总被引:2,自引:0,他引:2  
电子病历(Electronic medical records,EMR)产生于临床治疗过程,其中命名实体和实体关系反映了患者健康状况,包含了大量与患者健康状况密切相关的医疗知识,因而对它们的识别和抽取是信息抽取研究在医疗领域的重要扩展. 本文首先讨论了电子病历文本的语言特点和结构特点,然后在梳理了命名实体识别和实体关系抽取研究一般思路的基础上,分析了电子病历命名实体识别、实体修饰识别和实体关系抽取研究的具体任务和对应任务的主要研究方法. 本文还介绍了相关的共享评测任务和标注语料库以及医疗领域几个重要的词典和知识库等资源. 最后对这一研究领域仍需解决的问题和未来的发展方向作了展望.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号