首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
为解决地质领域实体关系类型复杂且缺乏大量标注语料的问题,建立基于句法结构的开放式实体关系联合抽取模型CSSEM (Chinese syntactic structure extraction model).给出一种基于模式的地质领域实体识别方法,解决地质领域缺乏实体标注语料的问题;基于少量标注语料自动学习关系抽取模式,使用基于句法结构的抽取模式从非结构化文本中开放式地抽取三元组.基于AUC (area under curve)评价标准,CSSEM与其它方法在地质领域和通用领域的数据集上进行对比分析.分析结果表明,该模型在上述两个领域取得了更好的准确率和召回率.  相似文献   

2.
在生物医学文本挖掘领域,生物医学的命名实体和关系抽取具有重要意义.然而目前中文生物医学实体关系标注语料十分稀缺,这给中文生物医学领域的信息抽取任务带来许多挑战.该文基于深度学习技术搭建了中文生物医学实体关系抽取系统.首先利用公开的英文生物医学标注语料,结合翻译技术和人工标注方法构建了中文生物医学实体关系语料.然后在结合...  相似文献   

3.
远程监督是关系抽取领域重要的语料扩充技术,可以在少量已标注语料的基础上快速生成伪标注语料。但是传统的远程监督方法主要应用于单语种文本,维吾尔语等低资源语言并不能使用这类方法得到伪标注语料。针对上述问题,提出一种针对维汉的跨语言远程监督方法,在无语料的情况下利用现有的汉语语料进行维语语料的自动扩充。将远程监督视为文本语义相似度计算问题而不是简单的文本查找,从实体语义和句子语义2个层面判断维语和汉语句子对是否包含同一关系,若为同一关系则将已有的汉语标注转移到维语句子上,实现维语语料从零开始的自动扩充。此外,为有效捕获实体的上下文和隐藏语义信息,提出一种带有门控机制的交互式匹配方法,通过门控单元控制编码层、注意力层之间的信息传递。人工标记3 500条维语句子和600条汉语句子用于模拟远程监督过程并验证模型的性能。实验结果表明,该方法 F1值达到73.05%,并且成功构造了包含97 949条维语句子的关系抽取伪标注数据集。  相似文献   

4.
针对互联网上日渐丰富的多语言文本和匮乏大规模标注平行语料库的问题,为了从多语言的信息源挖掘语言间的关联性与扩展知识图谱,提出了基于注意力迁移的跨语言关系提取方法。首先针对语言间的实际平行语料情况,分类进行跨语言平行语料映射,并针对缺乏种子词典的低资源语言对,提出神经网络翻译模型获取目标语言数据集并保存多语言间的对应注意力权重关系,然后利用BERT端对端的联合抽取模型抽取训练数据实体关系特征,反向迁移语言间注意力权重关系,最后利用反向迁移的注意力进行增强的关系抽取。实验表明,该模型的关系提取效果相比其他模型在准确率和回归上都有所提升,在缺乏双语词典情况下也表现出较好的性能。  相似文献   

5.
基于远程监督的关系抽取方法可以明显地减少人工标注数据集的成本,已经被广泛应用于领域知识图谱的构建任务中.然而,现有的远程监督关系抽取方法领域针对性不强,同时也忽略了对领域实体特征信息的利用.为了解决上述问题,提出了一种融合实体特征和多种类注意力机制的关系抽取模型PCNN-EFMA.模型采用远程监督和多实例技术,不再受限于人工标注.同时,为了减少远程监督中噪声的影响,模型使用了句子注意力和包间注意力这两类注意力,并在词嵌入层和句子注意力中融合实体特征信息,增强了模型的特征选择能力.实验表明,该模型在领域数据集上的PR曲线更好,并在P@N上的平均准确率优于PCNN-ATT模型.  相似文献   

6.
开放关系抽取从海量数据中获取知识,是自然语言处理的一个关键技术。开放关系抽取可以实现多种关系的抽取,由于中文领域可供训练的标注数据较少且语义句式较为复杂,面向中文的开放关系抽取存在较多困难。现有的中文开放关系抽取方法存在实体识别覆盖率较低且抽取关系种类单一的问题,无法满足知识图谱扩展等应用需求。该文提出了多策略的开放关系抽取方法,该方法综合利用知识图谱提高了实体识别的覆盖度,依靠实体上下文信息实现了实体对关系的抽取,根据依存句法分析抽取得到全要素三元组,并实现了从文本中抽取实体属性的方法。实验证明,该文的抽取方法准确率高,抽取关系种类多样,可以服务于知识图谱扩展等任务。  相似文献   

7.
针对从未标记的文本中抽取中文领域实体关系的问题,文中提出基于远程监督的领域实体属性关系抽取的混合方法,利用知识库中已有结构化的关系三元组,从自然语言文本中自动获取训练语料.针对远程监督方法标注数据存在大量噪声的问题,采用隐含狄利克雷分布主题模型抽取主题关键词,再与关系类型进行相似度计算和对关键词模式匹配进行去噪.最后提取词性特征、依存关系特征和短语句法树特征,并进行融合,训练关系抽取模型.实验表明,3种特征融合的F值较高,抽取性能较好.  相似文献   

8.
远程监督关系抽取旨在从无结构化的文本当中发现关系事实,它对许多下游任务有着非常重要的意义.虽然远程监督可以自动地生成大量带标签的训练样本,但是自动标注的过程不可避免地会遇到噪声数据的问题.当前的许多研究工作主要把关注点放在降噪的过程当中,尝试通过选择出正确的句子来生成更有效的包级别特征表示.但是在文本语料之外,还存在着大量与实体相关的外部知识没有被充分利用,而这些知识能够帮助模型更好地理解实体之间的关系.基于这一观察,提出了一种新颖的远程监督关系抽取方法,该方法通过利用外部知识图谱当中的结构化知识和文本语料中的语义知识,设计了一种实体知识感知的词嵌入表示方法,来丰富句子级别的特征表达能力.实验结果表明,在2个版本的大规模“纽约时报”基准数据集上,该方法都明显优于其他方法.此外,还通过对比实验进一步探索了2个版本的数据集所存在的差异,其中无实体交集的数据集能够更有效地反映模型性能.  相似文献   

9.
基于BERT的心血管医疗指南实体关系抽取方法   总被引:1,自引:0,他引:1  
武小平  张强  赵芳  焦琳 《计算机应用》2021,41(1):145-149
实体关系抽取是医疗领域知识问答、知识图谱构建及信息抽取的重要基础环节之一。针对在心血管专病知识图谱构建的过程中尚无公开数据集可用的情况,收集了心血管疾病领域的医疗指南并进行相应的实体和关系类别的专业标注,构建了心血管专病知识图谱实体关系抽取的专业数据集。基于该数据集,首先提出双向变形编码器卷积神经网络(BERT-CNN)模型以实现中文语料中的关系抽取,然后根据中文语义中主要以词而不是字为基本单位的特性,提出了改进的基于全词掩模的双向变形编码器卷积神经网络(BERT(wwm)-CNN)模型用于提升在中文语料中关系抽取的性能。实验结果表明,改进的BERT(wwm)-CNN在所构建的关系抽取数据集上准确率达到0.85,召回率达到0.80,F1值达到0.83,优于对比的基于双向变形编码器长短期记忆网络(BERT-LSTM)模型和BERT-CNN模型,验证了改进网络模型的优势。  相似文献   

10.
张宁豫  谢辛  陈想  邓淑敏  叶宏彬  陈华钧 《软件学报》2022,33(10):3531-3545
知识图谱补全能让知识图谱变得更加完整.现有的知识图谱补全工作大多会假设知识图谱中的实体或关系有充足的三元组实例.然而,在通用领域,存在大量长尾三元组;在垂直领域,较难获得大量高质量的标注数据.本文针对这一问题,提出了一种基于知识协同微调的低资源知识图谱补全方法.本文通过已有的结构化知识来构造初始的知识图谱补全提示,并提出一种协同微调算法来学习最优的模板、标签和模型的参数.本文的方法同时利用了知识图谱中的显式结构化知识和语言模型中的隐式事实知识,且可以同时应用于链接预测和关系抽取两种任务.实验表明,本文的方法在3个知识图谱推理数据集和5个关系抽取数据集上都取得了目前最优的性能.  相似文献   

11.
目前互联网中包含了大量的实体介绍文本,为实体知识构建提供了资源基础。别名作为实体的一种属性,是实体正式名称的不同表达,在知识图谱构建中具有重要意义。该文以景点介绍文本作为语料,结合不同别名描述方式提出别名标注策略,人工构建别名标注数据集。别名抽取可分为实体识别与关系分类两个子任务。该文提出基于深度学习的景点实体别名抽取联合模型,同时完成两个子任务。在该文构建的数据集上的实验结果表明,联合模型与流水线式处理模型相比性能有显著提高。  相似文献   

12.
属性抽取是构建知识图谱的关键一环,其目的是从非结构化文本中抽取出与实体相关的属性值.该文将属性抽取转化成序列标注问题,使用远程监督方法对电商相关的多种来源文本进行自动标注,缓解商品属性抽取缺少标注数据的问题.为了对系统性能进行精准评价,构建了人工标注测试集,最终获得面向电商的多领域商品属性抽取标注数据集.基于新构建的数...  相似文献   

13.
实体关系抽取是构建知识图谱的主要任务之一,旨在确定句子中实体之间的关系类别.远程监督关系抽取方法通过将远程知识库与文本数据对齐来自动标记数据,已成为处理关系抽取任务的主要方式.为解决远程关系抽取不能充分利用单词之间的位置关系信息,并且没有考虑重叠关系之间语义相关性的问题,本文提出一种融合位置特征注意力和关系增强机制的远程监督关系抽取模型.该模型使用基于高斯算法的位置特征注意力机制重新分配句子中单词的权重,并且采用分段卷积神经网络和词级注意力来捕获句子特征.然后,利用基于自注意力的关系增强机制来捕获重叠关系之间的语义关联.在NYT10公共数据集上的实验结果表明,本文模型的性能优于所比较的基线关系抽取模型.  相似文献   

14.
关系抽取作为知识图谱等诸多领域的上游任务,具有广泛应用价值,近年来受到广泛关注。关系抽取模型普遍存在暴露偏差问题,抽取文本普遍存在实体嵌套和实体重叠问题,这些问题严重影响了模型性能。因此,提出了一种基于片段标注的实体关系联合抽取模型(span-labeling based model,SLM),主要包括:将实体关系抽取问题转化为片段标注问题;使用滑动窗口和三种映射策略将词元(token)序列进行组合排列重新平铺成片段(span)序列;使用LSTM和多头自注意力机制进行片段深层语义特征提取;设计了实体关系标签,使用多层标注方法进行关系标签分类。在英文数据集NYT、WebNLG上进行实验,相对于基线模型F1值显著提高,验证了模型的有效性,能有效解决上述问题。  相似文献   

15.
对汽车、机械等工业制造行业的质量报告进行关系抽取,对于该行业质量知识图谱、质量问答系统等研究有着极为重要的意义.针对在工业制造领域的质量知识图谱构建过程中尚无公开数据集可用的情况,收集了质量文本并进行相应的专业标注,构建了工业制造领域质量知识图谱关系抽取专业数据集.基于该数据集利用分段卷积神经网络(Piecewise ...  相似文献   

16.
从文本信息中抽取关系三元组是构建知识图谱的关键任务,近年来受到工业界和学术界的广泛关注。针对旅游领域信息抽取过程中出现的实体嵌套和关系重叠问题,提出了一种基于双仿射注意力机制的实体关系联合抽取模型BAMRel,该模型通过共享编码层参数利用双仿射注意力机制在实体识别部分和关系抽取部分构建分类矩阵,并在关系抽取部分融合实体类型信息,提升关系抽取效果的同时增加了两个任务之间的交互。此外,通过远程监督和人工校验构建了旅游领域关系抽取数据集TFRED,BAMRel模型在此数据集上F1值达到了91.8%,有效地解决了实体嵌套和关系重叠问题。为了验证模型的鲁棒性,在百度DuIE数据集上与主流联合抽取模型进行了对比实验,BAMRel模型取得了最高的F1值80.2%。  相似文献   

17.
医疗文本数据是推行智慧医疗的重要数据基础,而医疗文本为半结构或非结构化数据,难以对其直接进行应用。对医疗文本中所包含的实体及实体关系进行标注是文本结构化的重要手段,也是命名实体识别、关系自动抽取研究的基础。传统的人工标注方法费力费时,已难以适应大数据发展的需求。该文以构建中文医学知识图谱的任务为驱动,构建了半自动化实体及关系标注平台。该平台融合多种算法,能够实现文本预标注、进度控制、质量把控和数据分析等多种功能。利用该平台,进行了医学知识图谱中实体和关系标注,结果表明该平台能够在文本资源建设中控制标注过程,保证标注质量,提高标注效率。同时该平台也被应用于其他文本标注任务,表明该平台具有较好的任务移植性。  相似文献   

18.
陆亮  孔芳 《计算机科学》2022,(5):200-205
实体关系抽取旨在从文本中抽取出实体之间的语义关系.该任务在新闻报道、维基百科等规范文本上的研究相对丰富,并取得了一定的成果,但面向对话文本的相关研究还处于起始阶段.目前用于实体关系抽取的对话语料规模较小且信息密度低,有效特征难以捕获;深度学习模型无法像人一样进行知识联想,单纯依靠加大标注数据量和增强计算力难以精细深度地...  相似文献   

19.
周晶 《计算机工程》2010,36(24):192-194
针对信息抽取领域中存在的抽取结果难以满足需要的问题,给出基于条件随机域模型的方法,以解决组块标注和实体关系抽取问题。通过定义中文组块和实体关系的标注方式,选择比较通用的《人民日报》语料,训练出效率较高的二阶模板来抽取文本中的实体关系。实验结果表明,该方法可以获得更好的抽取效果。  相似文献   

20.
本文针对现有方法不能很好结合文本信息和知识库信息的问题, 提出一种基于关系指数和表示学习的领域集成实体链接方法.首先, 本文构建了特定领域知识库; 其次, 运用表示学习从文本信息中得到的向量表示计算实体指称项的上下文、主题关键词、扩展词三个特征的相似度; 然后, 利用知识库中的关系信息计算候选实体的关系指数; 最后, 将这三种相似度及关系指数相融合, 用于实体链接. 实验结果表明, 相较于现有方法, 本文方法能够有效地提高F1值, 并且该方法不需要标注语料, 更加简单高效, 适应于缺少标注语料的特定领域.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号