首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
基于远程监督的关系抽取方法可以明显地减少人工标注数据集的成本,已经被广泛应用于领域知识图谱的构建任务中.然而,现有的远程监督关系抽取方法领域针对性不强,同时也忽略了对领域实体特征信息的利用.为了解决上述问题,提出了一种融合实体特征和多种类注意力机制的关系抽取模型PCNN-EFMA.模型采用远程监督和多实例技术,不再受限于人工标注.同时,为了减少远程监督中噪声的影响,模型使用了句子注意力和包间注意力这两类注意力,并在词嵌入层和句子注意力中融合实体特征信息,增强了模型的特征选择能力.实验表明,该模型在领域数据集上的PR曲线更好,并在P@N上的平均准确率优于PCNN-ATT模型.  相似文献   

2.
从无结构文本中抽取实体与实体之间的关系是自然语言处理领域的重要研究内容,同时也为构建知识图谱、问答系统等应用提供重要支撑。基于联合模型的实体关系抽取任务将实体识别和关系抽取同时进行,克服了传统实体关系抽取任务中先识别句子中的实体,然后再进行实体关系判断这两次任务中的错误累加。该文针对藏文语料匮乏、实体识别准确率不高等问题,提出了基于联合模型抽取藏文实体关系的方法。基于藏文实体关系抽取任务,提出以下方案: ①针对藏文分词准确率不高的问题,对藏文进行字级和词级两种方式进行预处理,并给出对比实验,结果表明采用字级处理方式较词级处理方式效果有所提高。②藏文是一种语法规则比较强的语言,名词、格助词等能明确指示句子各组块之间的语法和语义结构关系,因此该文将藏文的词性标注特征加入到藏文的字词向量中,实验结果证明了方法的有效性。③该文借鉴了联合模型处理的优势,提出基于联合模型处理方式,采用端到端的BiLSTM框架将藏文实体关系抽取任务转变为藏文序列标注的问题,实验结果表明,该文的方法较传统的基于藏文处理方式,如SVM算法和LR算法,准确率提高了30%~40%。  相似文献   

3.
针对目前机器学习方法在化学领域的资源实体及关系抽取任务上召回率低以及高度依赖人工特征工程和领域知识的问题,提出一种基于实体信息及关系信息融合标注的联合抽取方法(Information Fusion Tagging-Joint Model,IFT-Joint).该方法主要从以下两个方面改进:将联合抽取任务转化为序列标注问题,缓解联合抽取中重叠关系的问题;从序列标注的角度出发,提出一种基于BERT(Bidirectional Encoder Representations from Trans-formers)联合抽取模型.通过多组实验表明,在化学领域实体数据集上,IFT-Joint的召回率可达到75%以上,相比于所提到的其他方法效果提升明显,且具有良好的稳定性.  相似文献   

4.
关系抽取作为知识图谱等诸多领域的上游任务,具有广泛应用价值,近年来受到广泛关注。关系抽取模型普遍存在暴露偏差问题,抽取文本普遍存在实体嵌套和实体重叠问题,这些问题严重影响了模型性能。因此,提出了一种基于片段标注的实体关系联合抽取模型(span-labeling based model,SLM),主要包括:将实体关系抽取问题转化为片段标注问题;使用滑动窗口和三种映射策略将词元(token)序列进行组合排列重新平铺成片段(span)序列;使用LSTM和多头自注意力机制进行片段深层语义特征提取;设计了实体关系标签,使用多层标注方法进行关系标签分类。在英文数据集NYT、WebNLG上进行实验,相对于基线模型F1值显著提高,验证了模型的有效性,能有效解决上述问题。  相似文献   

5.
基于CWHC-AM的实体及关系联合抽取方法   总被引:1,自引:0,他引:1  
实体及关系抽取是从非结构化自然语言文本中抽取三元组。传统流水线的方法先抽取实体再抽取关系,容易造成误差传播,也忽略了两个子任务的内在联系和依赖关系,抽取多元关系及重叠关系效果较差。针对上述问题,该文首先将多元关系问题转换成多个二元关系问题进行抽取,充分考虑两个子任务之间的联系,提出一种基于CWHC-AM(character word hybrid coding and attention mechanism)的实体及关系联合抽取模型,采用多层指针网络标注方案,将实体及关系联合抽取任务转化为序列标注问题,实现重叠关系抽取。最后,引入对抗训练提高模型的鲁棒性。在百度DuIE 2.0中文数据集上进行实验,结果表明该文方法可有效地同时抽取多元关系及二元关系,取得比基线模型都要好的效果。  相似文献   

6.
实体关系联合抽取是信息抽取的一项重要任务。由于传统的实体关系联合抽取方法把实体之间的关系建模为离散类型,因此不能很好地解决重叠三元组的问题。为了解决难以抽取重叠三元组的问题,本文提出一种融合FGM和指针标注的实体关系联合抽取BERT-FGM模型。该模型将实体之间的关系建模为函数,通过在BERT训练词向量的过程中融入FGM提高模型的鲁棒性。模型首先通过指针标注策略抽取头实体,然后将头实体与句子向量进行融合作为一个新向量,最终将其在预定义的关系条件下抽取头实体对应的尾实体。实验使用的是公开数据集WebNLG,实验结果表明该模型F1值达到90.7%,有效地解决了三元组重叠问题。  相似文献   

7.
实体关系语料库是信息抽取领域的基础数据资源,其规模和质量直接影响信息抽取深度学习模型的效果。目前建立的特定领域语料库在重叠关系方面的研究较少,且现有方法需要高昂的人工标注成本。该文融合已有的基于实体识别和触发词规则的语料标注算法,基于自定义关系schema实现网络文本中重叠关系的自动标注。首先,借助特定领域专业词典进行命名实体识别,构造命名实体集;然后根据自定义关系模式schema和依存句法分析进行特征词聚类,构造触发词词典;最后,基于命名实体集和触发词词典进行语料回标。该算法有效减少了人工标注量,标注速度快,标注后的语料规模较大,有效提取重叠关系信息,为特定领域信息抽取扩充语料库提供了可行方案。同时,该文探讨了数据源可用性,评价了标注质量并对语料库进行了统计分析。实验结果显示,该方法总体回标成功率为76.7%,总体关系标注准确率为85.8%,利用基础重叠关系抽取模型进行实验,实验结果F1值达到93.68%。  相似文献   

8.
目前互联网中包含了大量的实体介绍文本,为实体知识构建提供了资源基础。别名作为实体的一种属性,是实体正式名称的不同表达,在知识图谱构建中具有重要意义。该文以景点介绍文本作为语料,结合不同别名描述方式提出别名标注策略,人工构建别名标注数据集。别名抽取可分为实体识别与关系分类两个子任务。该文提出基于深度学习的景点实体别名抽取联合模型,同时完成两个子任务。在该文构建的数据集上的实验结果表明,联合模型与流水线式处理模型相比性能有显著提高。  相似文献   

9.
针对传统实体关系标注方法存在效率低下、错误传播、实体冗余等问题,对于某些领域语料中存在“一实体(主实体)同时与多个实体之间存在重叠关系”的特点,提出一种面向领域实体关系联合抽取的新标注方法。首先,将主实体标注为一个固定标签,将文本中与主实体存在关系的其他每个实体标注为对应实体对间的关系类型,这种对实体和关系进行同步标注的方式节省了至少一半的标注成本;然后,直接对三元组进行建模,而不是分别对实体和关系进行建模,通过标签匹配和映射即可获取三元组数据,从而缓解重叠关系抽取、实体冗余以及错误传播等问题;最后,以作物病虫害领域为例进行实验,测试了来自转换器的双向编码器表征量(BERT)-双向长短期记忆网络(BiLSTM)+条件随机场(CRF)端到端模型在1 619条作物病虫害文档的数据集上的性能。实验结果表明该模型的F1值比基于传统标注方式+BERT模型的流水线方法提高了47.83个百分点;与基于新标注方式+BiLSTM+CRF模型、卷积神经网络(CNN)+BiLSTM+CRF等经典模型的联合学习方法相比,该模型的F1值分别提高了9.55个百分点和10.22个百分点,验证了所提标注方法和模型的有效性。  相似文献   

10.
实体关系抽取任务是对句子中实体对间的语义关系进行识别。该文提出了一种基于Albert预训练语言模型结合图采样与聚合算法(Graph Sampling and Aggregation, GraphSAGE)的实体关系抽取方法,并在藏文实体关系抽取数据集上实验。该文针对藏文句子特征表示匮乏、传统藏文实体关系抽取模型准确率不高等问题,提出以下方案:(1)使用预先训练的藏文Albert模型获得高质量的藏文句子动态词向量特征;(2)使用提出的图结构数据构建与表示方法生成GraphSAGE模型的输入数据,并通过实验证明了该方法的有效性;(3)借鉴GraphSAGE模型的优势,利用其图采样与聚合操作进行关系抽取。实验结果表明,该文方法有效提高了藏文实体关系抽取模型的准确率,且优于基线实验效果。  相似文献   

11.
现有实体关系联合抽取方法未充分考虑中文句子中实体关系的复杂结构特征,为此,提出一种基于图卷积神经网络(GCN)的中文实体关系联合抽取方法。在双向长短时记忆网络抽取序列特征的基础上,利用GCN编码依存分析结果中的语法结构信息,借鉴改进的实体标注策略构建端到端的中文实体关系联合抽取模型。实验结果表明,该方法的F值可达61.4%,相比LSTM-LSTM模型提高了4.1%,GCN能有效编码文本的先验词间关系并提升实体关系抽取性能。  相似文献   

12.
命名实体识别和关系抽取是自然语言处理领域的两个重要基本问题.联合抽取方法被提出用于解决传统解决管道抽取方法中存在的一些问题.为了充分融合头实体和句子的语义信息,同时解决可能存在的重叠三元组问题,论文提出了一种新的实体关系联合抽取方法,主要通过序列标注的方式抽取实体关系.该方法主要使用条件层归一化(Condi-tional Layer Normalization)进行信息融合.同时,该方法还赋予了待抽取的头实体和尾实体不同的语义编码.实验结果表明,该方法在使用预训练的BERT预处理编码器的情况下,在NYT和WebNLG数据集上有很好的表现.  相似文献   

13.
跨境民族文化领域文本中存在较多的领域词汇,使得模型提取领域信息困难,造成上下文领域信息缺失,在该领域中实体密度分布高,面临实体关系重叠的问题。考虑到领域信息对跨境民族文化文本语义表征有着重要的作用,该文提出一种基于指针标注的跨境民族文化实体关系抽取方法,在字符向量表示中融入领域词典信息来增强领域信息用于解决领域实体标注不准确问题,通过多层指针标注解决跨境民族文化领域实体关系重叠问题。实验结果表明,在跨境民族文化实体关系抽取数据集上所提出方法相比于基线方法的F1值提升了2.34%。  相似文献   

14.
王勇超 《计算机应用研究》2021,38(4):1004-1007,1021
针对现有实体和关系联合抽取方法中存在的实体与关系依赖建模不足、实体发生重叠难以抽取其所涉及的多个关系的问题,设计了基于深度学习的联合抽取框架。首先针对依赖建模不足问题,从预训练语料中提取实体共现特征,建模了实体间的潜在语义关系和实体与关系之间的依赖关系。其次提出了新颖的指针标注方法,该标注方法可以通过指针表示关系类别,由于任一实体可以被多个指针指向,所以可以在一段文本中标注重叠的实体并抽取多个实体—关系三元组结果。最后,为了有效利用单词的丰富语义和指针之间依赖的信息,设计了一个标签感知注意力机制,融合了包括来自编码层的字词信息、相关的共现语义信息。与研究中前沿的联合提取方法相比,该方法在百度DuIE测试集上实现了F1值的增加。通过实验结果表明指针标注方法在一定程度上可以解决实体重叠问题。  相似文献   

15.
从非结构化文本中进行实体和关系抽取已经成为自然语言处理的一项关键任务,然而命名实体识别(NER)和关系抽取(RE)两个任务经常被分开考虑,从而丢失了大量的关联信息。鉴于此,该文提出了一种端到端的基于多层感知机SGM模块进行信息过滤的实体关系联合抽取方法。该方法在不引入外部其他复杂特征的情况下获得了丰富的语义,充分利用了实体和关系之间的关联。该文从句子级、词语级和字符级三个级别输入信息,利用SGM模块进行信息提取以获得高效的语义表示,之后利用Span-attention进行融合得到Span的具体表示,最后利用全连接层进行实体和关系的联合抽取。该文使用NYT10和NYT11数据集验证所提方法的有效性。实验结果表明,在NYT10和NYT11数据集上,该文提出的模型在关系抽取任务中的F1值分别达到了70.6%和68.3%,相比于其他模型有较大提升。  相似文献   

16.
针对从未标记的文本中抽取中文领域实体关系的问题,文中提出基于远程监督的领域实体属性关系抽取的混合方法,利用知识库中已有结构化的关系三元组,从自然语言文本中自动获取训练语料.针对远程监督方法标注数据存在大量噪声的问题,采用隐含狄利克雷分布主题模型抽取主题关键词,再与关系类型进行相似度计算和对关键词模式匹配进行去噪.最后提取词性特征、依存关系特征和短语句法树特征,并进行融合,训练关系抽取模型.实验表明,3种特征融合的F值较高,抽取性能较好.  相似文献   

17.
目前实体识别和关系抽取任务大多采用流水线方式,但该方法存在错误累积、忽略两个任务相关性和信息冗余等诸多问题。结合中医文本的特点,提出一种基于深度学习的中医实体关系联合抽取方法。该方法使用改进的序列标注策略,将中医的实体关系联合抽取转换成序列标注任务,词向量与字符向量并联拼接作为双向LSTM-CRF输入,利用双向LSTM神经网络强大的特征提取能力,以及CRF在序列标注上的突出优势,结合优化的抽取规则完成中医实体关系联合抽取。在中医语料库上的实验结果表明,实体关系联合抽取的F1值可以达到80.42%,与传统流水线方法以及其他方法相比,实验效果更佳。  相似文献   

18.
关系抽取任务是对句子中的实体对进行关系分类。基于远程监督的关系抽取是用预先构建的知识库来对齐朴素文本,自动标注数据,在一定程度上减少了人工标注的成本,缓解了藏文材料语料不足的问题。但是基于远程监督的实体关系抽取还存在错误标记、提取特征时出现噪声等问题。该文用远程监督方法进行藏文实体关系抽取,基于已经构建的藏文知识库,利用分段卷积神经网络结构,加入语言模型和注意力机制来改善语义歧义问题以及学习句子的信息;在训练过程中加入联合得分函数来动态修正错误标签问题。实验结果表明改进的模型有效提高了藏文实体关系抽取的准确率,且优于基线模型效果。  相似文献   

19.
生物医学实体关系抽取是生物医学文本挖掘领域的一项重要任务,它可以自动从生物医学文本中挖掘实体间的相互关系。目前,生物医学实体关系抽取方法一般只针对某一特定任务(如药物关系,蛋白质交互关系抽取等)训练单任务模型进行抽取,忽略了多个任务之间的相关性。因此,该文使用基于神经网络的多任务学习方法对多个生物医学关系抽取任务间的关联性进行了探索。首先构建了全共享模型和私有共享模型,然后在此基础上提出了一种基于Attention机制的主辅多任务模型。在生物医学领域关系抽取的5个公开数据集上的实验结果表明,该文的多任务学习方法可以有效地在学习任务之间共享信息,使得任务间互相促进,获得了比单任务方法更好的关系抽取结果。  相似文献   

20.
命名实体识别(NER)是自然语言处理中的一项基础任务,其性能的优劣极大地影响着关系抽取、语义角色标注等后续任务。传统的统计模型特征设计难度大、领域适应性差,一些神经网络模型则忽略了词本身所具有的形态学信息。针对上述问题,该文构建了一种基于细粒度词表示的端到端模型(Finger-BiLSTM-CRF)来进行命名实体识别任务。该文首先提出一种基于注意力机制的字符级词表示模型Finger来融合形态学信息和单词的字符信息,然后将Finger与BiLSTM-CRF模型联合进行实体识别,最终该方法以端到端、无任何特征工程的方式在CoNLL 2003 数据集上取得了F1为91.09%的结果。实验表明,该文设计的Finger模型显著提升NER系统的召回率,从而使得模型的识别能力显著提升。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号