首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
三元组抽取的目的是从非结构化的文本中获取实体与实体间的关系,并应用于下游任务。嵌入机制对三元组抽取模型的性能有很大影响,嵌入向量应包含与关系抽取任务密切相关的丰富语义信息。在中文数据集中,字词之间包含的信息有很大区别,为了改进由分词错误产生的语义信息丢失问题,设计了融合混合嵌入与关系标签嵌入的三元组联合抽取方法(HEPA),提出了采用字嵌入与词嵌入结合的混合嵌入方法,降低由分词错误产生的误差;在实体抽取层中添加关系标签嵌入机制,融合文本与关系标签,利用注意力机制来区分句子中实体与不同关系标签的相关性,由此提高匹配精度;采用指针标注的方法匹配实体,提高了对关系重叠三元组的抽取效果。在公开的Du IE数据集上进行了对比实验,相较于表现最好的基线模型(Cas Rel),HEPA的F1值提升了2.8%。  相似文献   

2.
从非结构化文本中抽取实体关系三元组是自然语言处理中的主要任务形式之一。目前主流的方法是采用联合式抽取,能够在训练过程中自动捕捉到实体与关系间的依赖知识,提高了实体和关系的抽取效果。但这些方法忽略了实体的类型知识,导致大量的冗余计算和错误结果的产生。鉴于此,文中提出一种融合注意力和实体类型知识的实体关系联合抽取方法。首先,采用预训练模型BERT作为编码器得到句子中各字符的向量表示,再经双向LSTM层处理得到最终的语义表示;其次,基于表示层的结果完成头、尾实体的识别;接着,通过融合不同头实体的语义信息到句子表示中,实现头实体类型约束下的潜在语义关系发现;最后,将头实体和关系分别输入自注意力模块识别出对应尾实体,得到实体关系三元组。通过在公开数据集NYT和WebNLG上的大量实验表明:文中所提模型在实体关系联合抽取任务中的F1值达到了93.2%和93.3%,与当前主流模型相比提升显著。  相似文献   

3.
针对军事文本实体关系抽取过程中存在的"一句对应多个三元组","一个主语对应多个客体"等问题提出一种基于ERNIE的军事文本三元组抽取模型,在编码层引入ERNIE模型获取每个词的编码序列,参考seq-to-seq解码器的建模方法和BIO序列标注,采用先预测主体,再传入主体标注序列预测客体和二者之间关系的方法实现三元组的抽...  相似文献   

4.
运用人工智能技术对裁判文书进行司法知识抽取,是智慧司法领域的重要研究方向.文中针对传统的实体-关系抽取模型中对复杂关系和重叠关系识别不够准确的问题,面向裁判文书数据提出了一种基于级联二进制标记框架的司法知识抽取方法.对裁判文书中实体抽取和关系抽取两个任务进行了模型设计,并基于盗窃罪案由的裁判文书开展了算法实验,经实验验...  相似文献   

5.
医疗信息文本信息处理存在文本长、专业术语多、实体间关系复杂等问题,因此,提出一种基于ERNIEBi-GRU-Attention的医疗实体关系抽取模型。首先通过预训练模型ERNIE使向量获得丰富的语义信息和医疗先验知识,解决医疗专业术语问题;其次通过Bi-GRU-Attention进行语句编码,捕获有效上下文信息,有利于关系抽取;然后使用经典CRF输出实体标签;将实体标签特征和语句编码向量特征拼接进行一阶和二阶特征融合;最后通过分类器获得最终关系标签输出。通过在医疗数据集上验证,结果表明与其他模型相比,使用此模型医疗实体关系抽取的效果有所提升。  相似文献   

6.
命名实体识别是自然语言处理领域的一项关键任务,其目的在于从自然语言文本中识别出具有特定含义的实体,如人名、地名、机构名和专有名词等。在命名实体识别任务中,研究人员提出过多种方法,包括基于知识和有监督的机器学习方法。近年来,随着互联网文本数据规模的快速扩大和深度学习技术的快速发展,深度学习模型已成为命名实体识别的研究热点,并在该领域取得显著进展。文中全面回顾现有的命名实体识别深度学习技术,主要分为四类:基于卷积神经网络模型、基于循环神经网络模型、基于Transformer模型和基于图神经网络模型的命名实体识别。此外,对深度学习的命名实体识别架构进行了介绍。最后,探讨命名实体识别所面临的挑战以及未来可能的研究方向,以期推动命名实体识别领域的进一步发展。  相似文献   

7.
关系抽取是信息抽取技术的重要环节,旨在从无结构的文本中抽取出实体之间的关系.目前基于深度学习的实体关系抽取已经取得了一定的成果,但其特征提取不够全面,在各项实验指标方面仍有较大的提升空间.实体关系抽取不同于其他自然语言分类和实体识别等任务,它主要依赖于句子和两个目标实体的信息.本文根据实体关系抽取的特点,提出了SEF-...  相似文献   

8.
<正>本文基于国网客服中心95598语音转文本数据,采用Ro BERTa语言模型对语句进行向量表示与特征提取,通过添加机制,模型可以关注与当前输出相关的信息,并获得文本中的潜在语义信息。通过对照组实验,本文构造的模型能够有效提高实体识别精准程度,且该模型在文本数据集上的抽取效果明显优于其他模型。命名实体识别(Named Entity Recognition,NER)获取有关子任务的信息,搜索分配给文本的对象,并将其分类到预定义的类别中。命名实体识别是自然语言处理中的热点研究方向之一,用于识别和分类文本中的相关实体的类别。命名实体识别的准确度,  相似文献   

9.
答案抽取对提高问答的质量和性能有着重要的作用,但现有的答案抽取方法存在问句和文本信息交互的问题。结合上下文的答案抽取模型虽然可以从文本中抽取出给定问题的答案,但这种抽取方法并未考虑文本和问句的信息交互。而只有问句和文本数据时,要从文本中获取更加精准的问句答案,可以利用问句和文本之间的语义信息,预测问句与文本实体之间的关联。基于此,使用问句对齐层和多头注意力机制构建一个交互文本和问句之间的信息模型。实验结果表明,相较于BIDAF-INDEPENDENT模型,改进后模型的EM值和F1值分别提高了1.281%和1.296%。  相似文献   

10.
提出了基于元学习策略的分类器融合的新模型,使用了两类元学习策略将4种分类算法即Generalized Winnow算法、支持向量机算法、条件随机域算法和最大熵算法进行融合,并根据具体领域的应用任务和分类器特点选择了有效特征信息,在面向生物医学文本命名实体识别的应用中取得了较高识别精度。实验结果表明基于元学习策略的分类器融合方法明显优于单分类器方法,并且也优于基于判别规则的分类器融合方法。  相似文献   

11.
目前在处理医学文本实体间关系提取任务中,使用传统的词向量表示方法无法解决医学文本中的词多义性问题,加上基于长短时记忆网络对文本语义局部特征抽取不够充分,不能充分捕捉医疗文本隐藏的内部关联信息。因此,提出一种基于XLNet-BiGRU-Attention-TextCNN的医疗文本实体关系抽取模型。利用XLNet模型将输入的医疗文本转化为向量形式,接着连接双向门控循环神经网络(BiGRU)提取文本语句的长距离依赖关系,然后使用注意力机制(Attention)为特征序列分配权重,降低噪声影响,最后利用文本卷积神经网络(TextCNN)对序列进行局部特征提取并通过softmax层输出关系抽取结果。实验结果表明,本文所提模型在精确率、召回率和F值上均优于基准模型。  相似文献   

12.
去隐私化是2014 i2b2/UTHealth中的一个任务,目的在于识别并移除电子病历中的隐私信息.本文提出了一种基于支持向量机(SVMs)和条件随机场(CRFs)双层分类模型的去隐私化方法,经过预处理将病历文本进行词切分(tokenize)处理,并在此基础上抽取4类特征,训练SVM模型对隐私信息实体边界进行划分并将结果作为特征添加到特征集中,通过CRF训练多分类器,并通过该分类器对各个类别的隐私信息进行识别.实验表明双层分类模型对于隐私信息识别是有效的,结果F值达到0.9110.  相似文献   

13.
文章针对中医临床症状实体及属性抽取存在医疗短文本语义信息欠缺,常用的流水线方法易导致多任务之间产生错误累积的问题,提出一种基于深度学习的症状实体及属性抽取方法。首先通过基于BLSTM-CRF的序列标注模型完成“实体/修饰属性”识别;其次根据扩展步长的就近匹配原则生成高覆盖率、低冗余度的“实体—属性值”候选对;最后基于ERNIE-BGRU-MP完成关系分类,利用ERNIE丰富文本上下文信息,联合BGRU提取文本全局特征信息,采用最大池化法过滤冗余和噪声信息,提高模型的泛化性和鲁棒性。  相似文献   

14.
实体及关系抽取是实现海量数据知识化的关键,而现有实体及关系抽取方法应用于垂直领域时,表现出的效果很难达到实装应用水平。针对武器装备领域,文中在分析该领域文本数据特征的基础上,提出基于预训练模型与规则知识结合的武器装备实体及关系抽取方法,由实体抽取和关系抽取两个阶段组成。在实体抽取阶段,首先,利用BERT+BiLSTM+CRF模型完成武器装备实体的识别;然后,通过规则知识对领域性实体补充抽取。在关系抽取阶段,首先,利用BERT+BiGRU+CNN模型抽取武器装备实体间关系;然后,经过滤调模块对实体间关系抽取结果过滤和调整;最后,设计强领域性的关系抽取规则,用于实体间关系的补充抽取。在仿真数据集上对本文方法评测,结果表明在实体识别和关系抽取上的F1值分别为96.4%和95.1%,与基线相比均提升了约10%。同时,文中提出的实体及关系抽取方法可作为一种通用解决方案,推广至其他垂直领域。  相似文献   

15.
随着互联网技术的快速发展,人们能够及时地获取大量的新闻文本信息,如何从新闻中自动获取关键信息,把新闻中具有价值的信息转化为结构化数据,从而快速有效地获取有用的知识已是迫切需求.实体关系抽取是获取关键信息的方法之一,但目前关于中文的实体关系抽取工作较少.针对基于长短时记忆网络的中文实体识别模型难于提取长距离的依存关系特征...  相似文献   

16.
本论文研究零样本实体链接任务。当前的两阶段方法主要存在2个问题:(1)在候选实体生成阶段,由于过分追求效率,没有充分考虑指称项所在文本和实体摘要之间的交互,导致召回率不高;(2)在候选实体排序阶段,只是单独地考虑了每个候选实体和指称项的关系,这在一定程度上影响了整体的精度。针对这些问题,本文提出了一种基于ColBert-EL和MRC模型的零样本实体链接方法。在候选实体生成阶段,提出了一个基于ColBert的变种方法—ColBert-EL,既可以让指称项所在文本和实体摘要进行充分交互,又可以快速地检索。在候选实体排序阶段,将其建模成一个多项选择问题,并提出了一个基于机器阅读理解的模型来对结果进行统一排序。实验结果验证了本文提出方法的有效性。  相似文献   

17.
文章对融合词信息增强中文命名实体识别问题进行了研究,提出一种用于中文命名实体识别的融合词信息神经网络模型系统.首先使用预训练语言模型Bert对字进行编码得到字标识,然后使用SoftLexicon基于统计的方法将词统计语义信息融合进入字表示中,之后使用设计的GraphLexicon根据文本内字、词之间的交互关系图结构,将...  相似文献   

18.
文中研究了知识图谱中关于实体关系联合抽取方式,解决流水线抽取方式的误差传播、效率低下及关系重叠的问题,设计了网络安全本体模型,提出基于深度学习的Seq2Seq联合抽取模型,编码层通过BERT-WWM和双向长短期记忆网络(Bi-directional Long Short-Term Memory, BiLSTM)模型获取上下文语义表示,并融合多头注意力机制突显文本中的重要单词,解码层通过指针网络输出序列标注,从而获取头实体、关系及尾实体。以自标注的数据集为语料,通过TensorFlow框架建模,对实体和关系抽取的质量进行评估。结果表明,模型的精确率、召回率和F1值均较高,验证了联合抽取模型的有效性,最后通过Neo4j图数据库构建并可视化知识图谱。  相似文献   

19.
周博学 《信息技术》2022,(4):130-136,142
不同于流水线方式的关系抽取方法,在实体关系联合抽取方式中虽然把实体识别和关系抽取两者结合起来,但损失部分实体特征信息.在以BERT预训练模型为核心的SpERT实体关系联合抽取模型输入阶段,融入置信度较高的词性标注和句法依存关系的先验特征;并在模型的关系抽取层中重用输入信息,为关系抽取任务提供更多的特征;在优化模型的损失...  相似文献   

20.
针对当前基于知识图谱的推荐模型没有充分挖掘知识图谱语义结构信息的问题,提出一种融合知识图谱表示学习方法和信息协同传播机制的推荐模型KCOD。KCOD基于经典的知识图谱表示学习模型DistMult与TransR建模并推理实体三元组的语义关系,然后通过交叉计算每一阶历史交互实体向量推理结果与候选物品实体向量推理结果的相似度,进行模型训练及偏好预测。实验结果显示KCOD的性能优于经典对比模型。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号