首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 437 毫秒
1.
刘雅璇  钟勇 《计算机应用》2021,41(9):2517-2522
实体关系抽取是构建大规模知识图谱及各种信息抽取任务的关键步骤。基于预训练语言模型,提出基于头实体注意力的实体关系联合抽取方法。该方法采用卷积神经网络(CNN)提取头实体关键信息,并采用注意力机制捕获头实体与尾实体之间的依赖关系,构建了基于头实体注意力的联合抽取模型(JSA)。在公共数据集纽约时报语料库(NYT)和采用远程监督方法构建的人工智能领域数据集上进行实验,所提模型的F1值相较于级联二元标记框架(CasRel)分别获得了1.8和8.9个百分点的提升。  相似文献   

2.
从文本信息中抽取关系三元组是构建知识图谱的关键任务,近年来受到工业界和学术界的广泛关注。针对旅游领域信息抽取过程中出现的实体嵌套和关系重叠问题,提出了一种基于双仿射注意力机制的实体关系联合抽取模型BAMRel,该模型通过共享编码层参数利用双仿射注意力机制在实体识别部分和关系抽取部分构建分类矩阵,并在关系抽取部分融合实体类型信息,提升关系抽取效果的同时增加了两个任务之间的交互。此外,通过远程监督和人工校验构建了旅游领域关系抽取数据集TFRED,BAMRel模型在此数据集上F1值达到了91.8%,有效地解决了实体嵌套和关系重叠问题。为了验证模型的鲁棒性,在百度DuIE数据集上与主流联合抽取模型进行了对比实验,BAMRel模型取得了最高的F1值80.2%。  相似文献   

3.
实体关系抽取是构建知识图谱的主要任务之一,旨在确定句子中实体之间的关系类别.远程监督关系抽取方法通过将远程知识库与文本数据对齐来自动标记数据,已成为处理关系抽取任务的主要方式.为解决远程关系抽取不能充分利用单词之间的位置关系信息,并且没有考虑重叠关系之间语义相关性的问题,本文提出一种融合位置特征注意力和关系增强机制的远程监督关系抽取模型.该模型使用基于高斯算法的位置特征注意力机制重新分配句子中单词的权重,并且采用分段卷积神经网络和词级注意力来捕获句子特征.然后,利用基于自注意力的关系增强机制来捕获重叠关系之间的语义关联.在NYT10公共数据集上的实验结果表明,本文模型的性能优于所比较的基线关系抽取模型.  相似文献   

4.
实体关系抽取旨在从无结构的文档中检测出实体和实体对的关系,是构建领域知识图谱的重要步骤。针对现有抽取模型语义表达能力差、重叠三元组抽取准确率低的情况,研究了融合预训练模型和注意力的实体关系联合抽取问题,将实体关系抽取任务分解为两个标记模块。头实体标记模块采用预训练模型对句子进行编码,为了进一步学习句子的内在特征,利用双向长短时记忆网络(BiLSTM)和自注意力机制组成特征加强层。采用二进制分类器作为模型的解码器,标记出头实体在句子中的起止位置。为了加深两个标记模块之间的联系,在尾实体标记任务前设置特征融合层,将头实体特征与句子向量通过卷积神经网络(CNN)和注意力机制进行特征融合,通过多个相同且独立的二进制分类器判定实体间关系并标记尾实体,构建出融合预训练模型和注意力的联合抽取模型(JPEA)。实验结果表明,该方法能显著提升抽取的效果,对比不同预训练模型下抽取任务的性能,进一步说明了模型的优越性。  相似文献   

5.
关系抽取旨在从文本中抽取实体与实体之间的语义关系。作为关系抽取的上层任务,实体识别所产生的错误将扩散至关系抽取,从而导致级联错误。与实体相比,实体边界粒度小且具有二义性,更易识别。因此,提出一种基于实体边界组合的关系抽取方法,通过跳过实体,对实体边界两两组合来进行关系抽取。由于边界性能高于实体性能,所以错误扩散的问题得到了缓解;并且通过特征组合的方法将实体类型特征和位置特征加入模型中,性能得到了进一步提高,再次减轻了错误扩散带来的影响。实验结果表明,所提方法在ACE 2005英文数据集的宏平均F1值优于表格-序列编码器方法8.61个百分点。  相似文献   

6.
关系抽取旨在从文本中抽取实体与实体之间的语义关系。作为关系抽取的上层任务,实体识别所产生的错误将扩散至关系抽取,从而导致级联错误。与实体相比,实体边界粒度小且具有二义性,更易识别。因此,提出一种基于实体边界组合的关系抽取方法,通过跳过实体,对实体边界两两组合来进行关系抽取。由于边界性能高于实体性能,所以错误扩散的问题得到了缓解;并且通过特征组合的方法将实体类型特征和位置特征加入模型中,性能得到了进一步提高,再次减轻了错误扩散带来的影响。实验结果表明,所提方法在ACE 2005英文数据集的宏平均F1值优于表格-序列编码器方法8.61个百分点。  相似文献   

7.
实体关系抽取是实现海量文本数据知识化、自动构建大规模知识图谱的关键技术。考虑到头尾实体信息对关系抽取有重要影响,该文采用注意力机制将实体对信息融合到关系抽取过程中,提出了基于实体对注意力机制的实体关系联合抽取模型(EPSA)。首先,使用双向长短时记忆网络(Bi-LSTM)结合条件随机场(CRF)完成实体的识别;其次,将抽取的实体配对,信息融合成统一的嵌入式表示形式,用于计算句子中各词的注意力值;然后,使用基于实体对注意力机制的句子编码模块得到句子表示,再利用显式融合实体对的信息得到增强型句子表示;最后,通过分类方式完成实体关系的抽取。在公开数据集NYT和WebNLG上对提出的EPSA模型进行评估,实现结果表明,与目前主流联合抽取模型相比,EPSA模型在F1值上均得到提升,分别达到84.5%和88.5%,并解决了单一实体重叠问题。  相似文献   

8.
实体关系抽取是信息抽取的关键任务之一,是一种包含实体抽取和关系抽取的级联任务.传统的实体关系抽取方式是将实体与关系抽取任务分离的Pipeline方式,忽略了两个任务的内在联系,导致关系抽取的效果严重依赖实体抽取,容易引起误差的累积.为了规避这种问题,我们提出一种端到端的实体关系联合抽取模型,通过自注意力机制学习单词特征,基于句法依存图蕴含的依赖信息构建依存约束,然后将约束信息融入图注意力网络来实现实体与关系的抽取.通过在公共数据集NYT上进行实验证明了我们工作的先进性和显著性,我们的模型在保持高精度的情况下,召回率有了显著的提升,比以往工作中的方法具有更好的抽取性能.  相似文献   

9.
在信息抽取领域,从非结构化文本中抽取实体关系是一项基础且重要的任务,且面临实体重叠和模型误差累积等挑战.本文以关系为导向,提出一种改进的实体关系联合抽取方法.该方法将实体关系抽取任务分为关系抽取与实体抽取两个子任务.在关系抽取任务上采用自注意力机制关注词与词之间的重要程度从而模拟实体信息,并使用平均池化来表征整个句子信息;在实体抽取任务上结合关系信息使用条件随机场识别该关系下的实体对.本模型不仅能够利用存在关系必定存在实体对的思想解决实体对重叠问题,还能够在训练过程中利用数据集中已知的关系使实体抽取模块不依赖于关系抽取模块的结果来训练,从而在训练阶段避免误差累积.最后,在WebNLG和NYT公开数据集上验证了该模型的有效性.  相似文献   

10.
拓雨欣  薛涛 《计算机应用》2023,(7):2116-2124
针对自然语言文本中实体重叠情况复杂、多个关系三元组提取困难的问题,提出一种融合指针网络与关系嵌入的三元组联合抽取模型。首先利用BERT(Bidirectional Encoder Representations from Transformers)预训练模型对输入句子进行编码表示;然后利用首尾指针标注抽取句子中的所有主体,并采用主体和关系引导的注意力机制来区分不同关系标签对每个单词的重要程度,从而将关系标签信息加入句子嵌入中;最后针对主体及每一种关系利用指针标注和级联结构抽取出相应的客体,并生成关系三元组。在纽约时报(NYT)和网络自然文本生成(WebNLG)两个数据集上进行了大量实验,结果表明,所提模型相较于目前最优的级联二元标记框架(CasRel)模型,整体性能分别提升了1.9和0.7个百分点;与基于跨度的提取标记方法(ETL-Span)模型相比,在含有1~5个三元组的对比实验中分别取得了大于6.0%和大于3.7%的性能提升,特别是在含有5个以上三元组的复杂句子中,所提模型的F1值分别提升了8.5和1.3个百分点,且在捕获更多实体对的同时能够保持稳定的提取能力,进一步验证了该模型在...  相似文献   

11.
依据实体造型的特点,从模型空间的特征层入手,搜寻模型空间中的简单形状特征,并根据造型特点获取单个特征在零件模型上的几何拓扑关系,从而实现形状特征的自动识别.通过分析特征实体造型,提出一种基于实体模型的产品形状特征识别方法,并结合微波器件产品开发特征参数提取模块,实现复杂零件模型形状特征的自动识别与提取.该方法为快速建立企业零件库提供途径,也为网络环境下的协同设计和数据共享奠定基础.  相似文献   

12.
针对心理医学领域文本段落冗长、数据稀疏、知识散乱且规范性差的问题, 提出一种基于多层级特征抽取能力预训练模型(MFE-BERT)与前向神经网络注意力机制(FNNAttention)的心理医学知识图谱构建方法. MFE-BERT在BERT模型基础上将其内部所有Encoder层特征进行合并输出, 以获取包含更多语义的特征向量, 同时对两复合模型采用FNNAttention机制强化词级关系, 解决长文本段落语义稀释问题. 在自建的心理医学数据集中, 设计MFE-BERT-BiLSTM-FNNAttention-CRF和MFE-BERT-CNN-FNNAttention复合神经网络模型分别进行心理医学实体识别和实体关系抽取, 实体识别F1值达到93.91%, 实体关系抽精确率达到了89.29%, 通过融合文本相似度与语义相似度方法进行实体对齐, 将所整理的数据存储在Neo4j图数据库中, 构建出一个含有3652个实体, 2396条关系的心理医学知识图谱. 实验结果表明, 在MFE-BERT模型与FNNAttention机制的基础上构建心理医学知识图谱切实可行, 提出的改进模型所搭建的心理医学知识图谱可以更好地应用于心理医学信息管理中, 为心理医学数据分析提供参考.  相似文献   

13.
命名实体识别是构建知识图谱的重要阶段。基于国军标及软件测试文档,完成了实体类型分类以及数据集的构建和标注。在软件测试领域,针对字词联合实体识别方法准确率不高的问题,进行字符级特征提取方法的改进,提出了CWA-BiLSTM-CRF识别框架。该框架包含两部分:第一部分构建预训练的字词融合字典,将字词一起输入给双向长短期记忆网络进行训练,并加入注意力机制衡量词内各字对特征的语义贡献,提取出字符级特征;第二部分将字符级特征与词向量等特征进行拼接,输入给双向长短期记忆网络进行训练,再通过条件随机场解决标签结果序列不合理的问题,识别出文中的实体。实验结果分别与三种常用的深度学习字符级特征提取方法进行比较,准确率和召回率均有提升,最优F1值为88.93%。实验表明,改进后的方法适用于军用软件测试领域命名实体识别任务,为下一步知识图谱的构建打下了基础。  相似文献   

14.
武国亮  徐继宁 《计算机应用》2021,41(7):1891-1896
针对基于双向长短期记忆网络-条件随机场(BiLSTM-CRF)的事件抽取模型仅能获取字粒度语义信息,可学习特征维度较低致使模型上限低的问题,以开放领域的中文公共突发事件数据为研究对象,提出了一种基于命名实体识别任务反馈增强的中文突发事件抽取方法FB-Latiice-BiLSTM-CRF。首先,将Lattice(点阵)机制融合双向长短期记忆(BiLSTM)网络作为模型的共享层,获取句子中的词语语义特征;其次,增加命名实体识别辅助任务,以联合学习和挖掘实体语义信息,同时将命名实体识别任务的输出反馈到输入端,提取其中实体对应的分词结果作为Lattice机制的外输入,以减少该机制自组词数量大带来的运算负荷并进一步强化对实体语义特征的提取;最后,通过最大化同方差不确定性的最大高斯似然估计方法计算模型总损失,从而解决多任务联合学习产生的损失不平衡问题。实验结果表明,FB-Latiice-BiLSTM-CRF在测试集上的准确率达到81.25%,召回率达到76.50%,F1值达到78.80%,较基准模型分别提升7.63、4.41和5.95个百分点,验证了该方法对基准模型改进的有效性。  相似文献   

15.
为解决现有知识库问答编码-比较框架的原始信息丢失问题,提出基于实体消岐和多粒度注意力的知识库问答方法.从多个粒度对问题和知识库关系的相关性进行建模,引入双向注意力机制更有效地聚合向量保留原始信息,实现关系检测中字符之间的细粒度对齐.为提高实体链接的准确率,融合双向长短时记忆网络-条件随机场(BiLSTM-CRF)克服对...  相似文献   

16.
现有多数中文知识图谱问答(CKBQA)系统侧重于回答单个三元组查询的简单问题,而不能有效解决涉及多个实体和关系的复杂问题。提出一种基于多标签策略进行答案搜索的CKBQA系统,该系统主要包括问题处理和答案搜索2个部分。在问题处理部分,结合预训练语言模型构建新的模型框架,对问题进行实体提及识别、实体链接和关系抽取处理,通过设置3种分类标签将问题划分为简单问题、链式问题和多实体问题。在答案搜索部分,对上述3种分类问题分别给出不同的解决方法。实验结果表明,该系统在CCKS2019-CKBQA评测数据验证集上的平均F1值可达66.76%。  相似文献   

17.
基于span的联合抽取模型在命名实体识别和关系抽取上取得了优异的效果.这些模型将文本span作为候选实体,并将span元组视为候选关系元组.span的语义表示在实体识别和关系分类中共享.然而现有基于span的模型无法很好地捕获这些候选实体和关系的语义,为了解决这些问题,提出了一种融合attention机制的span的联...  相似文献   

18.
针对电机领域命名实体识别困难、精度不高的问题,提出了一种基于BERT和多窗口门控CNN的电机领域命名实体识别模型。该模型首先利用BERT预训练模型生成句子的字向量序列,根据电机领域文本的上下文动态微调字向量,增强字向量的语义表达;其次,构建具有全局时序特征感知单元和多窗口门控CNN单元的双分支特征提取层,形成句子的多级语义特征表示;最后,通过CRF对字符序列进行解码,得到每个字符对应的标签。在小规模的自建电机领域数据集与多组模型进行的对比实验结果表明,该模型命名实体识别性能均优于其他模型,macro-F1值达到了90.16%,验证了该方法对电机领域实体识别的有效性。  相似文献   

19.
关系抽取是构建知识图谱的一项核心技术.由于中文具有复杂的语法和句式,同时现有的神经网络模型提取特征有限以及语义表征能力较差,从而影响中文实体关系抽取的性能.文章提出了一种融合多特征的BERT预训练模型的实体关系抽取算法.首先对语料进行预处理,提取关键词、实体对信息和实体类型特征并进行融合,以此来强化BERT模型的语义学习能力,极大限度地减少了语义信息特征的丢失,最后通过Softmax分类器进行关系分类.实验结果表明,文章模型优于现有的神经网络模型.在人工标注的中文数据集上本文模型取得了97.50%的F1值.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号