首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 156 毫秒
1.
当前大多数实体关系抽取方法无法获取较长句子中的远距离依赖信息,并且由于远程监督数据噪声的干扰导致关系抽取性能下降。因此本文提出一种基于双向长短期记忆网络(BiLSTM)和残差卷积神经网络(ResCNN)的实体关系抽取模型,该模型在向量表示阶段采用BiLSTM获取词语的上下文信息向量,利用残差网络将卷积神经网络中低层的特征传递到高层,有效解决梯度消失问题。同时将挤压-激励块嵌入残差网络中,能大幅降低数据噪声,强化特征传递,在池化阶段采用分段最大化池化方法来捕捉实体对的结构信息。设计在NYT-Freebase数据集上的验证实验,实验结果表明,该模型能够充分学习特征,显著提升实体关系抽取的效果。  相似文献   

2.
远程监督关系抽取方法能够大幅减少标注成本,但现有方法忽略了关系间的关联信息和实体背景知识。结合实体描述信息提出一种新的跨句包关系抽取方法。引入分段卷积神经网络进行句编码,解决特征提取的误差传播问题。同时设计跨关系跨句包注意力机制获取关系特征,更好地从远程监督的噪声数据中鉴别有效实例,从而充分利用关系之间丰富的相关信息并降低噪音句子的影响。在此基础上,利用卷积神经网络提取实体描述信息,补充关系抽取任务所需的背景知识,为跨关系跨句包注意力模块提供更好的实体表示。在NYT公共数据集上的实验结果表明,该方法在句子层面抽取任务上的F1值较结合句注意力与实体描述信息的分段卷积方法提高了4%左右,能够有效改善远程监督关系抽取效果。  相似文献   

3.
远程监督关系抽取可以在非人工标注条件下自动构建数据集,但同时会产生错误标注。针对错误标注问题,提出一种基于实体注意力和负训练的远程监督噪声过滤方法。首先使用BERT预训练语言模型或双向长短期记忆(BiLSTM)神经网络提取句子和实体的特征,然后通过计算实体和句子中每个词之间的相关性,作为头实体和尾实体的注意力权重,接着使用负训练的方式准确捕获噪声数据的关键特征,最后通过基于预测值的动态阈值函数过滤噪声数据,并根据样本的最大预测值对过滤出的噪声数据重新进行正确标注。在人工智能领域数据集上进行实验:所提方法在使用BERT预训练语言模型提取句子和实体特征时,相比SENTBERT,F1值获得了2.23个百分点的提升;当使用BiLSTM提取句子和实体特征时,相比SENTBiLSTM,F1值获得了2.53个百分点的提升。实验结果验证了所提方法能更有效地过滤远程监督产生的噪声数据。  相似文献   

4.
远程监督关系抽取是自然语言处理领域的重要任务之一.由于识别实体关系的任务是在句子级别进行的,注意力机制分配权重可能存在误差,且现有深度学习模型常采用卷积神经网络进行最终关系分类,并不能充分利用标记实体的位置信息.本文提出了一种结合注意力及胶囊网络的多通道关系抽取模型(BG-AMC),该模型首先通过双向GRU神经网络对句子词向量进行编码以获取句子的高维语义,接着利用注意力机制辅助生成句子的多通道表示,最后采用胶囊网络进行关系分类.多通道中的每个通道在递归传播时互不影响,可以使神经网络学习到同一句子的多种表示形式,以减轻句子歧义,胶囊网络可获取到句子实体的位置信息.实验表明,BG-AMC与其他基线模型对比能够提高远程监督关系抽取的效果.  相似文献   

5.
针对目前大多数关系抽取中对于文本语料中较长的实体共现句,往往只能获取到局部的特征,并不能学习到长距离依赖信息的问题,提出了一种基于循环卷积神经网络与注意力机制的实体关系抽取模型。将擅长处理远距离依赖关系的循环神经网络GRU加入到卷积神经网络的向量表示阶段,通过双向GRU学习得到词语的上下文信息向量,在卷积神经网络的池化层采取分段最大池化方法,在获取实体对结构信息的同时,提取更细粒度的特征信息,同时在模型中加入基于句子级别的注意力机制。在NYT数据集的实验结果表明提出方法能有效提高实体关系抽取的准确率与召回率。  相似文献   

6.
实体关系抽取是构建知识图谱的主要任务之一,旨在确定句子中实体之间的关系类别.远程监督关系抽取方法通过将远程知识库与文本数据对齐来自动标记数据,已成为处理关系抽取任务的主要方式.为解决远程关系抽取不能充分利用单词之间的位置关系信息,并且没有考虑重叠关系之间语义相关性的问题,本文提出一种融合位置特征注意力和关系增强机制的远程监督关系抽取模型.该模型使用基于高斯算法的位置特征注意力机制重新分配句子中单词的权重,并且采用分段卷积神经网络和词级注意力来捕获句子特征.然后,利用基于自注意力的关系增强机制来捕获重叠关系之间的语义关联.在NYT10公共数据集上的实验结果表明,本文模型的性能优于所比较的基线关系抽取模型.  相似文献   

7.
实体关系抽取旨在从无结构的文档中检测出实体和实体对的关系,是构建领域知识图谱的重要步骤。针对现有抽取模型语义表达能力差、重叠三元组抽取准确率低的情况,研究了融合预训练模型和注意力的实体关系联合抽取问题,将实体关系抽取任务分解为两个标记模块。头实体标记模块采用预训练模型对句子进行编码,为了进一步学习句子的内在特征,利用双向长短时记忆网络(BiLSTM)和自注意力机制组成特征加强层。采用二进制分类器作为模型的解码器,标记出头实体在句子中的起止位置。为了加深两个标记模块之间的联系,在尾实体标记任务前设置特征融合层,将头实体特征与句子向量通过卷积神经网络(CNN)和注意力机制进行特征融合,通过多个相同且独立的二进制分类器判定实体间关系并标记尾实体,构建出融合预训练模型和注意力的联合抽取模型(JPEA)。实验结果表明,该方法能显著提升抽取的效果,对比不同预训练模型下抽取任务的性能,进一步说明了模型的优越性。  相似文献   

8.
在远程监督(Distant Supervision,DS)实体关系抽取任务中,采用远程监督的方式虽然可以产生大量的标注数据,但是这种方法产生的数据集充满大量的噪声数据,从而会降低关系抽取的性能.为此,我们针对现有深度学习使用浅层和单一深层神经网络模型提取特征的局限,设计了一个融合注意力机制的密集连接卷积神经网络模型——DenseCNN-ATT,该模型采用五层卷积深度的CNN,构成密集连接卷积模块作为句子编码器,通过增加特征通道数量来提高特征传递,减少了特征梯度的消失现象;此外,为进一步减少噪声影响,论文将网络的最大池化结果融合注意力机制,通过强调句子权重,来提升关系抽取性能.该模型在NYT数据集上的平均准确率达到了83.2%,相比于目前效果较好的浅层网络PCNN+ATT和深层网络ResCNN-9提升了9%~11%.实验证明,该模型能够充分利用有效的实例关系,在综合性能上明显优于目前效果较好的主流模型.  相似文献   

9.
为更好解决卷积神经网络提取特征不充分,难以处理长文本结构信息和捕获句子语义关系等问题,提出一种融合CNN和自注意力BiLSTM的并行神经网络模型TC-ABlstm.对传统的卷积神经网络进行改进,增强对文本局部特征的提取能力;设计结合注意力机制的双向长短期记忆神经网络模型来捕获文本上下文相关的全局特征;结合两个模型提取文...  相似文献   

10.
关系抽取任务是对句子中的实体对进行关系分类。基于远程监督的关系抽取是用预先构建的知识库来对齐朴素文本,自动标注数据,在一定程度上减少了人工标注的成本,缓解了藏文材料语料不足的问题。但是基于远程监督的实体关系抽取还存在错误标记、提取特征时出现噪声等问题。该文用远程监督方法进行藏文实体关系抽取,基于已经构建的藏文知识库,利用分段卷积神经网络结构,加入语言模型和注意力机制来改善语义歧义问题以及学习句子的信息;在训练过程中加入联合得分函数来动态修正错误标签问题。实验结果表明改进的模型有效提高了藏文实体关系抽取的准确率,且优于基线模型效果。  相似文献   

11.
药用植物文本的命名实体识别对中医药领域的信息抽取和知识图谱构建起着重要作用。针对药用植物属性文本存在长序列语义稀疏的问题,提出一种基于注意力机制的双向长短时记忆网络(BiLSTM)和条件随机场(CRF)模型相结合的疾病实体识别方法(BiLSTM+ATT-CRF,BAC)。首先对药用植物属性文本进行预处理和半自动化标注构建数据集,并进行预训练得到低维词向量;然后将这些低维词向量输入BiLSTM网络中,得到双向语义依赖的特征向量;Attention层把注意力集中到与当前输出特征高度相关的信息上;最后通过条件随机场(CRF)算法获取最优的标签序列并解码输出。实验结果表明,BAC方法针对药用植物属性文本的长序列语义稀疏问题,疾病命名实体识别效果较传统方法更优。利用BAC方法训练好的模型从1680条文本句子中识别疾病命名实体,共抽取出1422个疾病实体。与药用植物名称进行匹配,共抽取出4316个药用植物治疗疾病的三元组数据。  相似文献   

12.
许力  李建华 《计算机应用》2021,41(2):357-362
现有的生物医学命名实体识别方法没有利用语料中的句法信息,准确率不高.针对这一问题,提出基于句法依存分析的图网络生物医学命名实体识别模型.首先利用卷积神经网络(CNN)生成字符向量并将其与词向量拼接,然后将其送入双向长短期记忆(BiLSTM)网络进行训练;其次以句子为单位对语料进行句法依存分析,并构建邻接矩阵;最后将Bi...  相似文献   

13.
袁泉  薛书鑫 《计算机应用》2022,42(10):3040-3045
An improved algorithm based on residual shrinkage network with soft threshold module was proposed to solve the problem of noise caused by interference between words within a sentence in relation extraction. Firstly, the threshold was trained in each feature channel of the residual network. The threshold had two characteristics: first, its absolute value would not be too large, if it was too large, effective information would be eliminated; second, the threshold had different results for different input training. Secondly, according to the characteristics of soft threshold, the channel features lower than the threshold were deleted, and those higher than the threshold were reduced. Compared with direct deletion of negative features, soft threshold was able to save useful information of negative features. Finally, an optimization model of attention module was added to reduce the influence of mislabeling problem in distant supervision. Piecewise Convolutional Neural Network (PCNN), Bi-directional Long Short-Term Memory (BiLSTM) network and ordinary Residual Network (ResNet) were selected as baseline models for comparison experiments. Experimental results show that the precision-recall curves of the proposed model include the curves of other models and the F1 scores of the proposed model are increased by 6.0 percentage points, 3.9 percentage points and 1.4 percentage points respectively compared to the baseline models, which verifies that addition of soft thresholding network model can improve accuracy of relation extraction by reducing in-sentence noise.  相似文献   

14.
电力客服工单数据以文本形式记录电力用户的需求信息,合理的工单分类方法有利于准确定位用户需求,提升电力系统的运行效率.针对工单数据特征稀疏、依赖性强等问题,本文对基于字符级嵌入的长短时记忆网络(Bidirectional Long Short-Term Memory network,BiLSTM)和卷积神经网络(Conv...  相似文献   

15.
针对传统实体关系标注方法存在效率低下、错误传播、实体冗余等问题,对于某些领域语料中存在“一实体(主实体)同时与多个实体之间存在重叠关系”的特点,提出一种面向领域实体关系联合抽取的新标注方法。首先,将主实体标注为一个固定标签,将文本中与主实体存在关系的其他每个实体标注为对应实体对间的关系类型,这种对实体和关系进行同步标注的方式节省了至少一半的标注成本;然后,直接对三元组进行建模,而不是分别对实体和关系进行建模,通过标签匹配和映射即可获取三元组数据,从而缓解重叠关系抽取、实体冗余以及错误传播等问题;最后,以作物病虫害领域为例进行实验,测试了来自转换器的双向编码器表征量(BERT)-双向长短期记忆网络(BiLSTM)+条件随机场(CRF)端到端模型在1 619条作物病虫害文档的数据集上的性能。实验结果表明该模型的F1值比基于传统标注方式+BERT模型的流水线方法提高了47.83个百分点;与基于新标注方式+BiLSTM+CRF模型、卷积神经网络(CNN)+BiLSTM+CRF等经典模型的联合学习方法相比,该模型的F1值分别提高了9.55个百分点和10.22个百分点,验证了所提标注方法和模型的有效性。  相似文献   

16.
语言优美是学生写作能力中重要的一部分。该文提出一个面向作文自动评分的作文优美句识别任务,主要识别中学生中文作文中的优美句。相比传统文本分类任务,优美句识别更加难以用特征工程的方式解决。因此,该文提出一种基于卷积神经网络(CNN)和双向长短时记忆(BiLSTM)网络的混合神经网络结构进行优美句识别,并和CNN、BiLSTM网络进行了对比。实验证明,混合神经网络的准确率最高,达到89.23%,F1值与BiLSTM相当,达到75.39%。此外,该文将优美句子特征用于作文自动评分任务,可使计算机评分和人工评分的大分差比例下降21.41%。  相似文献   

17.
针对现有融合知识图谱和隐私保护的推荐方法不能有效平衡差分隐私(DP)噪声与推荐系统性能的问题,提出了一种融合知识图谱和隐私保护的新闻推荐方法(KGPNRec)。首先,采用多通道知识感知的卷积神经网络(KCNN)模型融合新闻标题、知识图谱中实体和实体上下文等多维度的特征向量,以提高推荐的准确度;其次,利用注意力机制为不同敏感程度的特征向量添加不同程度的噪声,从而降低噪声对数据分析的影响;然后,对加权的用户特征向量添加统一的拉普拉斯噪声,以保证用户数据的安全性;最后,在真实的新闻数据集上进行实验分析。实验结果表明,与隐私保护的多任务推荐方法(PPMTF)和基于深度知识感知网络(DKN)的推荐方法等相比,所提KGPNRec在保护用户隐私的同时能保证方法的预测性能。在Bing News数据集上,所提方法的曲线下面积(AUC)值、准确率和F1分数与PPMTF相比分别提高了0.019、0.034和0.034。  相似文献   

18.
基于BiLSTM-CNN串行混合模型的文本情感分析   总被引:1,自引:0,他引:1  
针对现有文本情感分析方法准确率不高、实时性不强以及特征提取不充分的问题,构建了双向长短时记忆神经网络和卷积神经网络(BiLSTM-CNN)的串行混合模型。首先,利用双向循环长短时记忆(BiLSTM)神经网络提取文本的上下文信息;然后,对已提取的上下文特征利用卷积神经网络(CNN)进行局部语义特征提取;最后,使用Softmax得出文本的情感倾向。通过与CNN、长短时记忆神经网络(LSTM)、BiLSTM等单一模型对比,所提出的文本情感分析模型在综合评价指标F1上分别提高了2.02个百分点、1.18个百分点和0.85个百分点;与长短时记忆神经网络和卷积神经网络(LSTM-CNN)、BiLSTM-CNN并行特征融合等混合模型对比,所提出的文本情感分析模型在综合评价指标F1上分别提高了1.86个百分点和0.76个百分点。实验结果表明,基于BiLSTM-CNN的串行混合模型在实际应用中具有较大的价值。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号