首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
药用植物文本的命名实体识别对中医药领域的信息抽取和知识图谱构建起着重要作用。针对药用植物属性文本存在长序列语义稀疏的问题,提出一种基于注意力机制的双向长短时记忆网络(BiLSTM)和条件随机场(CRF)模型相结合的疾病实体识别方法(BiLSTM+ATT-CRF,BAC)。首先对药用植物属性文本进行预处理和半自动化标注构建数据集,并进行预训练得到低维词向量;然后将这些低维词向量输入BiLSTM网络中,得到双向语义依赖的特征向量;Attention层把注意力集中到与当前输出特征高度相关的信息上;最后通过条件随机场(CRF)算法获取最优的标签序列并解码输出。实验结果表明,BAC方法针对药用植物属性文本的长序列语义稀疏问题,疾病命名实体识别效果较传统方法更优。利用BAC方法训练好的模型从1680条文本句子中识别疾病命名实体,共抽取出1422个疾病实体。与药用植物名称进行匹配,共抽取出4316个药用植物治疗疾病的三元组数据。  相似文献   

2.
针对电网领域命名实体识别(NER)对人工标注的依赖问题,提出了一种面向电网设备故障报告的半监督命名实体识别方法Semi-supervised PGTBC.首先使用基于多头自注意力机制的深度自注意力网络进行特征抽取,然后结合双向长短记忆神经网络(BiLSTM)和条件随机场模型(CRF)建立电网领域命名实体识别模型,最后基于半监督思想,引入基于深度自注意力网络的实体类别综合描述相似度计算,结合PGTBC的置信度作为半监督阈值筛选依据,减少对电网设备故障报告实体标注的依赖.数据集使用来源于1256篇的电网故障报告的10301条标注样本数和30829条无标注样本数.在有标注电网领域数据上的实验结果表明,基于PGTBC模型的预测F1为96.43%,相对于传统的BiLSTM-CRF模型提高了7.09个百分点.在无标注样本上,半监督方法Semi-supervised PGTBC取得了93.16%的F1,相对半监督CRF模型的F1提高了23.4个百分点,并对无标注样本进行了自动标注,识别出1661条新实体,有效减少电网设备故障报告命名实体任务对人工标注的依赖.  相似文献   

3.
针对网购评论命名实体识别中重要词汇被忽略的问题,在评论短文本处理基础上,借鉴多头注意力机制、词汇贡献度和双向长短时记忆条件随机场提出一种基于MA-BiLSTM-CRF模型的网购评论命名实体识别方法。首先,用词向量和词性向量的组合来表示评论文本语义信息;其次,用BiLSTM提取文本特征;然后,引入多头注意力机制从多层面、多角度提升模型性能;最后,用条件随机场(CRF)识别命名实体。实验结果表明,该方法能提升网购评论实体识别效果。  相似文献   

4.
针对通用领域的命名实体识别算法难以充分挖掘到科技学术会议论文数据中语义信息的问题,提出一种结合关键词–字符长短期记忆网络和注意力机制的科技学术会议命名实体识别算法.首先对论文数据集中的关键词特征进行预训练,获得词汇层面的潜在语义信息,将其与字符级别的语义信息融合,解决错误的词汇边界影响识别准确率的问题.然后,将双向长短...  相似文献   

5.
针对产业领域科技服务资源中存在专业术语复杂、实体边界识别困难及不能有效提取文本远距离语义特征的问题,提出了一种基于图卷积网络(GCN)的产业领域科技服务资源命名实体识别方法。对现有的BERT-BiLSTM-CRF方法进行改进。首先,通过额外加入辅助特征词性特征对BERT层获取的字符向量进行扩展补充,并通过多头注意力机制设置权重来获取字符间的语义信息;然后,在双向长短期记忆网络(BiLSTM)基础上融入图卷积网络,用于挖掘字符及字符间关系的结构信息,将BiLSTM提取到的特征表示与字符间的依存关系矩阵拼接融合,充分获取文本的全局特征。最后将GCN层获取的特征向量送入条件随机场(CRF)模型进行序列解码,选取出全局最优序列,即为实体识别的结果。实验结果表明,该方法优于传统的命名实体识别方法,可以提高产业领域科技服务资源命名实体识别的准确率。  相似文献   

6.
针对电机领域实体识别精度较低的问题,提出一种融合BERT预训练语言模型的中文命名实体识别方法。利用BERT预训练语言模型增强字的语义表示并按照上下文特征动态生成字向量,将字向量序列输入双向长短期记忆神经网络进行双向编码,同时通过条件随机场算法标注出实体识别结果。根据电机文本特点对自建数据集进行标注,并将电机领域实体划分为实物、特性描述、问题/故障、方法/技术等4个类别。实验结果表明,与基于BiLSTM-CRF、BiLSTM-CNN和BiGRU的实体识别方法相比,该方法具有更高的准确率、召回率和F1值,并且有效解决了电机领域命名实体识别任务中标注数据不足及实体边界模糊的问题。  相似文献   

7.
命名实体识别是构建知识图谱的重要阶段。基于国军标及软件测试文档,完成了实体类型分类以及数据集的构建和标注。在软件测试领域,针对字词联合实体识别方法准确率不高的问题,进行字符级特征提取方法的改进,提出了CWA-BiLSTM-CRF识别框架。该框架包含两部分:第一部分构建预训练的字词融合字典,将字词一起输入给双向长短期记忆网络进行训练,并加入注意力机制衡量词内各字对特征的语义贡献,提取出字符级特征;第二部分将字符级特征与词向量等特征进行拼接,输入给双向长短期记忆网络进行训练,再通过条件随机场解决标签结果序列不合理的问题,识别出文中的实体。实验结果分别与三种常用的深度学习字符级特征提取方法进行比较,准确率和召回率均有提升,最优F1值为88.93%。实验表明,改进后的方法适用于军用软件测试领域命名实体识别任务,为下一步知识图谱的构建打下了基础。  相似文献   

8.
为了充分发掘中文简历数据中所蕴含的信息,提高构建社交网络知识图谱和档案知识图谱的实体丰富度,提出了基于BERT的中文简历命名实体识别技术.该技术模型首先通过BERT网络将大规模未标注文本生成具有语义特征的字符向量,接着通过嵌入条件随机场(CRF)的双向长短时记忆(BiLSTM)神经网络模型获取输入文本序列的上下文特征,解码标注提取出相应的8个实体类型.实验结果表明,该网络模型在个人中文简历数据集上取得了97.07%的平均F1值,可以运用于中文简历数据的实体识别任务.  相似文献   

9.
为在模型训练期间保留更多信息, 用预训练词向量和微调词向量对双向长短期记忆网络(Bi-LSTM)神经模型进行扩展, 并结合协同训练方法来应对医疗文本标注数据缺乏的情况, 构建出改进模型CTD-BLSTM (Co-Training Double word embedding conditioned Bi-LSTM)用于医疗领域的中文命名实体识别. 实验表明, 与原始BLSTM与BLSTM-CRF相比, CTD-BLSTM模型在语料缺失的情况下具有更高的准确率和召回率, 能够更好地支持医疗领域知识图谱的构建以及知识问答系统的开发.  相似文献   

10.
针对中文电子病历中命名实体识别和实体关系抽取研究方法中存在的问题,提出了一种基于双向长短时记忆网络(bidirectional long short term memory)与CRF(conditional random field)结合的实体识别和实体关系抽取方法。该方法首先使用词嵌入技术将文本转换为数值向量,作为神经网络BiLSTM的输入,再结合CRF链式结构进行序列标注,输出最大概率序列,并对识别结果知识图谱化。实验证明,该方法对中文电子病历进行实体识别和实体关系抽取时的准确率、召回率、◢F◣值有明显的提升。实验结果满足临床中系统应用需求,对帮助研究构建临床决策支持系统、个性化医疗推荐服务有引导作用。  相似文献   

11.
临床电子病历命名实体识别(Clinical Named Entity Recognition,CNER)的主要任务是对给定的一组电子病历文档进行识别并抽取出与医学临床相关的命名实体,然后将它们归类到预先定义好的类别中,如疾病、症状、检查等实体。命名实体识别任务通常被看作一个序列标注问题。目前,深度学习方法已经被广泛应用于该任务并取得了非常好的效果。但其中大部分方法未能有效利用大量的未标注数据;并且目前使用的特征相对简单,未能深入捕捉病历文本自身的特征。针对这两个问题,文中提出一种融入语言模型和注意力机制的深度学习方法。该方法首先从未标注的临床医疗数据中训练字符向量和语言模型,然后利用标注数据来训练标注模型。具体地,将句子的向量表示送入一个双向门控循环网络(Bidirectional Gated Recurrent Units,BiGRU)和预训练好的语言模型,并将两部分的输出进行拼接。之后,将前一层的拼接向量输入另一个BiGRU和多头注意力(Multi-head Attention)模块。最后,将BiGRU和多头注意力模块的输出进行拼接并输入条件随机场(Conditional Rand...  相似文献   

12.
命名实体识别是自然语言处理中的重要任务,且中文命名实体识别相比于英文命名实体识别任务更具难度。传统中文实体识别模型通常基于深度神经网络对文本中的所有字符打上标签,再根据标签序列识别命名实体,但此类基于字符的序列标注方式难以获取词语信息。提出一种基于Transformer编码器的中文命名实体识别模型,在字嵌入过程中使用结合词典的字向量编码方法使字向量包含词语信息,同时针对Transformer编码器在注意力运算时丢失字符相对位置信息的问题,改进Transformer编码器的注意力运算并引入相对位置编码方法,最终通过条件随机场模型获取最优标签序列。实验结果表明,该模型在Resume和Weibo中文命名实体识别数据集上的F1值分别达到94.7%和58.2%,相比于基于双向长短期记忆网络和ID-CNN的命名实体识别模型均有所提升,具有更优的识别效果和更快的收敛速度。  相似文献   

13.
在对文博数据进行知识图谱的构建时,从文本中抽取出有效的三元组尤为重要,因而命名实体识别成为挖掘文博数据的首要任务。传统的中文实体命名识别方法多采用深度神经网络模型,此类方法在对词进行向量化处理时只是将词映射成单一的词向量,并不能很好地表示词的多义性。预训练语言模型能够有效地对字进行向量化表示,将语义信息充分地结合。因此,针对文博数据提出一种基于BERT的预训练实体识别模型,采用BERT预训练模型进行词嵌入,通过利用双向长短期记忆网络(BiLSTM)模型结合上下文信息来增强词向量的语义信息,然后利用条件随机场(CRF)模型进行解码。与传统长短期记忆(LSTM)网络和BiLSTM-CRF模型相比,该模型在微软公开数据集(MSRA)以及自行标注文博知识数据集上表现突出,在文博知识数据集中,模型的准确率达到93.57%,召回率达到75.00%,F1值达到73.58%。  相似文献   

14.
植物属性文本的命名实体识别对林业领域的信息抽取和知识图谱的构建起着重要的作用,针对该问题,提出了一种基于双向长短时记忆网络(BiLSTM)、卷积神经网络(CNN)和条件随机场(CRF)模型的植物属性文本命名实体识别方法 BCC-P。分析了植物属性文本的特点,并进行预处理和标注,完成数据集的构建。BCC-P方法通过BiLSTM模型对植物属性文本进行建模,有效捕捉植物属性文本中的上下文语义特征。将获得的特征传递到CNN模型,进一步提取深度特征。最后使用了CRF模型进行植物属性文本的标注,输出在句子序列上最优的标注结果。在植物属性文本语料上的实验表明,该方法的准确率达到了91.8%,因此能够有效应用于植物属性文本的命名实体识别任务。  相似文献   

15.
针对在试油气井控专业领域的命名实体识别任务中,由于没有足够的特征标注数据,使得传统通用领域模型无法高效地进行专业的试油气井控专业领域的命名实体识别的问题,提出了一个基于主动学习方法的试油气井控专业领域命名实体识别模型。该模型首先采用对BERT模型进行的条件预训练,在获取名词向量特性信息后进入双向长短期记忆网络(BiLSTM)中,然后再将输出的特征信息经过条件随机场(CRF)对序列标签的相关性进行约束,最后采用主动学习的方法,筛选出合格的样本进行自动标注后放入已标注数据集中,增加训练样本。实验结果表明在多次迭代训练后,该模型可以在少量标注数据的基础上获得较好的命名实体识别效果并获得较高的命名实体识别准确率。  相似文献   

16.
神经网络模型可以有效地处理通用领域命名实体识别,然而在标注语料匮乏和包含大量噪声的特定领域,其性能通常会下降.针对这一问题,提出一种迁移学习神经网络模型TL-BiLSTM-CRF.利用双向长短时记忆网络提取具有字符级别形态特征的字符向量,结合具有语义、语序等特征信息的词向量作为输入,构建基本模型;在基本模型中引入词适应...  相似文献   

17.
近年来, 数字人文受到广泛关注, 数字人文环境下的词命名实体识别研究日渐兴起, 但鲜有研究从字特征的特征表示能力、分词的准确性、领域知识的有效性等方面进行探究. 鉴于此, 针对汉字的象形文字特点和词文本的特殊性, 在字特征的基础上, 引入部首特征、格律特征和声韵特征, 提出特征增强单元和特征抽取单元, 并将词牌知识三元组通过ANALOGY得到的知识向量表示为词牌知识向量, 通过双向长短时记忆网络、注意力机制等模型将部首向量、字向量、格律向量、声韵向量、词牌知识向量进行深度融合, 最终构建出融入多特征的词命名实体识别方法. 在《花间集全译》自制语料上的对比实验和消融实验的结果表明, 本文所提方法能够有效利用多特征提升词命名实体识别性能. 其F1值达到了85.63%, 完成了词命名实体识别任务.  相似文献   

18.
在生物医学文本挖掘领域,化学药物命名实体识别具有重要意义.目前的主流方法是基于条件随机场(conditional random fields, CRF)的方法,但是该方法需要大量的人工特征,并且存在实体标签的全文非一致性问题.针对此问题,提出一种基于注意(Attention)机制的深度学习方法.该方法首先从海量生物文本中学习词向量,然后利用双向长短期记忆网络(BiLSTM)学习字符向量,随后将词向量和字符向量再经过另一个BiLSTM以获得词的上下文表示,然后再利用Attention机制获得词在全文范围下的上下文表示,最后利用CRF层得到整篇文章的标签序列.实验结果表明:相比之前的研究方法,提高了在同一篇文章中实体识别的一致性,并在BioCreative IV评测中的CHEMDNER数据集上取得了更好的结果(F值为90.77%).  相似文献   

19.
韩玉民  郝晓燕 《计算机应用》2022,42(6):1862-1868
准确识别命名实体有助于构建专业知识图谱、问答系统等。基于深度学习的命名实体识别(NER)技术已广泛应用于多种专业领域,然而面向材料领域的NER研究相对较少。针对材料领域NER中可用于监督学习的数据集规模小、实体词复杂度高等问题,使用大规模非结构化的材料领域文献数据来训练基于一元语言模型(ULM)的子词嵌入分词模型,并充分利用单词结构蕴含的信息来增强模型鲁棒性;提出以BiLSTM-CRF模型(双向长短时记忆网络与条件随机场结合的模型)为基础并结合能够感知方向和距离的相对多头注意力机制(RMHA)的实体识别模型,以提高对关键词的敏感程度。得到的BiLSTM-RMHA-CRF模型结合ULM子词嵌入方法,相比BiLSTM-CNNs-CRF和SciBERT等模型,在固体氧化物燃料电池(SOFC)NER数据集上的宏平均F1值(Macro F1值)提高了2~4个百分点,在SOFC细粒度实体识别数据集上的Macro F1值提高了3~8个百分点。实验结果表明,基于子词嵌入和相对注意力的识别模型能够有效提高材料领域实体的识别准确率。  相似文献   

20.
针对电力集控安全隐患文本实体边界模糊、常用实体识别模型识别准确率低的问题,提出了一种融合注意力机制与基于Transformer的双向编码器表示(BERT)-双向长短时记忆(BiLSTM)-条件随机场(CRF)的电力集控安全隐患数据实体识别模型。首先,利用BERT层将安全隐患文本编码表示为融合上下文语义的字位置和句位置的向量表示组,以减少实体识别误差积累。然后,提出了BiLSTM网络层挖掘电力集控隐患文本的语义特征并进行标签概率预测,在此基础上加入注意力机制增加重要信息的权重,提高重要信息对安全隐患语义信息的影响程度。最后,利用CRF层为标注结果进行综合打分,得到全局最优标签序列。在不同的电力安全隐患实体信息类别上的对比试验显示,所提模型的准确率为97.54%、召回率为96.47%、F值为97.13%,与传统算法相比总体效果提升了5%~21%。该结果证明了电力集控安全隐患实体识别模型的有效性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号