首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 187 毫秒
1.
在初等数学领域的命名实体识别(NER)中,针对传统命名实体识别方法中词嵌入无法表征一词多义以及特征提取过程中忽略部分局部特征的问题,提出一种基于BERT的初等数学文本命名实体识别方法——BERT-BiLSTM-IDCNN-CRF.首先,采用BERT进行预训练,然后将训练得到的词向量输入到双向长短期记忆(BiLSTM)网...  相似文献   

2.
为在模型训练期间保留更多信息, 用预训练词向量和微调词向量对双向长短期记忆网络(Bi-LSTM)神经模型进行扩展, 并结合协同训练方法来应对医疗文本标注数据缺乏的情况, 构建出改进模型CTD-BLSTM (Co-Training Double word embedding conditioned Bi-LSTM)用于医疗领域的中文命名实体识别. 实验表明, 与原始BLSTM与BLSTM-CRF相比, CTD-BLSTM模型在语料缺失的情况下具有更高的准确率和召回率, 能够更好地支持医疗领域知识图谱的构建以及知识问答系统的开发.  相似文献   

3.
许力  李建华 《计算机应用》2021,41(2):357-362
现有的生物医学命名实体识别方法没有利用语料中的句法信息,准确率不高.针对这一问题,提出基于句法依存分析的图网络生物医学命名实体识别模型.首先利用卷积神经网络(CNN)生成字符向量并将其与词向量拼接,然后将其送入双向长短期记忆(BiLSTM)网络进行训练;其次以句子为单位对语料进行句法依存分析,并构建邻接矩阵;最后将Bi...  相似文献   

4.
针对通用领域的命名实体识别算法难以充分挖掘到科技学术会议论文数据中语义信息的问题,提出一种结合关键词–字符长短期记忆网络和注意力机制的科技学术会议命名实体识别算法.首先对论文数据集中的关键词特征进行预训练,获得词汇层面的潜在语义信息,将其与字符级别的语义信息融合,解决错误的词汇边界影响识别准确率的问题.然后,将双向长短...  相似文献   

5.
在对文博数据进行知识图谱的构建时,从文本中抽取出有效的三元组尤为重要,因而命名实体识别成为挖掘文博数据的首要任务。传统的中文实体命名识别方法多采用深度神经网络模型,此类方法在对词进行向量化处理时只是将词映射成单一的词向量,并不能很好地表示词的多义性。预训练语言模型能够有效地对字进行向量化表示,将语义信息充分地结合。因此,针对文博数据提出一种基于BERT的预训练实体识别模型,采用BERT预训练模型进行词嵌入,通过利用双向长短期记忆网络(BiLSTM)模型结合上下文信息来增强词向量的语义信息,然后利用条件随机场(CRF)模型进行解码。与传统长短期记忆(LSTM)网络和BiLSTM-CRF模型相比,该模型在微软公开数据集(MSRA)以及自行标注文博知识数据集上表现突出,在文博知识数据集中,模型的准确率达到93.57%,召回率达到75.00%,F1值达到73.58%。  相似文献   

6.
中文命名实体识别是中文信息处理领域中的一项基本任务,能够为关系抽取、实体链接和知识图谱提供技术支持。与传统命名实体识别方法相比,基于双向长短期记忆(BiLSTM)神经网络模型在中文命名实体识别任务中获得了较好的效果。针对基于字词联合的BiLSTM-CRF模型存在特征提取不够准确的缺陷,在其基础上,引入Gated去噪机制,对输入字向量进行微调,自动学习过滤或者减少文本中不重要的字信息,保留对命名实体识别任务更有用的信息,进而提高命名实体的识别率。在Resume和Weibo数据集上的测试结果表明,该方法有效地提高了中文命名实体识别的效果。  相似文献   

7.
为了给群众提供免费且准确的法律咨询服务并降低咨询成本和律师服务成本,对基于知识图谱的法务问答系统进行了设计研究。系统构建基于BERT+BiLSTM+CRF的法律实体识别模型,对法律实体进行字符级抽取,将词向量技术、双向长短期记忆模型和条件随机场模型相结合,获得最优序列标注,为知识图谱构建和文本处理提供技术支持,并针对缺少法律咨询方面知识图谱的现状,构建了一个知识图谱,改善用户法律咨询的体验。  相似文献   

8.
针对电网调度领域实体识别准确率较低的问题,提出一种融合多头注意力机制和双向长短时记忆网络的电网调度领域中文命名实体识别方法。利用词向量表示电网调度语音识别后语句,并将生成的词向量序列输入双向长短时记忆网络(BiLSTM)挖掘其上下文语义特征,引入多头注意力机制重点关注文本中的实体词,挖掘其隐藏特征,同时通过条件随机场(CRF)计算序列标签的联合概率标注出实体识别结果。根据电网调度语音识别后文本特点自建标注数据集,并将电网调度语音识别文本中的命名实体细粒度划分为参数、设备、操作、系统、组织5个类别进行实验。其结果表明,该方法对电网调度领域实体识别具有更高的准确率和召回率,且F1值可达到93.63%,切实解决了电网调度领域实体识别任务中标注数据稀少和精度较低的问题,有助于电网调度领域知识图谱的构建。  相似文献   

9.
行业人物命名实体识别旨在从行业人物语料中抽取出有效的实体信息,是深度挖掘行业人物信息资源的基础性和关键性任务。由于主流的命名实体识别模型未充分利用词信息特征,导致在对具有特色的行业人物实体进行识别时语义、实体边界识别不准确。提出一种基于字词融合与对抗训练的行业人物实体识别模型。利用RoBERTa-wwm-ext预训练模型提取句子的字特征,并融合词典构造出句子的词特征。在字词融合的向量表示上添加扰动生成对抗样本,将融合向量表示与对抗样本作为训练数据输入双向长短期记忆神经网络(BiLSTM)学习上下文信息,并通过条件随机场(CRF)推理最优的序列标注结果。根据行业人物文本特点设计命名实体标注方案,构建数据集进行实验验证。实验结果表明,该模型在测试集上的精确率、召回率、F1值分别达到92.94%、94.35%、93.64%,相较于BERT-BiLSTM-CRF模型分别提升3.68、1.24、2.39个百分点。  相似文献   

10.
针对产业领域科技服务资源中存在专业术语复杂、实体边界识别困难及不能有效提取文本远距离语义特征的问题,提出了一种基于图卷积网络(GCN)的产业领域科技服务资源命名实体识别方法。对现有的BERT-BiLSTM-CRF方法进行改进。首先,通过额外加入辅助特征词性特征对BERT层获取的字符向量进行扩展补充,并通过多头注意力机制设置权重来获取字符间的语义信息;然后,在双向长短期记忆网络(BiLSTM)基础上融入图卷积网络,用于挖掘字符及字符间关系的结构信息,将BiLSTM提取到的特征表示与字符间的依存关系矩阵拼接融合,充分获取文本的全局特征。最后将GCN层获取的特征向量送入条件随机场(CRF)模型进行序列解码,选取出全局最优序列,即为实体识别的结果。实验结果表明,该方法优于传统的命名实体识别方法,可以提高产业领域科技服务资源命名实体识别的准确率。  相似文献   

11.
针对中文电子病历中命名实体识别和实体关系抽取研究方法中存在的问题,提出了一种基于双向长短时记忆网络(bidirectional long short term memory)与CRF(conditional random field)结合的实体识别和实体关系抽取方法。该方法首先使用词嵌入技术将文本转换为数值向量,作为神经网络BiLSTM的输入,再结合CRF链式结构进行序列标注,输出最大概率序列,并对识别结果知识图谱化。实验证明,该方法对中文电子病历进行实体识别和实体关系抽取时的准确率、召回率、◢F◣值有明显的提升。实验结果满足临床中系统应用需求,对帮助研究构建临床决策支持系统、个性化医疗推荐服务有引导作用。  相似文献   

12.
Biomedical event extraction is one of the most significant and challenging tasks in biome- dical text information extraction, which has attracted more attentions in recent years. The two most important subtasks in biomedical event extraction are trigger recognition and argument detection. Most of the preceding methods consider trigger recognition as a classification task but ignore the sentence-level tag information. Therefore, a sequence labeling model based on bidirectional long short-term memory (Bi-LSTM) and conditional random field (CRF) is constructed for trigger recognition, which separately uses the static pre-trained word embedding combined with character-level word representation and the dynamic contextual word representation based on the pre-trained language model as model inputs. Meanwhile, for the event argument detection task, a self-attention based multi-classification model is proposed to make full use of the entity and entity type features. The F1-scores of trigger recognition and overall event extraction are 81.65% and 60.04% respectively, and the experimental results show that the proposed method is effective for biomedical event extraction.  相似文献   

13.
旅游领域命名实体识别是旅游知识图谱构建过程中的关键步骤,与通用领域的实体相比,旅游文本的实体具有长度长、一词多义、嵌套严重的特点,导致命名实体识别准确率低。提出一种融合词典信息的有向图神经网络(L-CGNN)模型,用于旅游领域中的命名实体识别。将预训练词向量通过卷积神经网络提取丰富的字特征,利用词典构造句子的有向图,以生成邻接矩阵并融合字词信息,通过将包含局部特征的词向量和邻接矩阵输入图神经网络(GNN)中,提取全局语义信息,并引入条件随机场(CRF)得到最优的标签序列。实验结果表明,相比Lattice LSTM、ID-CNN+CRF、CRF等模型,L-CGNN模型在旅游和简历数据集上具有较高的识别准确率,其F1值分别达到86.86%和95.02%。  相似文献   

14.
命名实体识别是自然语言处理的一项重要技术,也是问答系统、句法分析、机器翻译等下游工作的基本任务.煤矿事故案例命名实体识别是构建煤矿安全生产知识图谱的关键环节,其效率和准确率直接影响后期知识图谱的质量.针对传统命名实体识别方法训练时间长、识别率低的问题及煤矿事故案例的描述特点,以自构的标注语料集CoalMineCorpu...  相似文献   

15.
现有的维吾尔文命名实体识别主要采用基于条件随机场的统计学习方法,但依赖于人工提取的特征工程和领域知识。针对该问题,该文提出了一种基于深度神经网络的学习方法,并引入不同的特征向量表示。首先利用大规模未标注语料训练的词向量模型获取每个单词具有语义信息的词向量;其次,利用Bi-LSTM提取单词的字符级向量;然后,利用直接串联法或注意力机制处理词向量和字符级向量,进一步获取联合向量表示;最后,用Bi-LSTM-CRF深度神经网络模型进行命名实体标注。实验结果表明,以基于注意力机制的联合向量表示作为输入的Bi-LSTM-CRF方法在维吾尔文命名实体识别上F值达到90.13%。  相似文献   

16.
近年来,网络安全威胁日益增多,数据驱动的安全智能分析成为网络安全领域研究的热点。特别是以知识图谱为代表的人工智能技术可为多源异构威胁情报数据中的复杂网络攻击检测和未知网络攻击检测提供支撑。网络安全实体识别是威胁情报知识图谱构建的基础。开放网络文本数据中的安全实体构成非常复杂,导致传统的深度学习方法难以准确识别。在BERT(pre-training of deep bidirectional transformers)预训练语言模型的基础上,提出一种基于残差空洞卷积神经网络和条件随机场的网络安全实体识别模型 BERT-RDCNN-CRF。通过BERT模型训练字符级特征向量表示,结合残差卷积与空洞神经网络模型有效提取安全实体的重要特征,最后通过CRF获得每一个字符的BIO标注。在所构建的大规模网络安全实体标注数据集上的实验表明,所提方法取得了比LSTM-CRF模型、BiLSTM-CRF模型和传统的实体识别模型更好的效果。  相似文献   

17.
为提高机构名识别精度,满足关系抽取等下游任务的需求,提出分阶段细粒度命名实体识别思想.利用Bert-BiLSTM-CRF模型对机构名进行粗粒度识别,将机构名视为短文本,采用Bert-CNN对构建的机构名词典训练细粒度分类模型,获取机构名的细粒度标签.实验结果表明,提出的分阶段方法在细粒度机构名识别上F1值最佳达到了0....  相似文献   

18.
当前中文命名实体识别方法仅采用字级别或词级别特征方法进行识别,不能兼顾字和词级别的优点,难以获取足够的字形或者词义信息。针对此问题,该文提出一种基于多级别特征感知网络的中文命名实体识别方法。首先提出一种双通道门控卷积神经网络,通过感知字级别特征,在减少了未登录词的同时,也表示了字的字形信息。同时,为了获取词语的词义信息,该文在词级别的特征中嵌入对应位置信息。为了赋予实体更多的权重,该文利用自注意力机制感知带有位置信息的词级别特征。进一步,将上述得到的字级别和词级别信息融合,全面表示句子的语义信息。由于采用字词结合的方法容易产生冗余信息,该文设计一种门控机制的Highway网络,来过滤冗余信息,减少冗余信息对命名实体识别的影响,再结合条件随机场学习到句子中的约束条件实现中文命名实体的识别。实验结果表明,该文所提出的方法总体上优于目前主流的中文命名实体识别方法。  相似文献   

19.
药用植物文本的命名实体识别对中医药领域的信息抽取和知识图谱构建起着重要作用。针对药用植物属性文本存在长序列语义稀疏的问题,提出一种基于注意力机制的双向长短时记忆网络(BiLSTM)和条件随机场(CRF)模型相结合的疾病实体识别方法(BiLSTM+ATT-CRF,BAC)。首先对药用植物属性文本进行预处理和半自动化标注构建数据集,并进行预训练得到低维词向量;然后将这些低维词向量输入BiLSTM网络中,得到双向语义依赖的特征向量;Attention层把注意力集中到与当前输出特征高度相关的信息上;最后通过条件随机场(CRF)算法获取最优的标签序列并解码输出。实验结果表明,BAC方法针对药用植物属性文本的长序列语义稀疏问题,疾病命名实体识别效果较传统方法更优。利用BAC方法训练好的模型从1680条文本句子中识别疾病命名实体,共抽取出1422个疾病实体。与药用植物名称进行匹配,共抽取出4316个药用植物治疗疾病的三元组数据。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号