首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 171 毫秒
1.
结合语言模型条件随机场(CRF)和双向长短时记忆(BiLSTM)网络,构建一种BiLSTM-CRF模型,以提取商情文本序列中的招标人、招标代理以及招标编号3类实体信息。将规范化后的招标文本序列按字进行向量化,利用BiLSTM神经网络获取序列化文本的前向、后向文本特征,并通过CRF提取出双向本文特征中相应的实体。实验结果表明,与传统机器学习算法CRF相比,该模型3类实体的精确率、召回率和F1值平均提升15.21%、12.06%和13.70%。  相似文献   

2.
植物属性文本的命名实体识别对林业领域的信息抽取和知识图谱的构建起着重要的作用,针对该问题,提出了一种基于双向长短时记忆网络(BiLSTM)、卷积神经网络(CNN)和条件随机场(CRF)模型的植物属性文本命名实体识别方法 BCC-P。分析了植物属性文本的特点,并进行预处理和标注,完成数据集的构建。BCC-P方法通过BiLSTM模型对植物属性文本进行建模,有效捕捉植物属性文本中的上下文语义特征。将获得的特征传递到CNN模型,进一步提取深度特征。最后使用了CRF模型进行植物属性文本的标注,输出在句子序列上最优的标注结果。在植物属性文本语料上的实验表明,该方法的准确率达到了91.8%,因此能够有效应用于植物属性文本的命名实体识别任务。  相似文献   

3.
药用植物文本的命名实体识别对中医药领域的信息抽取和知识图谱构建起着重要作用。针对药用植物属性文本存在长序列语义稀疏的问题,提出一种基于注意力机制的双向长短时记忆网络(BiLSTM)和条件随机场(CRF)模型相结合的疾病实体识别方法(BiLSTM+ATT-CRF,BAC)。首先对药用植物属性文本进行预处理和半自动化标注构建数据集,并进行预训练得到低维词向量;然后将这些低维词向量输入BiLSTM网络中,得到双向语义依赖的特征向量;Attention层把注意力集中到与当前输出特征高度相关的信息上;最后通过条件随机场(CRF)算法获取最优的标签序列并解码输出。实验结果表明,BAC方法针对药用植物属性文本的长序列语义稀疏问题,疾病命名实体识别效果较传统方法更优。利用BAC方法训练好的模型从1680条文本句子中识别疾病命名实体,共抽取出1422个疾病实体。与药用植物名称进行匹配,共抽取出4316个药用植物治疗疾病的三元组数据。  相似文献   

4.
针对传统实体关系标注方法存在效率低下、错误传播、实体冗余等问题,对于某些领域语料中存在“一实体(主实体)同时与多个实体之间存在重叠关系”的特点,提出一种面向领域实体关系联合抽取的新标注方法。首先,将主实体标注为一个固定标签,将文本中与主实体存在关系的其他每个实体标注为对应实体对间的关系类型,这种对实体和关系进行同步标注的方式节省了至少一半的标注成本;然后,直接对三元组进行建模,而不是分别对实体和关系进行建模,通过标签匹配和映射即可获取三元组数据,从而缓解重叠关系抽取、实体冗余以及错误传播等问题;最后,以作物病虫害领域为例进行实验,测试了来自转换器的双向编码器表征量(BERT)-双向长短期记忆网络(BiLSTM)+条件随机场(CRF)端到端模型在1 619条作物病虫害文档的数据集上的性能。实验结果表明该模型的F1值比基于传统标注方式+BERT模型的流水线方法提高了47.83个百分点;与基于新标注方式+BiLSTM+CRF模型、卷积神经网络(CNN)+BiLSTM+CRF等经典模型的联合学习方法相比,该模型的F1值分别提高了9.55个百分点和10.22个百分点,验证了所提标注方法和模型的有效性。  相似文献   

5.
为了充分发掘中文简历数据中所蕴含的信息,提高构建社交网络知识图谱和档案知识图谱的实体丰富度,提出了基于BERT的中文简历命名实体识别技术.该技术模型首先通过BERT网络将大规模未标注文本生成具有语义特征的字符向量,接着通过嵌入条件随机场(CRF)的双向长短时记忆(BiLSTM)神经网络模型获取输入文本序列的上下文特征,解码标注提取出相应的8个实体类型.实验结果表明,该网络模型在个人中文简历数据集上取得了97.07%的平均F1值,可以运用于中文简历数据的实体识别任务.  相似文献   

6.
在线评论文本具有口语化的特点,其评价词缺少对应的评价对象,影响了细粒度情感分析的效果。为此,提出一种利用深度学习自动识别评价对象的方法。设计研究领域的文本序列标注规范,在对评论语料分词后,进行评价词与评价对象的命名实体标注,得到单词序列、词性序列和标注序列。将单词序列、词性序列转为神经网络语言模型的词向量,并用循环神经网络进行训练,采用条件随机场(CRF)输出评价对象标签,得到缺失的评价对象。实验结果表明,与单一CRF模型相比,BiLSTM+CRF模型和BiGRU+CRF模型的识别效果较好,BiGRU+CRF模型的F1值最高可达0.84。  相似文献   

7.
针对在试油气井控专业领域的命名实体识别任务中,由于没有足够的特征标注数据,使得传统通用领域模型无法高效地进行专业的试油气井控专业领域的命名实体识别的问题,提出了一个基于主动学习方法的试油气井控专业领域命名实体识别模型。该模型首先采用对BERT模型进行的条件预训练,在获取名词向量特性信息后进入双向长短期记忆网络(BiLSTM)中,然后再将输出的特征信息经过条件随机场(CRF)对序列标签的相关性进行约束,最后采用主动学习的方法,筛选出合格的样本进行自动标注后放入已标注数据集中,增加训练样本。实验结果表明在多次迭代训练后,该模型可以在少量标注数据的基础上获得较好的命名实体识别效果并获得较高的命名实体识别准确率。  相似文献   

8.
针对电力集控安全隐患文本实体边界模糊、常用实体识别模型识别准确率低的问题,提出了一种融合注意力机制与基于Transformer的双向编码器表示(BERT)-双向长短时记忆(BiLSTM)-条件随机场(CRF)的电力集控安全隐患数据实体识别模型。首先,利用BERT层将安全隐患文本编码表示为融合上下文语义的字位置和句位置的向量表示组,以减少实体识别误差积累。然后,提出了BiLSTM网络层挖掘电力集控隐患文本的语义特征并进行标签概率预测,在此基础上加入注意力机制增加重要信息的权重,提高重要信息对安全隐患语义信息的影响程度。最后,利用CRF层为标注结果进行综合打分,得到全局最优标签序列。在不同的电力安全隐患实体信息类别上的对比试验显示,所提模型的准确率为97.54%、召回率为96.47%、F值为97.13%,与传统算法相比总体效果提升了5%~21%。该结果证明了电力集控安全隐患实体识别模型的有效性。  相似文献   

9.
针对传统知识图谱实体抽取方法需要大量人工特征和专家知识的问题,提出一种基于BILSTM_CRF模型的神经网络结构实体抽取方法。它既能使用双向长短时记忆网络BILSTM(Bidirectional Long Short-Term Memory)提取文本信息的特征,又可利用条件随机场CRF(Conditional Random Fields)衡量序列标注的联系。该方法对输入的文本进行建模,把句子中的每个词转换为词向量;利用BILSTM处理分布式向量得到句子特征;使用CRF标注并抽取实体,得到最终结果。实验结果表明,该方法的准确率和召回率更高,F1值提升约8%,具有更强的适用性。  相似文献   

10.
基于BERT+BiLSTM+CRF的中文景点命名实体识别   总被引:1,自引:0,他引:1  
为解决旅游文本在特征表示时的一词多义问题, 针对旅游游记文本景点实体识别中景点别名的问题, 研究了一种融合语言模型的中文景点实体识别模型. 首先使用BERT语言模型进行文本特征提取获取字粒度向量矩阵, BiLSTM用于上下文信息的提取, 同时结合CRF模型提取全局最优序列, 最终得到景点命名实体. 实验表明, 提出的模型性能提升显著, 在实际旅游领域内景点识别的测试中, 与以往研究者方法比较下准确率, 召回率分别提升了8.33%, 1.71%.  相似文献   

11.
针对民航突发事件领域本体关系抽取准确率低的问题,提出了一种结合注意力机制与双向门控循环单元(BiGRU)的关系抽取模型。首先查询预先训练的词向量矩阵,将文本中每个词语映射为向量表示;其次构建BiGRU,得到词语序列的上下文语义信息;然后在词语层面和句子层面分别引入注意力机制,为表达语义关系更重要的词语和句子分配更大的权重;最后进行模型的训练与优化。将该模型应用在民航突发事件领域本体的关系提取中,实验结果表明该模型相较于其他方法具有更好的提取效果,验证了该模型的有效性,为民航突发事件领域本体关系的自动获取提供了新的方法支持。  相似文献   

12.
针对民航突发事件应急管理领域本体的自动更新问题,提出了基于LDA的领域本体概念获取方法。以文本信息作为数据源,采用NLPIR自适应分词与过滤方法获取候选术语集,设计了领域本体的LDA主题模型,通过吉布斯采样进行LDA模型训练与主题推断,实现了领域本体核心概念的相关术语提取;基于LDA主题概率分布研究了语义关系识别规则的构建方法,给出了概念及其相关术语语义关系的识别与实现过程。实验效果表明,该方法可以有效解决大规模领域本体概念的自动更新问题,为大数据环境下民航突发事件跨媒体信息的共享与推理提供了良好的数据支持。  相似文献   

13.
针对网购评论命名实体识别中重要词汇被忽略的问题,在评论短文本处理基础上,借鉴多头注意力机制、词汇贡献度和双向长短时记忆条件随机场提出一种基于MA-BiLSTM-CRF模型的网购评论命名实体识别方法。首先,用词向量和词性向量的组合来表示评论文本语义信息;其次,用BiLSTM提取文本特征;然后,引入多头注意力机制从多层面、多角度提升模型性能;最后,用条件随机场(CRF)识别命名实体。实验结果表明,该方法能提升网购评论实体识别效果。  相似文献   

14.
作为我国桥梁工程领域最重要的数据源之一,桥梁检测文本蕴含了丰富的结构构件参数及检测病害描述等关键业务信息,但面向该领域的文本信息抽取研究尚未有效开展。该文在阐明其领域命名实体识别目标任务的基础上,分析了待识别实体在蕴含大量专业术语的同时,存在地名或路线名嵌套、字符多义、上下文位置相关和方向敏感等领域特性。鉴于此,该文提出一种基于Transformer-BiLSTM-CRF的桥梁检测领域命名实体识别方法。首先,利用Transformer编码器对检测文本字符序列的上下文长距离位置依赖特征进行建模,并采用BiLSTM网络进一步捕获方向敏感性特征,最终在CRF模型中实现标注序列预测。实验结果表明,相较于当前主流的命名实体识别模型,该文提出的方法具有更好的综合识别效果。  相似文献   

15.
针对民航突发事件因果关系无法有效评估与关联分析的问题,提出了一种基于贝叶斯网络的民航突发事件因果关系分析方法。在民航突发事件应急管理领域本体的基础上引入贝叶斯理论,首先通过规则设计实现了领域本体中概念、关系与实例的贝叶斯网络转换,然后采用贝叶斯网络知识合成算法E-IPFP构建贝叶斯网络节点的条件概率表,并通过消息传递机制计算父子节点间的概率关系,获得民航突发事件因果关系的概率分布。采用民航突发事件应急管理领域本体和世界民航事故调查跟踪报告中的案例作为实验数据,给出了民航突发事件因果间关系的分析,为基于大数据的突发事件关联分析与推理提供了方法支持。  相似文献   

16.
古汉语与现代汉语在句法、用词等方面存在巨大的差异。古文句与句之间通常缺少分隔和标点符号,现代读者难以理解。人工断句有助于缓解上述困境,但需要丰富的专业知识,耗时耗力。计算机自动断句有助于加速对古文的准确理解,从而促进古籍研究以及中华文化的弘扬。除自动断句,该文还尝试了自动标点任务。该方案自行预训练古汉语BERT(Bidirectional Encoder Representations from Transformers)模型,并针对具体任务进行微调适配。实验表明,该方案优于目前深度学习中的主流序列切割BiLSTM+CRF模型,在单一文本类别和复合文本类别测试集上的F1值分别达到89.97%和91.67%。更重要的是,模型表现出了很强的泛化能力,未参与任何训练的《道藏》测试集上的F1值依然可达到88.76%。自动标点任务仅使用少量较为粗糙的带标点文本训练集时F1值为70.40%,较BiLSTM+CRF模型提升12.15%。两任务结果均达到当前最佳,相关代码和模型已经开源发布。  相似文献   

17.
命名实体识别是自然语言处理中的重要任务,且中文命名实体识别相比于英文命名实体识别任务更具难度。传统中文实体识别模型通常基于深度神经网络对文本中的所有字符打上标签,再根据标签序列识别命名实体,但此类基于字符的序列标注方式难以获取词语信息。提出一种基于Transformer编码器的中文命名实体识别模型,在字嵌入过程中使用结合词典的字向量编码方法使字向量包含词语信息,同时针对Transformer编码器在注意力运算时丢失字符相对位置信息的问题,改进Transformer编码器的注意力运算并引入相对位置编码方法,最终通过条件随机场模型获取最优标签序列。实验结果表明,该模型在Resume和Weibo中文命名实体识别数据集上的F1值分别达到94.7%和58.2%,相比于基于双向长短期记忆网络和ID-CNN的命名实体识别模型均有所提升,具有更优的识别效果和更快的收敛速度。  相似文献   

18.
在生物医学文本挖掘领域, 生物医学的命名实体和关系抽取具有重要意义。然而目前中文生物医学实体关系标注语料十分稀缺, 这给中文生物医学领域的信息抽取任务带来许多挑战。 该文基于深度学习技术搭建了中文生物医学实体关系抽取系统。首先利用公开的英文生物医学标注语料, 结合翻译技术和人工标注方法构建了中文生物医学实体关系语料。然后在结合条件随机场(Conditional Random Fields, CRF)的双向长短期记忆网络 (Bi-directional LSTM, BiLSTM) 模型上加入了基于生物医学文本训练的中文 ELMo (Embedding from Language Model) 完成中文实体识别。最后使用结合注意力(Attention) 机制的双向长短期记忆网络抽取实体间的关系。实验结果表明,该系统可以准确地从中文文本中抽取生物医学实体及实体间关系。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号