首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到16条相似文献,搜索用时 948 毫秒
1.
在生物医学文本挖掘领域, 生物医学的命名实体和关系抽取具有重要意义。然而目前中文生物医学实体关系标注语料十分稀缺, 这给中文生物医学领域的信息抽取任务带来许多挑战。 该文基于深度学习技术搭建了中文生物医学实体关系抽取系统。首先利用公开的英文生物医学标注语料, 结合翻译技术和人工标注方法构建了中文生物医学实体关系语料。然后在结合条件随机场(Conditional Random Fields, CRF)的双向长短期记忆网络 (Bi-directional LSTM, BiLSTM) 模型上加入了基于生物医学文本训练的中文 ELMo (Embedding from Language Model) 完成中文实体识别。最后使用结合注意力(Attention) 机制的双向长短期记忆网络抽取实体间的关系。实验结果表明,该系统可以准确地从中文文本中抽取生物医学实体及实体间关系。  相似文献   

2.
生物医学文本蕴含着丰富的探索价值,其为生物医学工作者进行研究提供了宝贵的领域知识.充分且高效地利用海量的生物医学文献,并从中发现重要的隐藏信息、获取专业领域知识,对生物医学研究具有重要的意义.生物医学实体链接是对生物医学文本中的命名实体进行识别,并将表示该实体的某些字符串映射到生物医学领域知识库中对应概念.生物医学实体链接任务通常面临两个主要的挑战:(1)自然语言描述的歧义性.(2)自然语言文本与生物医学知识库的异构性.传统的方法基于特征选择或规则发现,依赖于手动选择特征或定义规则,处理分阶段模型中也可能出现误差传播.因此,本工作提出了一种深度学习和知识库相结合的实体链接方法,通过深度挖掘自然语言文本的隐藏特征,及其与知识库概念图间结构的相似性,将生物医学实体识别与实体-概念对齐两个任务进行联合式处理.该方法旨在通过标准的生物医学知识库,自动获取生物医学实体的语义信息,挖掘生物医学实体之间的语义关系.实验表明,该方法在实体识别与对齐方面取得了较好的效果,显著提高了任务的精确性,在实体链接核心任务上取得了超过10%的性能提升.  相似文献   

3.
面向商务信息抽取的产品命名实体识别研究   总被引:12,自引:5,他引:12  
市场信息化使得商务信息抽取、市场内容管理日益成为信息科学领域的一个研究热点。产品命名实体识别作为其中非常重要的关键技术之一也逐渐受到人们的关注。本文面向商务信息抽取对产品命名实体进行了定义并系统分析了其识别任务的特点和难点,提出了一种基于层级隐马尔可夫模型(hierarchical hidden Markov model)的产品命名实体识别方法,实现了汉语自由文本中产品命名实体识别和标注的原型系统。实验表明,该系统在电子数码和手机领域均取得了令人满意的实验结果,对产品名实体、产品型号实体、产品品牌实体整体识别性能的F值分别为79.7% ,86.9% ,75.8%。通过和最大熵模型相比较,验证了HHMM对于处理多尺度嵌套序列有更强的表征能力。  相似文献   

4.
面向工艺文本中的命名实体,该文提出一种融入领域知识的神经网络命名实体识别方法,旨在对零件、工程图纸、参考标准、属性等12类命名实体进行识别.该方法针对工艺实体的特点,利用领域词典及规则预识别出部分实体,形成预识别实体特征,将预识别实体特征加入CNN-BiLSTM-CRF神经网络模型,指导训练与预测.实验结果表明,该方法...  相似文献   

5.
随着生命科学技术的发展,生物医学领域文献呈指数级增长,如何从海量文献中挖掘、抽取有价值的信息成为生物医学领域新的研究契机。作为信息抽取的核心技术,命名实体识别和关系抽取成为生物医学文本挖掘的基础和关键,其主要工作为识别生物医学文本中的实体,并提取实体间存在的生物医学语义关系。当前深度学习技术在各领域自然语言处理任务中取得了长足的发展,旨在总结基于神经网络的生物医学实体识别和关系抽取的方法,从概念、进展、现状等多角度全面阐述各项技术在生物医学领域的发展历程,进一步明确生物医学文本信息抽取工作的探索方向。  相似文献   

6.
生物文本中蛋白质名称的识别*   总被引:2,自引:1,他引:1  
随着基因和蛋白质序列的发布和分子生物学研究的发展,其相关的数据呈指数级增长,因此如何从海量的相关文献中直接获取生物学家研究领域的相关信息变得迫在眉睫,识别生物文献中的命名实体如蛋白质、基因、脱氧核糖核酸名称等成为生物信息学中信息抽取的最基本任务。介绍了国际同类研究中生物命名实体识别的各种方法,重点介绍了蛋白质名称识别的相关方法、所用资源、实验结果及与国际同类研究的比较结果。  相似文献   

7.
生物医学文本挖掘技术的研究与进展   总被引:1,自引:0,他引:1  
生物医学研究是二十一世纪最受关注的研究领域之一,该领域发表了巨量的研究论文,已经达到年平均60万篇以上。如何在规模巨大的研究文献中有效地获取相关知识,是该领域研究者所面临的挑战。作为生物信息学分支之一的生物医学文本挖掘技术就是一项高效自动地获取相关知识的新探索,近年来取得了较大进展。这篇综述介绍了生物医学文本挖掘的主要研究方法和成果,即基于机器学习方法的生物医学命名实体识别、缩写词和同义词的识别、命名实体关系抽取,以及相关资源建设、相关评测会议和学术会议等。此外还简要介绍了国内研究现状,最后对该领域近期发展作了展望。  相似文献   

8.
已有的大量生物医学文本为人们提供了充足的资料,但却没有足够好的工具来帮助人们从中获取信息和知识。而命名实体识别则在信息检索、信息抽取及知识发现等这样的应用中起着很重要的作用。本文基于JNLPBA生物命名实体识别任务,简要介绍了目前几种在生物医学文本中常用的基于机器学习的命名实体识别模型,并进行比较及常规讨论,同时也提供了一些相关的背景信息。  相似文献   

9.
已有的大量生物医学文本为人们提供了充足的资料,但却没有足够好的工具来帮助人们从中获取信息和知识。而命名实体识别则在信息检索、信息抽取及知识发现等这样的应用中起着很重要的作用。本文基于JNLPBA生物命名实体识别任务,简要介绍了目前几种在生物医学文本中常用的基于机器学习的命名实体识别模型,并进行比较及常规讨论,同时也提供了一些相关的背景信息。  相似文献   

10.
生物医学命名实体识别的研究与进展*   总被引:12,自引:0,他引:12  
为直接高效地获取文献中的知识,命名实体识别用来识别文本中具有特定意义的实体。这是应用文本挖掘技术自动获取知识的关键的第一步,因此受到日益广泛的关注。主要从评测方法、特征选择、机器学习方法和后期处理等方面介绍了近年来生物医学命名实体识别方面的主要研究方法及成果,并对目前各方面存在的问题进行了分析和讨论,最后对该领域的研究前景进行了展望。  相似文献   

11.
在生物医学领域,以静态词向量表征语义的命名实体识别方法准确率不高.针对此问题,提出一种将预训练语言模型BERT和BiLSTM相结合应用于生物医学命名实体识别的模型.首先使用BERT进行语义提取生成动态词向量,并加入词性分析、组块分析特征提升模型精度;其次,将词向量送入BiLSTM模型进一步训练,以获取上下文特征;最后通过CRF进行序列解码,输出概率最大的结果.该模型在BC4CHEMD、BC5CDR-chem和NCBI-disease数据集上的平均F1值达到了89.45%.实验结果表明,提出的模型有效地提升了生物医学命名实体识别的准确率.  相似文献   

12.
生物医学命名实体识别是从生物医学文献中获取关键知识的基础与关键任务.文中提出基于深层条件随机场的生物医学命名实体识别方法,构建多层结构的深层条件随机场模型,在不同层次的特征上结合增量式学习策略,选择最优特征集.最后通过基于〈全名,缩写〉对和基于领域信息的错误纠正算法,进一步修正识别结果.在生物医学命名实体评测语料JNLPBA上的实验验证文中方法的有效性.  相似文献   

13.
基于CNN-BLSTM-CRF模型的生物医学命名实体识别   总被引:3,自引:0,他引:3  
命名实体识别是自然语言处理任务的重要步骤。近年来,不依赖人工特征的神经网络在新闻等通用领域命名实体识别方面表现出了很好的性能。然而在生物医学领域,许多实验表明基于领域知识的人工特征对于神经网络模型的结果影响很大。因此,如何在不依赖人工特征的情况下获得较好的生物医学命名实体识别性能是有待解决的问题。该文提出一种基于CNN-BLSTM-CRF的神经网络模型。首先利用卷积神经网络(CNN)训练出单词的具有形态特征的字符级向量,并从大规模背景语料训练中得到具有语义特征信息的词向量,然后将二者进行组合作为输入,再构建适合生物医学命名实体识别的BLSTM-CRF深层神经网络模型。实验结果表明,不依赖任何人工特征,该文方法在Biocreative Ⅱ GM和JNLPBA2004生物医学语料上都达到了目前最好的结果,F-值分别为89.09%和74.40%。  相似文献   

14.
许力  李建华 《计算机应用》2021,41(2):357-362
现有的生物医学命名实体识别方法没有利用语料中的句法信息,准确率不高。针对这一问题,提出基于句法依存分析的图网络生物医学命名实体识别模型。首先利用卷积神经网络(CNN)生成字符向量并将其与词向量拼接,然后将其送入双向长短期记忆(BiLSTM)网络进行训练;其次以句子为单位对语料进行句法依存分析,并构建邻接矩阵;最后将BiLSTM的输出和通过句法依存分析构建的邻接矩阵送入图卷积网络(GCN)进行训练,并引入图注意力机制优化邻接节点的特征权重得到模型输出。所提模型在JNLPBA和NCBI-disease数据集上的F1值分别达到了76.91%和87.80%,相比基准模型分别提升了2.62和1.66个百分点。实验结果证明,提出的方法能有效提升模型在生物医学命名实体识别任务上的表现。  相似文献   

15.
传统的命名实体识别方法可以凭借充足的监督数据实现较好的识别效果. 而在针对电力文本的命名实体识别中, 由于对专业知识的依赖, 往往很难获取足够的监督数据, 即存在少样本场景. 同时, 由于电力行业的精确性要求, 相比于一般的开放领域任务, 电力领域的实体类型更多, 因此难度更大. 针对这些挑战, 本文提出了一个基于主题提示的命名实体识别方法. 该方法将每个实体类型视为一个主题, 并使用主题模型从训练语料中获取与类型相关的主题词. 通过枚举实体跨度、实体类型、主题词以填充模板并构建提示句. 使用生成式预训练语言模型对提示句排序, 最终识别出实体与对应类型标签. 实验结果表明, 在中文电力命名实体识别数据集上, 相比于几种传统命名实体方法, 基于主题提示的方法取得了更好的效果.  相似文献   

16.
命名实体识别是文本信息处理的重要基础,也是自然语言处理的一项关键技术.近几年来微博迅速发展成为人们进行信息交流的平台,微博文本俨然已经成为进行命名实体抽取的新载体.论文利用微博内容和结构的特点,提出了一种基于统计与规则相结合的命名实体识别的方法.微博文本较短并且文本中含有标签、话题等内容,论文在考虑这些特点基础上,利用微博评论和转发进行词频统计,通过规则筛选,完成命名实体识别.在新浪微博数据上的实验结果表明该方法可以有效地提高微博中命名实体识别效果.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号