首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 125 毫秒
1.
化学物与蛋白质之间的相互作用关系抽取对精准医学和药物发现等方面的研究有着重要作用。该文提出了一种基于最短依存路径和注意力机制的双向LSTM模型,并将其应用于化学物蛋白质关系抽取。在特征上综合考虑了最短依存路径上的词性、位置和依存关系类型等。在BioCreative VI CHEMPROT任务上的实验表明,该方法在基于依存信息的系统中获得了较好的F1值性能。同时,集成学习也进一步提高了化学物蛋白质关系抽取性能。  相似文献   

2.
药物关系(Drug-Drug Interaction, DDI)抽取是生物医学关系抽取领域的重要分支,现有方法主要强调实体、位置等信息对关系抽取的影响。相关研究表明,依存信息对于关系抽取具有重要作用,如何合理利用依存信息是关系抽取研究中需要解决的问题。该文提出一种融合依存信息 Attention机制的药物关系抽取模型,衡量最短依存路径与句子的相关性,捕捉对实体间关系有用的信息。首先使用双向GRU(BiGRU)网络分别学习原句子和最短依存路径(Shortest Dependency Path,SDP)的语义信息和上下文信息,然后通过Attention机制将SDP信息与原句子信息融合,最后利用融合依存信息之后的句子表示进行分类预测。在DDIExtraction2013语料上进行了实验评估,模型F值为73.72%。  相似文献   

3.
蛋白质交互关系(PPI)抽取是生物医学信息抽取领域的一个重要部分,具有很高的应用价值和实际意义。该文使用一种基于SVM的组合核方法进行蛋白质关系抽取,将基于特征的平面核和基于结构的卷积树核组合。一棵完整的句法解析树中包含了较多噪声,需对其修剪以提高PPI抽取效果。首先讨论不同的树的剪裁策略对实验结果的影响,分别使用完全树、最小完全树、最小树和最短路径闭包树进行实验,最短路径闭包树效果最好;然后在最短路径闭包树的基础上提出一种动态拓展树,该树取得了明显优于其他解析树的效果。最后基于组合核在AIMED上进行10倍交叉实验,精确率、召回率和F值分别达到了82.40%、51.30%和63.23%。  相似文献   

4.
依存信息在蛋白质关系抽取中的作用   总被引:1,自引:1,他引:0  
基于核函数的蛋白质关系(PPI)抽取可以捕获结构化信息,取得了较高的性能,但其计算复杂度过高。该文结合词汇、句法等信息,重点探讨了依存信息对基于特征向量的蛋白质关系(PPI)抽取的影响。在多个PPI语料库上的实验表明,依存信息和基本短语块信息可以有效提高基于特征向量的PPI抽取性能。特别要指出,在AIMed语料上的PPI抽取取得了54.7的F测度,是目前基于特征向量的PPI抽取系统的最好水平。  相似文献   

5.
实体关系抽取是信息抽取研究领域中的重要研究课题之一.针对已有方法在处理复杂文本上的不足,提出了复杂中文文本的实体关系抽取方法.结合中文文本的语法特征,提出了7条抽取关系特征序列的启发式规则,并采用语义序列核和KNN机器学习算法结合的方法来分类和标注关系的类型.通过对ACE评测定义下的两个子类的实体关系抽取,关系抽取的平均F值迭到了76%,明显高于传统的基于特征向量和最短依存路径核的方法.  相似文献   

6.
蛋白质关系抽取是生物医学信息抽取领域的重要分支。目前研究中,基于特征和核函数方法的蛋白质关系抽取已被充分研究,并且达到了很高的F-值,通过改进特征和核函数进一步优化实例表示变得十分困难。该文结合词表示和深层神经网络,提出了一种实例表示模型。该模型能够充分利用词表示的语义表示能力和深层神经网络的表示优化能力;同时引入主成分分析和特征选择进行特征优化,并且通过比较多种传统的分类器,寻找适合蛋白质关系抽取的分类器。该方法在AIMed语料、BioInfer语料和HPRD50语料上的F-值分别取得了70.5%、82.2%和80.0%,在蛋白质关系抽取任务上达到了目前最好的抽取水平。  相似文献   

7.
蛋白质关系抽取研究对于生命科学各领域的研究具有广泛的应用价值。但是,基于机器学习的蛋白质关系抽取方法普遍停留在二元关系抽取,失去了丰富的关系类型信息,而基于规则的开放式信息抽取方法可以抽取完整的蛋白质关系(“蛋白质1,关系词,蛋白质2”),但是召回率较低。针对以上问题,该文提出了一种混合机器学习和规则方法的蛋白质关系抽取框架。该框架先利用机器学习方法完成命名实体识别和二元关系抽取,然后利用基于句法模板和词典匹配的方法抽取表示当前两个蛋白质间关系类型的关系词。该方法在AImed语料上取得了40.18%的F值,远高于基于规则的Stanford Open IE方法。  相似文献   

8.
药物相互作用是指药物之间存在的抑制或促进等作用。针对目前药物关系抽取模型在长语句中抽取效果较差以及高层特征信息丢失的问题,该文提出了一种结合最短依存路径的胶囊网络关系抽取模型,该方法首先根据原语句解析出两个药物之间的最短依存路径,然后利用双向长短期记忆网络分别获取原语句和最短依存路径的低层语义表示,再将两者结合输入到胶囊网络中,利用胶囊网络的动态路由机制,动态地决定低层胶囊向高层胶囊传送的信息量,避免了高层特征信息丢失的问题,从而提升抽取效果。在DDIExtraction 2013药物相互作用关系抽取任务上的实验结果表明,该文方法的F1值优于目前最优方法1.17%。  相似文献   

9.
现有实体关系联合抽取方法未充分考虑中文句子中实体关系的复杂结构特征,为此,提出一种基于图卷积神经网络(GCN)的中文实体关系联合抽取方法。在双向长短时记忆网络抽取序列特征的基础上,利用GCN编码依存分析结果中的语法结构信息,借鉴改进的实体标注策略构建端到端的中文实体关系联合抽取模型。实验结果表明,该方法的F值可达61.4%,相比LSTM-LSTM模型提高了4.1%,GCN能有效编码文本的先验词间关系并提升实体关系抽取性能。  相似文献   

10.
针对蛋白质交互作用关系(PPI)抽取方法中特征利用的片面性问题,提出了一种从上下文环境和句法结构中抽取特征的方法。该方法抽取词法特征、位置特征、距离特征、依存句法特征和深层句法特征等丰富特征构成特征集,并且使用支持向量机(SVM)分类器进行PPI抽取。方法在5个公开的PPI语料上进行了评估。实验结果表明,丰富特征有效地利用了更为全面的信息,避免丢失重要特征的危险,得到了较好的PPI抽取性能。即在AImed语料上的实验取得了59.2%的F值和85.6%的曲线下面积(AUC)值。  相似文献   

11.
指代消解是自然语言处理中语篇理解的关键问题之一。近年来对于树核函数的研究为指代消解提出了新的思路。基于树核函数,提出了一种新的中文代词的消解方法。将句法树作为一个特征,使用SVM提供的树核函数自动获取句法信息。在ACE2005 NWIRE基准数据上进行实验的结果表明树核对中文代词的消解能起到显著的作用,其中F值达到了75.8%。  相似文献   

12.
基于树核函数的代词指代消解   总被引:1,自引:1,他引:0       下载免费PDF全文
提出一种基于树核的英文代词消解方法。针对结构化信息在指代消解中的重要作用,使用SVM提供的卷积树核函数自动获取句法结构信息,将句法树作为一个特征与其他基本特征结合。通过应用不同的剪枝策略,考虑不同句法树对系统的影响,在原有的句法树上扩充一些语义节点。在ACE2004 NWIRE基准数据上进行实验的结果证明,该方法对代词的消解起到明显的作用,综合值,提高了11.9%。  相似文献   

13.
阅读理解系统是通过对一篇自然语言文本的分析理解,对用户根据该文本所提的问题,自动抽取或者生成答案。本文提出一种利用浅层语义信息的英文阅读理解抽取方法,首先将问题和所有候选句的语义角色标注结果表示成树状结构,用树核(tree kernel)的方法计算问题和每个候选句之间的语义结构相似度,将该相似度值和词袋方法获得的词匹配数融合在一起,选择具有最高分值的候选句作为最终的答案句。在Remedia测试语料上,本文方法取得43.3%的HumSent准确率。  相似文献   

14.
基于浅层语义树核的阅读理解答案句抽取   总被引:2,自引:0,他引:2  
阅读理解系统是通过对一篇自然语言文本的分析理解,对用户根据该文本所提的问题,自动抽取或者生成答案。本文提出一种利用浅层语义信息的英文阅读理解抽取方法,首先将问题和所有候选句的语义角色标注结果表示成树状结构,用树核(tree kernel)的方法计算问题和每个候选句之间的语义结构相似度,将该相似度值和词袋方法获得的词匹配数融合在一起,选择具有最高分值的候选句作为最终的答案句。在Remedia测试语料上,本文方法取得43.3%的HumSent准确率。  相似文献   

15.
随着生命科学技术的发展,生物医学领域文献呈指数级增长,如何从海量文献中挖掘、抽取有价值的信息成为生物医学领域新的研究契机。作为信息抽取的核心技术,命名实体识别和关系抽取成为生物医学文本挖掘的基础和关键,其主要工作为识别生物医学文本中的实体,并提取实体间存在的生物医学语义关系。当前深度学习技术在各领域自然语言处理任务中取得了长足的发展,旨在总结基于神经网络的生物医学实体识别和关系抽取的方法,从概念、进展、现状等多角度全面阐述各项技术在生物医学领域的发展历程,进一步明确生物医学文本信息抽取工作的探索方向。  相似文献   

16.
基于合一句法和实体语义树的中文语义关系抽取   总被引:1,自引:0,他引:1  
该文提出了一种基于卷积树核函数的中文实体语义关系抽取方法,该方法通过在关系实例的结构化信息中加入实体语义信息,如实体类型、引用类型和GPE角色等,从而构造能有效捕获结构化信息和实体语义信息的合一句法和实体语义关系树,以提高中文语义关系抽取的性能。在ACE RDC 2005中文基准语料上进行的关系探测和关系抽取的实验表明,该方法能显著提高中文语义关系抽取性能,大类抽取的最佳F值达到67.0,这说明结构化句法信息和实体语义信息在中文语义关系抽取中具有互补性。  相似文献   

17.
使用基于树核函数的方法来进行语义角色标注,有效的树核空间的设计是影响系统性能的关键。探索树核空间在中文语义角色标注上的应用,考虑到同一谓词的各论元间的相互影响,提出多论元-谓词特征(AAPF)空间,并在此基础上提出了三种受平面特征启发的树核空间设计方法。基于中文PropBank语料的实验表明,加入一些重要平面特征信息的树核空间,性能有了明显的提高,分类精确率由90.96%提高到92.54%。最后使用复合核将特征启发的树核与特征向量结合起来,精确率达到95.21%,性能高于同类系统。  相似文献   

18.
目的 生物医学文献中的图像经常是包含多种模式的复合图像,自动标注其类别,将有助于提高图像检索的性能,辅助医学研究或教学。方法 融合图像内容和说明文本两种模态的信息,分别搭建基于深度卷积神经网络的多标签分类模型。视觉分类模型借用自然图像和单标签的生物医学简单图像,实现异质迁移学习和同质迁移学习,捕获通用领域的一般特征和生物医学领域的专有特征,而文本分类模型利用生物医学简单图像的说明文本,实现同质迁移学习。然后,采用分段式融合策略,结合两种模态模型输出的结果,识别多标签医学图像的相关模式。结果 本文提出的跨模态多标签分类算法,在ImageCLEF2016生物医学图像多标签分类任务数据集上展开实验。基于图像内容的混合迁移学习方法,比仅采用异质迁移学习的方法,具有更低的汉明损失和更高的宏平均F1值。文本分类模型引入同质迁移学习后,能够明显提高标签的分类性能。最后,融合两种模态的多标签分类模型,获得与评测任务最佳成绩相近的汉明损失,而宏平均F1值从0.320上升到0.488,提高了约52.5%。结论 实验结果表明,跨模态生物医学图像多标签分类算法,融合图像内容和说明文本,引入同质和异质数据进行迁移学习,缓解生物医学图像领域标注数据规模小且标签分布不均衡的问题,能够更有效地识别复合医学图像中的模式信息,进而提高图像检索性能。  相似文献   

19.
生物医学文献信息抽取对充分挖掘利用生物医学领域取得的重要成果,促进生物医学的进一步发展具有重要意义。本文针对生物医学缩略语的分析理解问题,提出了基于加权投票K—近邻法的生物医学缩略语消歧算法。该算法基于“One Sense Per Discourse”假设自动生成带类标实例数据,消歧特征选用能表达文本主题的全局特征词,分类算法采用加权投票K—近邻法。在包含177 762篇Medline摘要的真实语料上进行的实验表明,本文所提出的算法明显优于相关工作中的算法。此外,实验还表明,对于缩略语消歧,加权投票K—近邻法与经典K—近邻法相比,不但具有高的预测准确率,而且性能更加稳定。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号