首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 78 毫秒
1.
作为生物医学信息抽取领域的重要分支,蛋白质交互关系(Protein-Protein Interaction,PPI)抽取具有重要的研究意义。目前的研究大多采用统计机器学习方法,需要大规模标注语料进行训练。训练语料过少,会降低关系抽取系统的性能,而人工标注语料需要耗费巨大的成本。该文采用迁移学习的方法,用大量已标注的源领域(其它领域)语料来辅助少量标注的目标领域语料(本领域)进行蛋白质交互关系抽取。但是,不同领域的数据分布存在差异,容易导致负迁移,该文借助实例的相对分布来调整权重,避免了负迁移的发生。在公共语料库AIMed上实验,两种迁移学习方法获得了明显优于基准算法的性能;同样方法在语料库IEPA上实验时,TrAdaboost算法发生了负迁移,而改进的DisTrAdaboost算法仍保持良好迁移效果。  相似文献   

2.
针对传统径向基核函数的训练矩阵中所有元素都十分接近零而不利于分类的问题,该文提出了一种融合了改进的径向基核函数及其他核函数的多核融合中文领域实体关系抽取方法。利用径向基核函数的数学特性,提出一种改进的训练矩阵,使训练矩阵中的向量离散化,并以此改进的径向基核函数融合多项式核函数及卷积树核函数,通过枚举的方式寻找最优的复合核函数参数,并以上述多核融合方法与支持向量机结合进行中文领域实体关系抽取。在旅游领域的语料上测试,相对于单一核方法及传统多核融合方法,关系抽取性能得到提高。  相似文献   

3.
化学物质和疾病之间的副作用关系使得化学物质-疾病关系受到更多关注.介绍一个从生物医学文献中抽取化学物质致病关系的系统——CDRExtractor.该系统首先训练一个句子级别分类器,用于抽取存在于同一个句子中的化学物质致病(chemical-induced disease, CID)关系.在句子级别分类器训练阶段,将特征核和图核特征看作2个独立的视图,采用基于半监督的Co-training方法,利用少量人工标注的训练集和大量未标注语料训练模型.之后,CDRExtractor利用文档级别的化学物质与疾病信息特征训练一个文档级别的分类器用于实现文档级别跨句子的CID关系抽取.最后,利用规则将2个分类器的抽取结果进行整合,生成最终的输出结果.实验结果表明:CDRExtractor在BioCreative V CDR评测任务CID子任务提供的测试集上F值达到67.72%.  相似文献   

4.
蛋白质关系抽取研究对于生命科学各领域的研究具有广泛的应用价值。但是,基于机器学习的蛋白质关系抽取方法普遍停留在二元关系抽取,失去了丰富的关系类型信息,而基于规则的开放式信息抽取方法可以抽取完整的蛋白质关系(“蛋白质1,关系词,蛋白质2”),但是召回率较低。针对以上问题,该文提出了一种混合机器学习和规则方法的蛋白质关系抽取框架。该框架先利用机器学习方法完成命名实体识别和二元关系抽取,然后利用基于句法模板和词典匹配的方法抽取表示当前两个蛋白质间关系类型的关系词。该方法在AImed语料上取得了40.18%的F值,远高于基于规则的Stanford Open IE方法。  相似文献   

5.
针对蛋白质交互作用关系(PPI)抽取方法中特征利用的片面性问题,提出了一种从上下文环境和句法结构中抽取特征的方法。该方法抽取词法特征、位置特征、距离特征、依存句法特征和深层句法特征等丰富特征构成特征集,并且使用支持向量机(SVM)分类器进行PPI抽取。方法在5个公开的PPI语料上进行了评估。实验结果表明,丰富特征有效地利用了更为全面的信息,避免丢失重要特征的危险,得到了较好的PPI抽取性能。即在AImed语料上的实验取得了59.2%的F值和85.6%的曲线下面积(AUC)值。  相似文献   

6.
蛋白质交互关系(PPI)抽取是生物医学信息抽取领域的一个重要部分,具有很高的应用价值和实际意义。该文使用一种基于SVM的组合核方法进行蛋白质关系抽取,将基于特征的平面核和基于结构的卷积树核组合。一棵完整的句法解析树中包含了较多噪声,需对其修剪以提高PPI抽取效果。首先讨论不同的树的剪裁策略对实验结果的影响,分别使用完全树、最小完全树、最小树和最短路径闭包树进行实验,最短路径闭包树效果最好;然后在最短路径闭包树的基础上提出一种动态拓展树,该树取得了明显优于其他解析树的效果。最后基于组合核在AIMED上进行10倍交叉实验,精确率、召回率和F值分别达到了82.40%、51.30%和63.23%。  相似文献   

7.
化学物与蛋白质之间的相互作用关系抽取对精准医学和药物发现等方面的研究有着重要作用.该文提出了一种基于最短依存路径和注意力机制的双向LSTM模型,并将其应用于化学物蛋白质关系抽取.在特征上综合考虑了最短依存路径上的词性、位置和依存关系类型等.在BioCreative VI CHEMPROT任务上的实验表明,该方法在基于依...  相似文献   

8.
基于核函数的蛋白质关系(PPI)抽取可以捕获结构化信息,取得了较高的性能,但其计算复杂度过高。该文结合词汇、句法等信息,重点探讨了依存信息对基于特征向量的蛋白质关系(PPI)抽取的影响。在多个PPI语料库上的实验表明,依存信息和基本短语块信息可以有效提高基于特征向量的PPI抽取性能。特别要指出,在AIMed语料上的PPI抽取取得了54.7的F测度,是目前基于特征向量的PPI抽取系统的最好水平。  相似文献   

9.
在非结构化生物医学文本数据中提取出实体之间的关系,对生物医学的信息化发展有着重大意义,同时也是自然语言处理领域的研究热点。目前,在生物医学数据中正确地提取出实体间的关系面临着两个难点:1)由于在生物医学数据中实体单词大多由复合词、未知词组成,模型难以学习到实体内部的语义特征;2)由于生物医学带标注数据较少,而神经网络的参数量较大,使得神经网络容易过拟合。因此,文中提出了基于提示学习的生物医学关系抽取方法,增加了一种针对实体的注解标签,来对实体进行提示以达到实体语义增强以及联系上下文信息的目的。此外,在传统提示调优方法的基础上,文中使用连续性模板来缓解人工设计模板所带来的性能偏差,同时结合深度前缀控制attention的深度提示能力,使模型在处理较少数据的情况时仍能取得良好的效果。  相似文献   

10.
文本知识发现:基于信息抽取的文本挖掘   总被引:11,自引:0,他引:11  
1.引言大家熟知,所谓“数据丰富但知识缺乏“的现状导致了数据挖掘(Data Mining)技术研究的兴起,数据挖掘又称数据库知识发现(Knowledge Discovery in Databases)是从海量的结构化信息中抽取或挖掘隐含信息和知识的重要方法和途径。数据挖掘技术已相当成熟。因为除了结构化的数据之外,在数字化信息中更多地存在大量自由、非结构化或半结构化的文本信息如新闻文章、电子书本、电子图书馆藏、Web页面内容、Email、文档数据库等,显然手工处理需要花费大量的人力物力,并且具有不确定性。所以出现了从文本中发现知  相似文献   

11.
针对目前蛋白质提取方法仅以单句信息为依据的不足,文中提出了以相似性为框架基于大规模文本的蛋白质交互关系识别方法。首先通过搜索医学文献数据库建立蛋白质对的签名档,然后提取签名档中的重要特征建立蛋白质对的向量空间模型,最后通过K近邻分类方法判断蛋白质对的交互关系。实验比较了向量空间模型下不同的距离度量策略对分类效果的影响,得出了比较合理的衡量相似性的函数。结果表明基于大规模文本采用基于余弦距离度量相似性的近邻方法识别蛋白质交互关系取得了较高且均衡的精确度和召回率,并且此方法直接利用了已有的交互信息,从而免除了额外的人工标注负担。  相似文献   

12.
摘 要: 针对传统基于机器学习方法在蛋白质互作用信息抽取中的缺陷,提出融合浅层句法分析的信息抽取方法,该方法首先将候选的句子进行浅层句法分析,包括对短语切分、同位语分析、并列结构分析、句子切分的处理。经过该步骤,句子被划分为多个单独的语法单元。然后,对每个语法单元采用基于最大熵的分类方法进行蛋白质互作用信息抽取。该方法在BC-PPI语料库中获得了62.1%的F1性能。比较实验结果表明,该方法能有效减少误判和漏判,提高信息抽取的性能。  相似文献   

13.
传统的推荐系统面临着诸如数据稀疏性、无法解释的推荐等几个挑战。为了解决这些问题,许多研究通过挖掘评论文本语义信息来提高推荐性能。然而,这些方法在文本特征建模和文本交互方面存在问题。在文本建模方面,它们简单地将用户/物品的所有评论拼接成一个单一的评论。然而,单词/短语级别的语义信息可能与评论文本的整体语义信息相悖。在文本交互方面,它们将交互推迟到预测层,无法捕捉用户和物品之间复杂的相关性。为了解决这些问题,我们提出了一种新颖的基于层次型文本交互的表示学习方法。在该方法中,我们以层级方式对低级单词语义和高级评论文本进行建模,以便在不同粒度上挖掘文本信息。为了进一步捕捉复杂的用户-物品的交互关系,我们提出在不同层次上挖掘用户-物品之间的语义关联。在单词级别上,我们提出了一种针对每对用户-物品个性化的注意力机制,来捕捉表示每个评论的重要单词。在文本级别上,我们在用户和物品之间相互传播文本语义信息,并捕捉针对目标任务有用的评论文本。最后,我们通过协同过滤框架,将该方法应用于评分预测应用场景,并通过在公开数据集上的对比实验,证明该方法在评分预测方面的性能优于现有方法。  相似文献   

14.
多核学习在解决不规则、大规模数据问题时表现出良好的优越性。正则化路径是一种多次求解多核学习,选择最优模型的措施。针对多核学习正则化路径算法处理大规模数据时,核矩阵规模较大,计算代价高,影响优化模型效率的问题,提出一种基于CUR矩阵分解的多核学习正则化路径近似算法(Multiple kernel learning regularization path approximation algorithm with CUR, MKLRPCUR)。该算法首先采用CUR算法获得核矩阵的低秩近似矩阵的多个分解矩阵,然后在求解过程中利用低维的分解矩阵相乘替代核矩阵,调整相关矩阵计算的顺序,从而简化算法中核矩阵和拉格朗日乘子向量乘积的计算。 MKLRPCUR算法降低了矩阵的计算规模,优化了矩阵计算,提高了精确算法的计算效率。 从理论上分析低秩近似矩阵的相对误差和算法的时间复杂度,验证了近似算法的合理性。同时,在UCI数据集、ORL和COIL图像数据库上的实验结果表明,本文提出的近似算法不仅保证了学习的准确率,并且降低了算法的运行时间,提高了模型的效率。  相似文献   

15.
提出了基于SVM的主动学习算法,用来解决蛋白质相互作用的预测问题。细胞中的生物过程是通过蛋白质相互作用实现的。但是通过实验验证蛋白质之间是否具有相互作用的代价非常大,而且数据很难获取。为了在有限的阳性样本情况下更加快速准确地预测蛋白质之间是否具有相互作用,引入了主动学习方法。主动学习算法可以用来构造有效训练集,其目标是通过迭代抽样,每次寻找最富有信息量的数据点,找到最有利于提升分类效果的样本,进而减小分类训练集的大小。比较了5种不同的主动学习算法,以寻找在有限资源前提下提高分类算法效率的最佳途径。实验表明,主动学习方法与SVM算法相结合,能够在保证SVM分类性能的前提下,有效减少学习所需的样本数量。  相似文献   

16.
基于弱监督学习的产品特征抽取   总被引:1,自引:0,他引:1       下载免费PDF全文
伍量  何中市  黄永文 《计算机工程》2009,35(13):199-201
产品评论挖掘是从自然语言描述的用户评论中获取信息的过程,产品特征抽取是产品评论挖掘的第1个阶段,产品特征的好坏决定了产品评论挖掘中后续阶段的质量。采用弱监督的学习方法,只需要提供少量的产品特征作为种子,从这些种子出现的语句中抽取文本模式,利用文本模式来发现新的产品特征。实验结果表明,从英文文本中自动抽取产品特征的实验系统,取得了较好的效果。  相似文献   

17.
事件抽取是从非结构化的自然语言文本中自动抽取用户感兴趣的事件信息, 并以结构化的形式表示出来. 事件抽取是自然语言处理与理解中的重要方向, 在政府公共事务管理、金融业务、生物医学等不同领域有着很高的应用价值. 根据对人工标注数据的依赖程度, 目前基于深度学习的事件抽取方法主要分为两类: 有监督和远程监督学习方法. 对当前深度学习中事件抽取技术进行了全面的综述. 围绕有监督中CNN、RNN、GAN、GCN与远程监督等方法, 系统地总结了近几年的研究情况, 并对不同的深度学习模型的性能进行了详细对比与分析. 最后, 对事件抽取面临的挑战进行了分析, 针对研究趋势进行了展望.  相似文献   

18.
协同滤波是当前推荐系统中一种主流的个性化推荐算法,通过近似用户对商品的评价进行推荐。核函数是解决非线性模式问题的一种方法。协同滤波通常会选用不同的核函数来分析用户之间的影响关系。由于单核函数无法适应于复杂多变场景。因此,结合多个核函数成为一种解决方法。多核学习能够针对场景来组合各个核函数以获取更好的结果。本文提出了一种基于多核学习的协同滤波算法。该算法在现有核函数的基础上,优化各个核函数的权重以匹配数据的分布。在大众点评数据集和Foursquare数据集上的实验结果表明:基于多核学习的协同滤波算法比经验给定的相似函数的性能要高,具有更好的普适性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号