首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 78 毫秒
1.
蛋白质相互作用数据具有较高的假阳性率和假阴性率,这直接导致计算方法从中预测蛋白质复合物会产生较大的误差。为了弥补数据的这种先天性不足,通过结合多数据源,一种新的蛋白质复合物预测算法被提出。匹配分析和GO功能富集分析被用于评估算法的性能。测试结果表明,新算法远优于以前的其他算法。  相似文献   

2.
实验产生的蛋白质相互作用数据不可避免地伴随着假阳性和假阴性,因而,基于蛋白质相互作用数据预测蛋白质复合物的计算方法天然具有较大的误差。为了弥补这种数据先天性不足,基因表达谱被结合进来,构造了新的加权蛋白质网络。为了验证网络的生物学意义,马尔可夫聚类算法被用于从加权与非加权网络中预测蛋白质复合物,预测到的复合物与基准复合物进行匹配分析。分析结果表明,加权网络比非加权网络具有更高的生物学意义。  相似文献   

3.
蛋白质是生命活动的物质基础,直接参与、执行生命的活动过程。大多数蛋白质通过相互作用形成复合物来实现各种生物功能,因此预测蛋白质复合物有助于了解复合物的结构及其功能,也为细胞机制的研究奠定了重要基础。目前,随着高通量实验技术的不断发展,全基因组蛋白质相互作用(PPI)数据日益增多,领域内已经出现了很多基于计算的蛋白质复合物预测方法。虽然现有方法各具特色与优势,但也存在一些不足。首先,针对现有基于计算的蛋白质复合物预测方法进行了分类和比较全面、详细的分析评述;接着,介绍了复合物预测中常用的评价指标和主要数据集,并比较和分析了几种代表性方法的预测性能;最后,对复合物预测方法进行了总结与展望,提出了今后有待解决的若干问题。希望通过对各类方法的分析与比较,为相关人员使用和研究基于计算的蛋白质复合物预测方法提供有价值的参考和方向指引。  相似文献   

4.
针对在蛋白质相互作用网络上的关键蛋白质识别只关注拓扑特性,蛋白质相互作用数据中存在较高比例的假阳性数据以及基于复合物信息的关键蛋白质识别算法对节点的邻域信息和复合物的挖掘对关键蛋白质的识别影响效果考虑不够全面等导致的识别准确率和特异性不高的问题,提出一种基于复合物参与度和密度的关键蛋白质预测算法PEC。首先融合GO注释信息和边聚集系数构造加权PPI网络,克服假阳性对实验结果的影响;基于蛋白质相互作用的边权重,构造相似度矩阵,设计特征值间的最大本征差值来自动确定划分数目K,同时根据加权网络中的蛋白质节点度来选取K个初始聚类中心,进而利用谱聚类结合模糊C-means聚类算法实现复合物的挖掘,提高聚类的准确率,降低数据的维数;其次基于蛋白质节点的复合物参与度以及节点邻域子图密度,设计出关键节点的关键性得分。在DIP和Krogan 2个数据集上,将PEC与DC、BC、CC、SC、IC、PeC、WDC、LIDC、LBCC和UC 10种经典算法相比,实验结果表明,PEC算法能够识别出更多的关键蛋白质,且聚类结果的准确率和特异性较高。  相似文献   

5.
蛋白质复合物是细胞结构和生化机制的研究基础,如何准确识别蛋白质复合物成为近年来的研究热点。针对传统算法根据结构信息对蛋白质复合物进行搜索存在敏感度和F-measure低的问题,以及现有监督学习算法根据人为构造特征进行蛋白质复合物识别存在特征构造不能较好地反映图的真实信息等不足,提出了graph2vec-SVM识别算法。将蛋白质复合物看作稠密子图并考虑子图模块度大小,利用graph2vec将图信息转换为向量,并进一步采用SVM分类器对蛋白质复合物进行识别,提高了蛋白质复合物识别的敏感度和F-measure。该算法分别与目前流行的4种非监督学习算法(ClusterOne、CMC、HC-PIN和COACH)和3种监督学习算法(SCI-BN、SCI-SVM和RM)进行比较,在精准度、敏感度和F-measure 3项指标上都显示出了良好的性能。  相似文献   

6.
蛋白质相互作用(PPI)网络中存在大量不确定性及已知蛋白质复合物数据的不完整性,单独地根据结构信息进行搜索或对已知复合物进行监督学习的方法在识别蛋白质复合物的准确性上存在不足。对此,提出一种XGBoost模型与复合物拓扑结构信息相结合的搜索方法(XGBP)。首先,根据复合物拓扑结构信息进行特征提取;然后,把所提取的特征用XGBoost模型进行训练;最后,将拓扑结构信息与监督学习方法相结合,建立特征与复合物之间的映射关系以提高蛋白质复合物预测的准确性。该算法分别与目前流行的马尔可夫聚类算法(MCL)、极大团聚类方法(CMC)、基于核心-附属结构算法(COACH)、快速层级聚类算法(HC-PIN)、基于重叠邻居的扩展聚类(ClusterONE)、分子复合物检测算法(MCODE)、基于不确定图模型的蛋白质复合物检测方法(DCU)和加权核心-附属算法(WCOACH)这八种非监督学习算法和三种监督学习方法贝叶斯网络(BN)、支持向量机(SVM)、回归模型(RM)进行比较,所提方法在精准度、敏感度、F-measure方面显示出良好的性能。  相似文献   

7.
蛋白质复合物对于生物学家有效了解细胞组织和功能具有重要意义,如何通过计算方法从蛋白质-蛋白质相互作用(PPI)网络中识别复合物是当前研究热点之一。然而,由于PPI网络中存在大量假阴性和假阳性噪声数据且现有已知蛋白质复合物并不完整,使得如何克服PPI网络的噪声问题,以及更好地利用已知蛋白质复合物,成为蛋白质复合物识别亟待解决的关键问题。为此,该文提出一种基于蛋白质复合物拓扑信息,利用监督学习进行蛋白质复合物识别的算法(NOBEL)。首先,NOBEL根据蛋白质的生物信息和拓扑信息构建加权PPI网络,降低了网络中的噪声问题;然后,通过加权PPI网络和未加权PPI网络提取复合物拓扑信息作为特征,并根据提取的特征训练监督学习模型,使得监督学习模型能有效学习复合物蕴含的信息;最后,将训练好的模型应用于PPI网络识别蛋白质复合物。作者在四种真实PPI网络上进行了实验,实验结果表明,NOBEL与其他七种蛋白质复合物识别算法相比,在F-measure方面分别至少提高了4.39%(Gavin)、1.32%(DIP)、2.39%(WI-PHI_core)和2.34%(WI-PHI_extend)。  相似文献   

8.
蛋白质复合物是许多生物过程得以实现的基石。蛋白质相互作用数据中的假阳性和假阴性对各种识别蛋白质复合物的计算方法有不良影响。为了解决这一问题,1种新的蛋白质复合物识别算法(ICMDS,Identifying Complexes based on Multiple Data Sources)被提出。该方法整合基因表达谱、关键蛋白质信息和蛋白质相互作用3种生物数据进行蛋白质复合物的挖掘。首先,ICMDS重新定义了2个相互作用的蛋白质之间的功能相似性(FS,Functional Similarity)。然后,ICMDS选择已知的关键蛋白质作为种子构建蛋白质复合物。为了消除冗余的复合物,ICMDS算法也设计了冗余过滤子程序。另外,ICMDS也使用非关键蛋白质作为种子并将之扩展为蛋白质复合物。实验结果表明ICMDS识别蛋白质复合物的能力明显优于其他计算方法。  相似文献   

9.
针对加权模块度函数聚类算法在蛋白质相互作用网络中进行复合物识别的准确率不高、召回率较低以及时间性能不佳等问题进行了研究,提出一种基于模块度函数的加权蛋白质复合物识别算法IWPC-MF(Algorithm for Identifying Weighted Protein Complexes based on Modularity Function)。融合点聚集系数改进边聚集系数,将改进后的边点聚集系数与基因共表达的皮尔逊相关系数结合来构建加权蛋白质网络;基于节点权重选取种子节点,遍历种子的邻居节点,设计节点间的相似度度量和蛋白质附着度来获取初始聚类模块;设计基于紧密度的蛋白质复合物模块度函数来合并初始模块,并最终完成复合物的识别,克服传统的模块度函数无法识别出重叠和规模较小的复合物的缺陷。将IWPC-MF算法应用在DIP数据上进行复合物的识别,实验结果表明IWPC-MF算法的准确率和召回率较高,能够较准确地识别蛋白质复合物。  相似文献   

10.
随着可获得的大规模蛋白质相互作用数据的迅速增长,从系统水平上对细胞机制的基本组件和结构的理解成为了一种可能。如今所面临的最大挑战是如何通过分析此类复杂的相互作用数据来反映细胞组织、进程以及功能的规律。基于图理论的聚类方法是分析蛋白质相互作用数据的有效手段。本文将从蛋白质相互作用网络(PPI网络)的图模型、聚类算法、评估方法及应用几个方面描述PPI网络聚类分析的最新研究进展。最后,讨论该方向研究所面临的挑战及进一步的研究方向。  相似文献   

11.
蛋白质相互作用在生命活动中起核心作用,由蛋白质相互作用构成的PPI网络的拓扑特性分析是后基因组时代最重要的研究课题之一。应用复杂网络理论对DIP数据库中7个物种的8个PPI网络的拓扑结构进行分析与研究。分析结果表明,这些PPI网络具有较小的平均路径长度和较高的聚集系数,其度分布服从幂规律,即pk)=ak-r,其中r大于1小于3,a近似等于1±0.5,表现出典型的无标度性,并具有高的异质性。其中平均度大于3.5的5个PPI网络对随机删除不超过10%的顶点都具有很好的鲁棒性,但对有选择的删除2%的高度顶点就开始表现出极弱的抗攻击性。  相似文献   

12.
蛋白质组学的快速发展,特别是高通量技术的发展产生了大量的蛋白质相互作用数据,为人们从更深层次理解蛋白质之间的相互作用及其在复杂疾病的作用机理提供了基础.一个生物体内所有的蛋白质与蛋白质之间的相互作用组成的网络称为蛋白质网络.传统的研究多是基于静态的蛋白质网络模型.然而,由于蛋白质自身表达的动态性及蛋白质间相互作用的动态性,真实的蛋白质网络会随着时间和条件不断变化,与疾病的发生和发展有关的蛋白质功能模块也与这种动态变化密切相关.因此,研究者已经把注意力从关注蛋白质网络的静态属性转移到动态属性上,提出了一系列的动态蛋白质网络的构建方法.在介绍静态蛋白质网络的基础上,分类讨论了动态蛋白质网络的构建方法,将现有的动态蛋白质网络的构建方法归纳为基于蛋白质表达动态性的方法、基于多状态下表达及相关性变化的方法和基于时空动态变化的方法这3类:第1类体现的是蛋白质自身表达随时间演化的动态性,第2类则表现为不同条件下蛋白质之间表达相关性的改变,第3类则体现了蛋白质及蛋白质相互作用在时间和空间上的动态变化.然后,对动态蛋白质网络的蛋白质节点和相关子网络进行了动态分析并详细介绍了动态蛋白质网络在复杂疾病中的一些主流应用,如蛋白质复合物识别、蛋白质功能预测、生物标志物识别、疾病基因预测等.最后,对动态蛋白质网络所面临的挑战与未来的研究方向进行了探讨.  相似文献   

13.
蛋白交互网络在各种细胞功能和生命过程中发挥着至关重要的作用。对它的结构特征进行分析吸引了众多科研人员的关注,功能模块与关键蛋白的识别是其中的重要研究主题。本文主要使用模拟退火算法分析了酵母蛋白交互网络的功能模块,同时结合使用多种中心化指标识别了其中的关键蛋白,并讨论了这些功能模块和关键蛋白的生物学意义。  相似文献   

14.
认定蛋白质交互网中的功能模块对于理解细胞的组织结构,处理过程及其功能都是至关重要的。由于一个蛋白质可能具有多重功能因此蛋白质功能模块可能会相互交叠。然而,目前已有的一些识别功能模块的软聚类算法有如下两个缺陷:一是一些算法需要阈值来截断聚类;二是有些算法需要预设聚类数目。为了克服这两个缺陷,提出了随机走步软聚类识别算法来认定蛋白质交互网中的交叠功能模块。实验结果表明该算法在无需任何参数的情况下能发现一些重要的交叠功能模块。  相似文献   

15.
蛋白质二级结构预测方法研究   总被引:2,自引:2,他引:0       下载免费PDF全文
为提高蛋白质二级结构预测精度,提出一种新的网络模型和编码方法。首先利用基因表达式编程(GEP)的全局搜索能力同时进化设计神经网络的结构和连接权;其次,对神经网络输入层编码进行了改进,添加了氨基酸残基所处的疏水环境。用PDBSelect25中的36条蛋白质共6 122个残基进行测试,结果表明提出的网络模型和编码方法能有效提高蛋白质二级结构预测的精度。  相似文献   

16.
结直肠癌是消化系统常见的恶性肿瘤之一,死亡率居发达国家恶性肿瘤死亡率的第3位。本文通过生物分析进行结直肠癌致病基因的识别。首先,基于GEO中GSE9348基因表达数据集,利用R语言的LIMMA包筛选出P<0.05,Fold change>2的结直肠癌差异基因339个;其次,基于OMIM数据库中已知结直肠癌的致病基因和STRING数据库,获得差异表达基因与致病基因的蛋白质互作网络;接着利用Cytoscape软件的ClusterONE插件进行蛋白质互作网络模块分析,获得一个含有53个基因的子网络;最后,通过对子网络的拓扑分析,获得了FOS、CCND1、CEBPB、EGR1和NOS3等5个新结直肠癌致病基因。同时,通过功能富集分析和文献挖掘对新发现的致病基因进行验证。  相似文献   

17.
目前关于本体复杂性的研究,还没有比较系统和全面的方法。从本体概念模型的结构特点出发,将其与复杂网络的结构进行类比,借鉴复杂网络研究的研究方法和性质参数对本体结构进行研究,并选取生物学领域应用较广的GO本体作为样本,对其平均路径长度、度分布和簇系数等参数进行统计和分析,结果表明其具有无标度特性而不具有小世界特性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号