首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到16条相似文献,搜索用时 218 毫秒
1.
针对加权模块度函数聚类算法在蛋白质相互作用网络中进行复合物识别的准确率不高、召回率较低以及时间性能不佳等问题进行了研究,提出一种基于模块度函数的加权蛋白质复合物识别算法IWPC-MF(Algorithm for Identifying Weighted Protein Complexes based on Modularity Function)。融合点聚集系数改进边聚集系数,将改进后的边点聚集系数与基因共表达的皮尔逊相关系数结合来构建加权蛋白质网络;基于节点权重选取种子节点,遍历种子的邻居节点,设计节点间的相似度度量和蛋白质附着度来获取初始聚类模块;设计基于紧密度的蛋白质复合物模块度函数来合并初始模块,并最终完成复合物的识别,克服传统的模块度函数无法识别出重叠和规模较小的复合物的缺陷。将IWPC-MF算法应用在DIP数据上进行复合物的识别,实验结果表明IWPC-MF算法的准确率和召回率较高,能够较准确地识别蛋白质复合物。  相似文献   

2.
探测蛋白质相互作用网络中的功能模块对于理解生物系统的组织和功能具有重要的意义。目前,普遍的做法是将蛋白质相互作用网络表示成一个图,利用各种图聚类算法来挖掘功能模块。本文采用了基于模块度优化的图聚类算法来探测蛋白质相互作用网络中的集团,从具有2617个节点11855个相互作用的酵母蛋白相互作用网络中探测出68个集团。对于得到的集团,首先从拓扑结构的角度验证其的确是内部连接稠密的子图,然后分析了MIPS数据库中ComplexCat提供的已知的蛋白质复合体与这些集团的重叠情况,发现很多蛋白质复合体完全包含在某些集团中,最后使用超几何聚集分布的P值来分析一个集团对某个特定功能的富集程度,并根据最小的P值对应的功能来注释该集团的主要功能,发现集团中大部分的蛋白质具有相同的功能。研究结果表明,该方法探测的集团具有重要的生物学功能意义。  相似文献   

3.
蛋白质网络中复合体和功能模块预测算法研究   总被引:4,自引:0,他引:4  
鱼亮  高琳  孙鹏岗 《计算机学报》2011,34(7):1239-1251
预测蛋白质相互作用网络中的复合体和功能模块对于理解生物系统的组织和功能具有重要的意义.到目前为止,已经出现了大量的蛋白质复合体和功能模块预测算法及相关的软件,这些算法各具特色,但同时也具有一定的局限.文中对典型的聚类预测算法进行了研究,依据算法特性对它们进行了分类,并从算法思想、关键技术以及算法性能等方面进行了分析和比...  相似文献   

4.
蛋白质复合物识别对分析蛋白质网络的结构特征和模块功能具有重要意义。通常在蛋白质网络中挖掘稠密子图或模块来识别其中的蛋白质复合物,限制了其应用范围和识别的准确性。针对该问题,提出了一种基于加权网络和局部适应度的蛋白质复合物识别算法,该算法综合稠密子图的密度指标和模块性定义了新的局部适应度函数,并基于边聚集系数构建加权的蛋白质网络,根据权值选择边,在加权蛋白质网络中将种子边不断聚类扩展,从而获取具有最大综合适应度的子图作为蛋白质复合物。在酵母蛋白质等多个实际网络中试验表明,该算法能够有效提升蛋白质复合物识别的准确性。  相似文献   

5.
针对蛋白质相互作用(protein-protein interaction,PPI)网络中存在大量噪声以及现有关键蛋白识别方法准确率不高等问题,提出了一种基于中心性和模块特性(united centrality and modularity,UCM)的方法来识别关键蛋白质。首先,整合蛋白质拓扑数据和生物数据构建多元属性网络,以降低PPI网络中噪声的影响;其次,根据关键蛋白质的拓扑特性和生物特性,提出一种挖掘稠密且高度共表达的关键模块算法,从多元属性网络中挖掘高可靠性的关键模块,以从多维角度强化关键蛋白质在模块中的重要程度;最后,整合蛋白质的中心性和模块化特性,设计一种衡量蛋白质关键性的策略(essential integration strategy,EIS),以提高识别高关键蛋白质的准确率。UCM方法应用在DIP数据集上进行验证,实验结果表明,与其他10种关键蛋白质识别方法相比较,该方法具有较好的识别性能,能够识别更多的关键蛋白质。  相似文献   

6.
针对蚁群融合模糊C-means (FCM)聚类算法在蛋白质相互作用网络中进行复合物识别的准确率不高、召回率较低以及时间性能不佳等问题进行了研究,提出一种基于模糊蚁群的加权蛋白质复合物识别算法FAC-PC(algorithm for identifying weighted protein complexes based on fuzzy ant colony clustering)。首先,融合边聚集系数与基因共表达的皮尔森相关系数构建加权网络;其次提出EPS(essential protein selection)度量公式来选取关键蛋白质,遍历关键蛋白质的邻居节点,设计蛋白质适应度PFC(protein fitness calculation)来获取关键组蛋白质,利用关键组蛋白质替换种子节点进行蚁群聚类,克服蚁群算法中因大量拾起放下和重复合并过滤操作而导致准确率和收敛速度过慢的缺陷;接着设计SI(similarity improvement)度量优化拾起放下概率来对节点进行蚁群聚类进而获得聚类数目;最后将关键蛋白质和通过蚁群聚类得到的聚类数目初始化FCM算法,设计隶属度更新策略来优化隶属度的更新,同时提出兼顾类内距和类间距的FCM迭代目标函数,最终利用改进的FCM完成复合物的识别。将FAC-PC算法应用在DIP数据上进行复合物的识别,实验结果表明FAC-PC算法的准确率和召回率较高,能够较准确地识别蛋白质复合物。  相似文献   

7.
蛋白质互作用(protein-protein interaction, PPI)网络是广泛存在的一类复杂生物网络,其网络拓扑特征与功能模块分析密切相关.图聚类是对复杂网络进行分析和处理的一种重要计算方法.传统的PPI网络中蛋白质复合体检测算法通常对网络图中的对象进行硬划分,而寻找网络中的重叠簇的软聚类算法已成为当前研究热点之一.现有的软聚类算法较少关注寻找网络中具有重要生物意义的小规模非稠密簇.对此,基于网络中结点邻域给出了边关联强度的度量方法,并在此基础上提出了一种基于流模拟的PPI网络中复合体检测的图聚类(flow-simulation graph clustering, F-GCL)算法,该算法可以在快速发现PPI网络中的重叠簇的同时找到小规模非稠密簇;同时,与MCODE(molecular complex detection),MCL(Markov clustering),RNSC(restricted neighborhood search clustering)和CPM(clique percolation method)算法在6个酿酒酵母PPI网络上进行比较,该算法在F-measure,Accuracy,Separation方面表现了较好的性能.  相似文献   

8.
蛋白质相互作用网络的蜂群信息流聚类模型与算法   总被引:1,自引:0,他引:1  
蛋白质相互作用网络的聚类算法研究是充分理解分子的结构、功能及识别蛋白质的功能模块的重要方法.很多传统聚类算法对于蛋白质相互作用网络聚类效果不佳.功能流模拟算法是一种新型聚类算法,但该算法没有考虑到距离的作用效果并且需要人为地设置合并阈值,带有主观性.文中提出了一种新颖的基于蜂群优化机理的信息流聚类模型与算法.该方法中,数据预处理采用结点网络综合特征值的排序来初始化聚类中心,将蜂群算法的蜜源位置对应于其聚类中心,蜜源的收益度大小对应于模块间的相似度,采蜜蜂结点的所有邻接点按照结点网络综合特征值的降序排列,作为侦察蜂的搜索邻域.采用正确率、查全率等指标对聚类效果做出客观评价,并对算法的一些关键参数进行仿真、对比与分析.结果表明新算法不仅克服了原功能流模拟算法的缺点,且其正确率和查全率的几何平均值最高,能够有效地识别蛋白质功能模块.  相似文献   

9.
针对在蛋白质相互作用网络上的关键蛋白质识别只关注拓扑特性,蛋白质相互作用数据中存在较高比例的假阳性数据以及基于复合物信息的关键蛋白质识别算法对节点的邻域信息和复合物的挖掘对关键蛋白质的识别影响效果考虑不够全面等导致的识别准确率和特异性不高的问题,提出一种基于复合物参与度和密度的关键蛋白质预测算法PEC。首先融合GO注释信息和边聚集系数构造加权PPI网络,克服假阳性对实验结果的影响;基于蛋白质相互作用的边权重,构造相似度矩阵,设计特征值间的最大本征差值来自动确定划分数目K,同时根据加权网络中的蛋白质节点度来选取K个初始聚类中心,进而利用谱聚类结合模糊C-means聚类算法实现复合物的挖掘,提高聚类的准确率,降低数据的维数;其次基于蛋白质节点的复合物参与度以及节点邻域子图密度,设计出关键节点的关键性得分。在DIP和Krogan 2个数据集上,将PEC与DC、BC、CC、SC、IC、PeC、WDC、LIDC、LBCC和UC 10种经典算法相比,实验结果表明,PEC算法能够识别出更多的关键蛋白质,且聚类结果的准确率和特异性较高。  相似文献   

10.
吴爽  雷秀娟 《计算机科学》2012,39(7):205-209
预测蛋白质交互作用(Protein-Protein Interaction,PPI)网络中未知蛋白质的功能,是生物信息学的一个研究热点.目前基于功能流的方法能有效地解决PPI网络的聚类问题,但是其正确率偏低、时间复杂度较高.为此提出了一种融合人工鱼群机理的PPI网络聚类模型与算法:将人工鱼看作一组聚类中心,觅食行为是指从每个聚类中心开始向它的邻接结点搜索并添加结点到该聚类模块中;接下来将目标函数值最大的人工鱼对应的一组聚类模块看作初始的聚类结果,对应鱼群的追尾行为;剩下的人工鱼开始执行聚群行为,判断对应的聚类模块与初始的聚类结果之间的相似度.如果相似度低于给定的阈值,则将聚类模块添加到初始的聚类结果中.PPI数据集上的仿真实验表明,该算法可以自动确定聚类数目,而且聚类结果的正确率和算法的运行效率都优于功能流算法.  相似文献   

11.
Rapidly identifying protein complexes is significant to elucidate the mechanisms of macromolecular interactions and to further investigate the overlapping clinical manifestations of diseases.To date,existing computational methods majorly focus on developing unsupervised graph clustering algorithms,sometimes in combination with prior biological insights,to detect protein complexes from protein-protein interaction(PPI)networks.However,the outputs of these methods are potentially structural or functional modules within PPI networks.These modules do not necessarily correspond to the actual protein complexes that are formed via spatiotemporal aggregation of subunits.In this study,we propose a computational framework that combines supervised learning and dense subgraphs discovery to predict protein complexes.The proposed framework consists of two steps.The first step reconstructs genome-scale protein co-complex networks via training a supervised learning model of l2-regularized logistic regression on experimentally derived co-complexed protein pairs;and the second step infers hierarchical and balanced clusters as complexes from the co-complex networks via effective but computationally intensive k-clique graph clustering method or efficient maximum modularity clustering(MMC)algorithm.Empirical studies of cross validation and independent test show that both steps achieve encouraging performance.The proposed framework is fundamentally novel and excels over existing methods in that the complexes inferred from protein co-complex networks are more biologically relevant than those inferred from PPI networks,providing a new avenue for identifying novel protein complexes.  相似文献   

12.
朱海湾 《计算机应用研究》2020,37(2):390-397,420
针对基于蚁群聚类的蛋白质复合物挖掘算法中,静态PPI网络难以真实反映细胞的动态特性,收敛速度较慢、聚类准确性和召回率不高等问题,提出一种基于模糊粒度和紧密度的蚁群聚类动态加权PPI网络复合物挖掘方法(FGCDACC-DPC)。首先基于动态PPI网络的拓扑特性和生物特性设计了综合性权值度量(comprehensive weight metric,CWM),准确描述了蛋白质之间的相互作用;其次根据复合物的基本特征,构建一组稠密且高度共表达的复合核,然后设计模糊粒度和紧密度的拾起放下模型对其余节点聚类,降低了计算复杂度和随机性,加快聚类速度;最后基于功能信息传递和时序功能相关的思想分别构建了局部和全局权值更新策略,实现不同代蚁群和不同时刻网络之间的功能信息传递,提高聚类准确性。将FGCDACC-DPC算法应用在DIP数据上进行复合物挖掘,实验结果表明该算法的精度和召回率较高,能够较准确地识别蛋白质复合物。  相似文献   

13.
In the post-genomic era, proteomics has achieved significant theoretical and practical advances with the development of high-throughput technologies. Especially the rapid accumulation of protein-protein interactions (PPIs) provides a foundation for constructing protein interaction networks (PINs), which can furnish a new perspective for understanding cellular organizations, processes, and functions at network level. In this paper, we present a comprehensive survey on three main characteristics of PINs: centrality, modularity, and dynamics. 1) Different centrality measures, which are used to calculate the importance of proteins, are summarized based on the structural characteristics of PINs or on the basis of its integrated biological information; 2) Different modularity definitions and various clustering algorithms for predicting protein complexes or identifying functional modules are introduced; 3) The dynamics of proteins, PPIs and sub-networks are discussed, respectively. Finally, the main applications of PINs in the complex diseases are reviewed, and the challenges and future research directions are also discussed.  相似文献   

14.
Protein-protein interactions (PPIs) play crucial roles in virtually every aspect of cellular function within an organism. One important objective of modern biology is the extraction of functional modules, such as protein complexes from global protein interaction networks. This paper describes how seven genomic features and four experimental interaction data sets were combined using a Bayesian-networks-based data integration approach to infer PPI networks in yeast. Greater coverage and higher accuracy were achieved than in previous high-throughput studies of PPI networks in yeast. A Markov clustering algorithm was then used to extract protein complexes from the inferred protein interaction networks. The quality of the computed complexes was evaluated using the hand-curated complexes from the Munich Information Center for Protein Sequences database and gene-ontology-driven semantic similarity. The results indicated that, by integrating multiple genomic information sources, a better clustering result was obtained in terms of both statistical measures and biological relevance.  相似文献   

15.
Protein-protein interactions (PPIs) play crucial roles in virtually every aspect of cellular function within an organism. One important objective of modern biology is the extraction of functional modules, such as protein complexes from global protein interaction networks. This paper describes how seven genomic features and four experimental interaction data sets were combined using a Bayesian-networks-based data integration approach to infer PPI networks in yeast. Greater coverage and higher accuracy were achieved than in previous high-throughput studies of PPI networks in yeast. A Markov clustering algorithm was then used to extract protein complexes from the inferred protein interaction networks. The quality of the computed complexes was evaluated using the hand-curated complexes from the Munich Information Center for Protein Sequences database and gene-ontology-driven semantic similarity. The results indicated that, by integrating multiple genomic information sources, a better clustering result was obtained in terms of both statistical measures and biological relevance.  相似文献   

16.
认定蛋白质交互网中的功能模块对于理解细胞的组织结构,处理过程及其功能都是至关重要的。由于一个蛋白质可能具有多重功能因此蛋白质功能模块可能会相互交叠。然而,目前已有的一些识别功能模块的软聚类算法有如下两个缺陷:一是一些算法需要阈值来截断聚类;二是有些算法需要预设聚类数目。为了克服这两个缺陷,提出了随机走步软聚类识别算法来认定蛋白质交互网中的交叠功能模块。实验结果表明该算法在无需任何参数的情况下能发现一些重要的交叠功能模块。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号