首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 522 毫秒
1.
蛋白质复合物对于生物学家有效了解细胞组织和功能具有重要意义,如何通过计算方法从蛋白质-蛋白质相互作用(PPI)网络中识别复合物是当前研究热点之一。然而,由于PPI网络中存在大量假阴性和假阳性噪声数据且现有已知蛋白质复合物并不完整,使得如何克服PPI网络的噪声问题,以及更好地利用已知蛋白质复合物,成为蛋白质复合物识别亟待解决的关键问题。为此,该文提出一种基于蛋白质复合物拓扑信息,利用监督学习进行蛋白质复合物识别的算法(NOBEL)。首先,NOBEL根据蛋白质的生物信息和拓扑信息构建加权PPI网络,降低了网络中的噪声问题;然后,通过加权PPI网络和未加权PPI网络提取复合物拓扑信息作为特征,并根据提取的特征训练监督学习模型,使得监督学习模型能有效学习复合物蕴含的信息;最后,将训练好的模型应用于PPI网络识别蛋白质复合物。作者在四种真实PPI网络上进行了实验,实验结果表明,NOBEL与其他七种蛋白质复合物识别算法相比,在F-measure方面分别至少提高了4.39%(Gavin)、1.32%(DIP)、2.39%(WI-PHI_core)和2.34%(WI-PHI_extend)。  相似文献   

2.
蛋白质复合物是细胞结构和生化机制的研究基础,如何准确识别蛋白质复合物成为近年来的研究热点。针对传统算法根据结构信息对蛋白质复合物进行搜索存在敏感度和F-measure低的问题,以及现有监督学习算法根据人为构造特征进行蛋白质复合物识别存在特征构造不能较好地反映图的真实信息等不足,提出了graph2vec-SVM识别算法。将蛋白质复合物看作稠密子图并考虑子图模块度大小,利用graph2vec将图信息转换为向量,并进一步采用SVM分类器对蛋白质复合物进行识别,提高了蛋白质复合物识别的敏感度和F-measure。该算法分别与目前流行的4种非监督学习算法(ClusterOne、CMC、HC-PIN和COACH)和3种监督学习算法(SCI-BN、SCI-SVM和RM)进行比较,在精准度、敏感度和F-measure 3项指标上都显示出了良好的性能。  相似文献   

3.
朱海湾 《计算机应用研究》2020,37(2):390-397,420
针对基于蚁群聚类的蛋白质复合物挖掘算法中,静态PPI网络难以真实反映细胞的动态特性,收敛速度较慢、聚类准确性和召回率不高等问题,提出一种基于模糊粒度和紧密度的蚁群聚类动态加权PPI网络复合物挖掘方法(FGCDACC-DPC)。首先基于动态PPI网络的拓扑特性和生物特性设计了综合性权值度量(comprehensive weight metric,CWM),准确描述了蛋白质之间的相互作用;其次根据复合物的基本特征,构建一组稠密且高度共表达的复合核,然后设计模糊粒度和紧密度的拾起放下模型对其余节点聚类,降低了计算复杂度和随机性,加快聚类速度;最后基于功能信息传递和时序功能相关的思想分别构建了局部和全局权值更新策略,实现不同代蚁群和不同时刻网络之间的功能信息传递,提高聚类准确性。将FGCDACC-DPC算法应用在DIP数据上进行复合物挖掘,实验结果表明该算法的精度和召回率较高,能够较准确地识别蛋白质复合物。  相似文献   

4.
蛋白质互作用网络是一种典型的复杂网络,呈现了明显的社区结构。网络中的社区对应于功能模块,通常被看作蛋白质复合物。蛋白质复合物识别对预测蛋白质功能,解释特定生物进程具有重要作用。基于种子节点扩展的图聚类方法在蛋白质复合物识别中应用广泛。针对此类算法最终结果受种子节点的影响较大,并且在簇的形成过程中搜索空间有限等问题,提出了一种基于遗传算法的蛋白质复合物识别算法GAGC(genetic algorithm based graph clustering),其中个体表示聚类结果(类别之间可能存在重叠节点),以F-measure值作为种群进化的目标函数。算法采用IPCA(improvement development clustering algorithm)算法产生初始种群;针对初始种群,设计了染色体对齐方式以进行交叉操作产生下一代种群。通过与DPClus、MCODE、IPCA、Cluster One、HC-PIN、CFinder等经典算法的对比实验表明,GAGC算法能够扩大图聚类算法的搜索空间,提高解的多样性,进而提高蛋白质复合物检测的性能。  相似文献   

5.
针对在蛋白质相互作用网络上的关键蛋白质识别只关注拓扑特性,蛋白质相互作用数据中存在较高比例的假阳性数据以及基于复合物信息的关键蛋白质识别算法对节点的邻域信息和复合物的挖掘对关键蛋白质的识别影响效果考虑不够全面等导致的识别准确率和特异性不高的问题,提出一种基于复合物参与度和密度的关键蛋白质预测算法PEC。首先融合GO注释信息和边聚集系数构造加权PPI网络,克服假阳性对实验结果的影响;基于蛋白质相互作用的边权重,构造相似度矩阵,设计特征值间的最大本征差值来自动确定划分数目K,同时根据加权网络中的蛋白质节点度来选取K个初始聚类中心,进而利用谱聚类结合模糊C-means聚类算法实现复合物的挖掘,提高聚类的准确率,降低数据的维数;其次基于蛋白质节点的复合物参与度以及节点邻域子图密度,设计出关键节点的关键性得分。在DIP和Krogan 2个数据集上,将PEC与DC、BC、CC、SC、IC、PeC、WDC、LIDC、LBCC和UC 10种经典算法相比,实验结果表明,PEC算法能够识别出更多的关键蛋白质,且聚类结果的准确率和特异性较高。  相似文献   

6.
基于贝叶斯网络的半监督聚类集成模型   总被引:2,自引:0,他引:2  
王红军  李志蜀  戚建淮  成飏  周鹏  周维 《软件学报》2010,21(11):2814-2825
已有的聚类集算法基本上都是非监督聚类集成算法,这样不能利用已知信息,使得聚类集成的准确性、鲁棒性和稳定性降低。把半监督学习和聚类集成结合起来,设计半监督聚类集成模型来克服这些缺点。主要工作包括:第一,设计了基于贝叶斯网络的半监督聚类集成(semi-supervised cluster ensemble,简称SCE)模型,并对模型用变分法进行了推理求解;第二,在此基础上,给出了EM(expectation maximization)框架下的具体算法;第三,从UCI(University of Califor  相似文献   

7.
蛋白质复合物的预测对生物研究至关重要,现有的预测算法主要是基于蛋白质相互作用网络的局部结构发现算法,其存在一定的局限性,无法利用已知复合物作为先验知识,无法有效融合蛋白质生物关联性数据,因此其预测结果中会存在部分不符合复合物形成规律的样本。本文提出基于图卷积的复合物筛选模型,该模型充分考虑了蛋白质特征,在蛋白质复合物对应的局部图中将特征进行深度融合,从而有效地对蛋白质复合物进行评分,识别并剔除一般复合物预测算法结果中的低分复合物样本,提高其预测的准确性。  相似文献   

8.
《计算机科学与探索》2017,(8):1279-1287
蛋白质复合物的检测对人类了解细胞组织和疾病预测起着至关重要的作用。然而,当前的蛋白质复合物识别方法的准确率低,对噪音敏感等缺点导致其识别效果并不理想。提出了一种新的蛋白质复合物识别方法PIOC(pigeon-inspired optimization clustering)。该方法根据蛋白质复合物的特性提出了簇的紧密邻接点概念和附件对核心的附着度概念,基于这两个概念,PIOC通过模拟鸽子优化算法中鸽子寻找目的地的过程来识别蛋白质复合物;结合鸽子算法中先全局搜索再局部搜索的特性和蛋白质复合物的核心附件结构,先通过鸽子算法中地图罗盘操作的全局搜索形成蛋白质复合物的核心,再通过鸽子算法地标操作的局部搜索将附件蛋白质聚集到核心簇中形成蛋白质复合物。基于酵母蛋白质相互作用网络DIP上的实验表明,PIOC比当前其他的蛋白质复合物识别算法能更有效地识别蛋白质复合物。  相似文献   

9.
蛋白质复合物的检测有助于从分子水平上理解生命的活动过程。针对群智能算法检测蛋白质复合物时假阳/阴性率高、准确率低、种群多样性下降等问题,提出了基于强化学习的离散层级萤火虫算法检测蛋白质复合物(reinforcement learning-based discrete level firefly algorithm for detecting protein complexes,RLDLFA-DPC)。引入强化学习思想提出一种自适应层级划分策略,动态调整层级结构,能有效解决迭代后期种群多样性下降的问题。在层级学习策略中个体向两个优秀层级学习,避免算法陷入局部最优。为了提高蛋白质复合物检测的精度,结合个体环境信息提出自适应搜索半径的局部搜索策略。最后,在酵母蛋白质的4个数据集上,与8种经典的蛋白质复合物检测方法进行对比,验证了该方法的有效性。  相似文献   

10.
动态蛋白质网络的构建和复合物识别问题是生物信息学领域目前研究的热点.针对现有的算法在解决前述问题上的不足,提出了一种基于隐马尔科夫模型的蛋白质复合物识别算法(HMM-PC).首先基于蛋白质的基因共表达特性构建初始蛋白质网络,然后利用蛋白质的共享功能注释、共享结构域和连接强度等信息来对网络进行加权,得到动态蛋白质网络.在此基础上,考虑前一时刻蛋白质网络拓扑结构信息对当前时刻蛋白质网络拓扑结构信息的影响,采用隐马尔科夫模型描述蛋白质复合物与网络个体间的相互关系,进而将动态蛋白质网络中的复合物识别问题建模为隐马尔科夫模型中的最优状态序列发现问题,并采用维特比算法识别得到蛋白质复合物.最后通过理论分析证明了所提算法的复杂度较低.采用DIP数据集和MIPS数据集中的酵母蛋白质网络作为测试对象,大量的仿真实验结果也表明,HMM-PC算法的鲁棒性较强,在查全率、查准率、F-measure和效率等方面的性能都要优于现有的复合物识别算法.  相似文献   

11.
郭茂祖  张彬  赵玲玲  张昱 《计算机应用》2020,40(11):3159-3165
针对以往活动语义识别研究单纯提取时间维度上的序列特征以及周期特征、缺乏对空间信息的深度挖掘等问题,提出一种基于联合特征和极限梯度提升(XGBoost)的活动语义识别方法。首先,挖掘时间信息中的活动周期性特征和空间信息中的经纬度特征;然后,使用经纬度信息通过具有噪声的基于密度的聚类(DBSCAN)算法提取空间区域热度特征,将这些特征组成特征向量来刻画用户活动语义;最后,采用集成学习方法中的XGBoost算法建立活动语义识别模型。在FourSquare的两个公共签到数据集上,基于联合特征的模型比基于时间特征的模型在识别准确率上提高了28个百分点,与上下文感知混合(CAH)方法和时空活动偏好(STAP)方法对比,所提方法的识别准确率分别提高了30个百分点和5个百分点。实验结果表明所提方法与对比方法相比在活动语义识别问题上更加准确有效。  相似文献   

12.
郭茂祖  张彬  赵玲玲  张昱 《计算机应用》2005,40(11):3159-3165
针对以往活动语义识别研究单纯提取时间维度上的序列特征以及周期特征、缺乏对空间信息的深度挖掘等问题,提出一种基于联合特征和极限梯度提升(XGBoost)的活动语义识别方法。首先,挖掘时间信息中的活动周期性特征和空间信息中的经纬度特征;然后,使用经纬度信息通过具有噪声的基于密度的聚类(DBSCAN)算法提取空间区域热度特征,将这些特征组成特征向量来刻画用户活动语义;最后,采用集成学习方法中的XGBoost算法建立活动语义识别模型。在FourSquare的两个公共签到数据集上,基于联合特征的模型比基于时间特征的模型在识别准确率上提高了28个百分点,与上下文感知混合(CAH)方法和时空活动偏好(STAP)方法对比,所提方法的识别准确率分别提高了30个百分点和5个百分点。实验结果表明所提方法与对比方法相比在活动语义识别问题上更加准确有效。  相似文献   

13.
分析并研究航迹规划软件中的飞行器操作数据特征,提出一种基于XGBoost算法和K-prototypes算法的航迹规划策略学习方法。在样本采集与分类过程中,根据约束自身特性和规划人员操作特征,将约束分为飞行器环境约束和飞行器特性相关约束,分别采用XGBoost算法和K-prototypes算法进行策略学习,并对飞行器特性相关约束做进一步细分,实现复杂约束的针对性学习及样本分类管理。当航迹不满足约束时,需将已获得的规划策略反馈给规划人员使其得到策略引导。实验结果表明,该方法能准确选取航迹规划策略并给出策略引导信息,降低规划人员的工作强度,提升交互规划效率和规划软件的智能性。  相似文献   

14.
基于机器学习的迭代编译方法可以在对新程序进行迭代编译时,有效预测新程序的最佳优化参数组合。现有方法在模型训练过程中存在优化参数组合搜索效率较低、程序特征表示不恰当、预测精度不高的问题。因此,基于机器学习的迭代编译方法是当前迭代编译领域内的一个研究热点,其研究挑战在于学习算法选择、优化参数搜索以及程序特征表示等问题。基于监督学习技术,提出了一种程序优化参数预测方法。该方法首先通过约束多目标粒子群算法对优化参数空间进行搜索,找到样本函数的最佳优化参数;然后,通过动静结合的程序特征表示技术,对函数特征进行抽取;最后,通过由函数特征和优化参数形成的样本构建监督学习模型,对新程序的优化参数进行预测。分别采用k近邻法和softmax回归建立统计模型,实验结果表明,新方法在NPB测试集和大型科学计算程序上实现了较好的预测性能。  相似文献   

15.
搜索引擎作为互联网主要应用之一,能够根据用户需求从互联网资源中检索并返回有效信息。然而,得到的返回列表往往包含广告和失效网页等噪声信息,而这些信息会干扰用户的检索与查询。针对复杂的网页结构特征和丰富的语义信息,提出了一种基于注意力机制和集成学习的网页黑名单判别方法,并采用本方法构建了一种基于集成学习和注意力机制的卷积神经网络(EACNN)模型来过滤无用的网页。首先,根据网页上不同种类的HTML标签数据,构建多个基于注意力机制的卷积神经网络(CNN)基学习器;然后,采用基于网页结构特征的集成学习方法对不同基学习器的输出结果执行不同的权重计算,从而实现EACNN的构建;最后,将EACNN的输出结果作为网页内容分析结果,从而实现网页黑名单的判别。所提方法通过注意力机制来关注网页语义信息,并通过集成学习的方式引入网页结构特征。实验结果表明,与支持向量机(SVM)、K近邻(KNN)、CNN、长短期记忆(LSTM)网络、GRU、结合注意力机制的卷积神经网络(ACNN)等基线模型相比,所提模型在所构建的面向地理信息领域的判别数据集上具有最高的准确率(0.97)、召回率(0.95)和F1分值(0.96),验证了EACNN在网页黑名单判别工作中的优势。  相似文献   

16.
链接预测属于复杂网络分析的研究分支,它根据网络历史结构信息预测未来节点间会产生链接的可能性,从而挖掘网络的传播和演化方式。通过引入差分化节点的贡献权重并结合经典的节点和共邻节点网络拓扑结构特征,分别应用七类有监督学习-分类模型对社交、生物、交通等不同领域的八个真实复杂网络数据集进行实验,并采用Precision和ROC曲线对实验结果进行分析与评价。实验表明,引入基于差分化节点的贡献特征能够在深入挖掘网络结构信息的基础上比其余特征有更优的预测精确度,同时差异化的分类模型和特征选择对链接预测性能有相异的影响。  相似文献   

17.
Pedestrian counting plays an important role in public safety and intelligent transportation. Most pedestrian counting algorithms based on supervised learning require much labeling work and rarely exploit the topological information of unlabelled data in a video. In this paper, we propose a Semi-Supervised Elastic Net (SSEN) regression method by utilizing sequential information between unlabelled samples and their temporally neighboring samples as a regularization term. Compared with a state-of-the-art algorithm, extensive experiments indicate that our algorithm can not only select sparse representative features from the original feature space without losing their interpretability, but also attain superior prediction performance with only very few labelled frames.  相似文献   

18.
We set out in this study to review a vast amount of recent literature on machine learning (ML) approaches to predicting financial distress (FD), including supervised, unsupervised and hybrid supervised–unsupervised learning algorithms. Four supervised ML models including the traditional support vector machine (SVM), recently developed hybrid associative memory with translation (HACT), hybrid GA-fuzzy clustering and extreme gradient boosting (XGBoost) were compared in prediction performance to the unsupervised classifier deep belief network (DBN) and the hybrid DBN-SVM model, whereby a total of sixteen financial variables were selected from the financial statements of the publicly-listed Taiwanese firms as inputs to the six approaches. Our empirical findings, covering the 2010–2016 sample period, demonstrated that among the four supervised algorithms, the XGBoost provided the most accurate FD prediction. Moreover, the hybrid DBN-SVM model was able to generate more accurate forecasts than the use of either the SVM or the classifier DBN in isolation.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号