首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 203 毫秒
1.
蛋白质功能的准确预测有利于推进生物医学发展,高通量测序技术的快速发展加快了蛋白质序列的提取速度,从而产生了大量未注释的蛋白质,并且新测序序列缺乏结构等生物信息,针对该问题提出了基于序列和组合图卷积网络的蛋白质功能预测模型(Protein Function Prediction using Sequences and Combined Graph Convolutional Networks, PFP-SCGCN).首先通过深度学习方法捕获蛋白质序列的多维特征信息,再通过多序列比对从蛋白质序列中提取进化耦合信息和氨基酸残基群落,然后利用进化耦合信息和氨基酸残基群落生成序列氨基酸之间两种不同连接程度的邻接矩阵,将这两种邻接矩阵与序列特征信息一起输入给组合图卷积网络进行信息融合,最后通过多个全连接层获得蛋白质功能类别信息.本文还通过分析PFP-SCGCN的特定网络层识别蛋白质功能位点,可帮助人们推测出新序列中的重要氨基酸.模型结果表明,PFP-SCGCN模型的功能预测准确率远高于对比方法,具有较好的鲁棒性,并且可以较准确的识别功能位点.  相似文献   

2.
蛋白质的功能对于理解细胞和生物的活动机制、研究疾病机理等至关重要。面对序列数据库的快速增长,传统的实验和序列对比方法不足以支撑大规模的蛋白质功能标注。为此,提出EGNet(evolutionary graph network)模型,采用蛋白质预训练语言模型ESM2和one-hot编码得到蛋白质序列编码,通过序列自注意力和物理计算整合出残基间的协同进化信息PI(paired interaction)和SPI(strong paired interaction);之后将两种进化信息和序列编码作为多层串联图卷积网络输入,学习序列编码节点特征,实现端到端的蛋白质功能预测。与早期方法相比,在ENZYME数据库中的EC(Enzyme Commission)类别标签上,EGNet获得了更好的性能,其F-score达到0.89,AUPR值达到0.91。结果表明,EGNet仅仅采用单条序列来预测蛋白质功能就可以得到良好的结果,从而能够提供快速且有效的蛋白质功能注释。  相似文献   

3.
蛋白质三维结构决定了其特殊的生物功能,蛋白质三维结构对蛋白质功能研究、疾病的诊断与治疗、创新药物研发都有着重要的科学意义。利用计算机技术从氨基酸序列预测蛋白质三维结构是获取蛋白质三维结构的有效方法。片段组装是一种广泛采用的蛋白质结构预测技术,它将连续的构象空间优化问题转换成离散的实验片段组合优化问题,从而有效地减小了构象搜索空间。首先介绍了片段组装技术;其次总结了基于片段组装的蛋白质结构预测的发展历程,并对部分具有代表性的方法进行了简要阐述;然后介绍了蛋白质结构预测研究中常用的数据库和评价指标,并比较了不同预测方法的性能;最后分析并指出了当前基于片段组装的蛋白质结构预测方法所存在的挑战性问题,并对该领域未来的研究方向进行了展望。  相似文献   

4.
基于最大熵模型预测蛋白质结构的分类   总被引:1,自引:0,他引:1  
基于最大熵模型,构建一种简单的预测蛋白质序列结构分类的算法。不同性质的氨基酸组合,在特定结构的蛋白质二级结构中,出现的频率不同,通过在模体数据库Prosite中查找蛋白质序列匹配的模体,以10种氨基酸组合在序列中出现的频率,表示蛋白质序列的特征,构建相应的结构分类预测模型。最大熵模型用来确定蛋白质结构分类预测模型的参数。以自身一致性和Jackknife测试方法验证分类模型的准确性。结果表明新构建的方法简单、准确,综合性能优于一般的预测方法。  相似文献   

5.
特征向量的构造是蛋白质二级结构预测的一个关键问题. 现有的研究方法,通常只使用BLOSUM62进化矩阵生成PSSM矩阵,对蛋白质进化过程中存在的氨基酸残基突变现象缺乏考虑. 本文提出利用多重进化矩阵构造蛋白质特征向量,其融合了不同进化时间的PSSM矩阵,不仅能够很好地反映序列中氨基酸的位置信息,而且能够反映序列进化过程中氨基酸位点发生突变产生的影响. 本文通过组合不同进化程度的矩阵来构造特征向量,选用逻辑回归、随机森林和多分类支持向量机三种分类算法作为预测工具,利用网格搜索法和交叉实验法优化参数,在RS126、CB513和25PDB公用数据集上进行了若干组实验. 对比实验结果表明,本文所提出基于多重进化矩阵的蛋白质特征向量构造方法能够有效提高蛋白质二级结构的预测精度.  相似文献   

6.
基于序列的G蛋白偶联受体-药物相互作用预测研究   总被引:1,自引:0,他引:1  
丁林松  郑宇杰 《计算机科学》2015,42(8):75-77, 111
准确预测G蛋白质偶联受体(GPCR)是否与药物(Drug)相互作用是新药开发的关键步骤之一。从时间和费用方面来说,通过生物实验的方法来确定GPCR-Drug是否相互作用的代价是昂贵的。因此,直接从蛋白质序列出发预测GPCR-Drug的相互作用具有重要的意义。提出了一种基于序列的GPCR-Drug相互作用预测方法:从蛋白质序列抽取进化信息特征;对药物抽取指纹特征;基于上述两种特征,使用基于证据理论的K近邻算法进行分类预测。在标准数据集上的实验结果表明了所述方法的有效性。  相似文献   

7.
片段组装方法是从头预测蛋白质三维结构的一类重要方法.现有的基于序列相似的片段库质量限制了低同源目标的预测精度,所以寻找与天然结构更加拟合的已知蛋白质结构片段来构建高质量的片段库是片段组装方法的一项重要任务.本文利用SCOP数据库中的三维结构相似性,对SCOP的折叠模式进行预测,提取预测出的相同折叠模式的已知蛋白质结构的信息,生成保存残基信息的数据库(Vall库).然后将目标蛋白质序列分割成的残基片段与Vall库进行综合评价后生成一种新的片段库,该片段库可以用于一个骨架预测并行蚁群算法.将本文方法与蛋白质结构预测程序RosettaAbinitio的基于序列的片段库进行了比较,实验结果表明采用本文方法的片段库可以找到更接近天然构象的蛋白质结构.  相似文献   

8.
南雨宏  陈绮 《微机发展》2011,(10):168-170,175
提出一种易于修改的蛋白质二级结构预测算法。以蛋白质数据银行中PDB文本数据作为数据源,提取所有蛋白质氨基酸序列并以此建立样本数据库,然后针对α-螺旋、β-折叠分别利用基于散列辞典的不同改进方法编程实现蛋白质二级结构序列片段预测,在预测过程中,随机抽取68421个蛋白质中部分样本作为测试集,对未知序列根据建立的散列辞典中的片段使用正向最大匹配分词法进行切分对比。从实验结果来看,对未知序列片段预测的准确度达到了83.9%,而且能够较好地体现片段之间的连接顺序。  相似文献   

9.
利用相似规则、互补规则和分子识别理论建立一种氨基酸数字编码模型用于研究序列特征、功能预测。给出一种新的基于元胞自动机的蛋白质序列图像生成方法,其优点是考虑了氨基酸前后的相互作用,生成的图像与基因序列一一对应,许多隐藏在蛋白质序列中的重要特性通过元胞自动机图可以表现出来。基于蛋白质元胞自动机图所得到的蛋白质伪氨基酸成分,蛋白质亚细胞定位预测成功率可以达到86.4%。  相似文献   

10.
近年来大量的物种全基因组序列被测序出来,使得生物研究进入了后基因组时代,由单个的基因研究转入大规模的蛋白及功能领域的研究。蛋白质之间的相互作用作为最基本内容已经成为了研究的基础和重点。本文提出一种癌症蛋白质作用网络分析方法。本项目主要是开发一个系统,该系统能够从生物文本中提取出蛋白质的相关信息,进行蛋白质功能聚类,并构建蛋白质间相互作用的网络,用以预测癌症。  相似文献   

11.
进化策略的一种改进及其在蛋白质结构预测中的应用   总被引:2,自引:1,他引:1  
进化策略算法是一种模拟自然界生物进化过程的全局优化方法。本文将一种改进的进化策略算法应用于蛋白质三维HPNX非格模型,较成功地预测了蛋白质序列1RPB、1BPI和1UBQ的折叠趋势,说明了三维HPNX非格模型比简化HP非格模型更能准确地描述蛋白质的折叠情况,同时表明了进化策略算法用于蛋白质结构预测问题是可行的、有效的。  相似文献   

12.
《Computers & chemistry》1994,18(3):269-285
Computational methods based on mathematically-defined measures of compositional complexity have been developed to distinguish globular and non-globular regions of protein sequences. Compact globular structures in protein molecules are shown to be determined by amino acid sequences of high informational complexity. Sequences of known crystal structure in the Brookhaven Protein Data Bank differ only slightly from randomly shuffled sequences in the distribution of statistical properties such as local compositional complexity. In contrast, in the much larger body of deduced sequences in the SWISS-PROT database, approximately one quarter of the residues occur in segments of non-randomly low complexity and approximately half of the entries contain at least one such segment. Sequences of proteins with known, physicochemically-defined non-globular regions have been analyzed, including collagens, different classes of coiled-coil proteins, elastins, histones, non-histone proteins, mucins, proteoglycan core proteins and proteins containing long single solvent-exposed alpha-helices. The SEG algorithm provides an effective general method for partitioning the globular and non-globular regions of these sequences fully automatically. This method is also facilitating the discovery of new classes of long, non-globular sequence segments, as illustrated by the example of the human CAN gene product involved in tumor induction.  相似文献   

13.
Predicting software engineering trends is a strategically important asset for both developers and managers, but it's also difficult, due to the wide range of factors involved and the complexity of their interactions. This paper reveals some interesting trends and a method for studying other important software engineering trends. This article trades breadth for depth by focusing on a small, compact set of trends involving 17 high-level programming languages. We quantified many of their relevant factors, and then collected data on their evolution over 10 years. By applying statistical methods to this data, we aim to gain insight into what does and does not make a language successful.  相似文献   

14.
活性肽搜寻与蛋白模拟水解数据库的建立   总被引:1,自引:0,他引:1  
利用Microsoft Office XP中的Access XP数据库软件建立3个数据库系统,蛋白质数据库包含小麦面筋、大米、玉米等常见食物蛋白质序列23739条,活性肽数据库包含ACE抑制肽、免疫肽、阿片肽等生物活性肽序列1396条,以及常见的蛋白质水解酶信息。数据库与编制的“生物活性肽搜寻与酶解模拟系统”程序配合,实现单条、多条活性肽序列在蛋白质中批量搜寻,并找出活性肽含量的链长百分比,活性肽在蛋白质中的位置和前后氨基酸的种类,实现肽的活性不完全归纳预测活性,实现蛋白质用单酶或者复酶的模拟水解并标出水解产物中活性肽及其功能。  相似文献   

15.
Like all software systems, databases are subject to evolution as time passes. The impact of this evolution can be vast as a change to the schema of a database can affect the syntactic correctness and the semantic validity of all the surrounding applications. In this paper, we have performed a thorough, large-scale study on the evolution of databases that are part of larger open source projects, publicly available through open source repositories. Lehman׳s laws of software evolution, a well-established set of observations on how the typical software systems evolve (matured during the last forty years), has served as our guide towards providing insights on the mechanisms that govern schema evolution. Much like software systems, we found that schemata expand over time, under a stabilization mechanism that constraints uncontrolled expansion with perfective maintenance. At the same time, unlike typical software systems, the growth is typically low, with long periods of calmness interrupted by bursts of maintenance and a surprising lack of complexity increase.  相似文献   

16.
Experimental research in dependability has evolved over the past 30 years accompanied by dramatic changes in the computing industry. To understand the magnitude and nature of this evolution, this paper analyzes industrial trends, namely: 1) shifting error sources, 2) explosive complexity, and 3) global volume. Under each-of these trends, the paper explores research technologies that are applicable either to the finished product or artifact, and the processes that are used to produce products. The study gives a framework to not only reflect on the research of the past, but also project the needs of the future.  相似文献   

17.
The links between identification and control are examined. The main trends in this research area are summarized, with particular focus on the design of low complexity controllers from a statistical perspective. It is argued that a guiding principle should be to model as well as possible before any model or controller simplifications are made as this ensures the best statistical accuracy. This does not necessarily mean that a full-order model always is necessary as well designed experiments allow for restricted complexity models to be near-optimal. Experiment design can therefore be seen as the key to successful applications. For this reason, particular attention is given to the interaction between experimental constraints and performance specifications.  相似文献   

18.
洪海燕  刘维 《计算机科学》2017,44(10):38-44
关键蛋白质是生物体内维持所有生命活动最重要的物质基础。随着高通量技术的发展,如何从蛋白质相互作用网络中识别出关键蛋白质成为目前蛋白质组学的研究热点。针对大部分现有方法仅仅基于网络拓扑结构信息进行识别以及蛋白质相互作用数据假阳性高的问题,提出了改进的粒子群算法来识别关键蛋白质。通过综合考虑网络拓扑结构特性和多源生物属性信息构建了高质量的加权网络,还考虑使用蛋白质节点间联系的紧密程度来衡量蛋白质的关键性,并扩展局部网络拓扑至二阶邻居,大大提高了预测的准确率。提出了衡量top-p关键蛋白质的整体性指标,降低了计算复杂度。在标准数据集上的实验结果表明,与其他经典算法相比,所提算法更具优势,能够识别出更多的蛋白质,具有较高的准确率。  相似文献   

19.
图像统计模型参数估计中的期望最大值算法   总被引:1,自引:1,他引:0       下载免费PDF全文
期望最大值算法是近年来图像统计模型参数估计技术领域的研究热点之一。在对期望最大值算法分析的基础上,结合其在图像统计模型参数估计中的应用研究,对改变标准期望最大值算法的3种方式进行比较分析。结合图像恢复、分割、目标跟踪以及与其他优化算法的融合应用,从丢失数据集的选取、丢失数据集和不完全数据集统计模型的建立,以及统计模型参数估计3个方面,评述期望最大值算法优缺点。丢失数据的选取和不完全数据的描述形式直接决定期望最大值算法的结构和计算复杂度,以致算法的成败。最后,讨论期望最大值算法目前存在的问题及未来的发展方向,指出其在具有丢失数据统计模型参数估计中广泛应用。  相似文献   

20.
洪海燕  刘维 《计算机科学》2016,43(Z11):16-20, 25
关键蛋白质对于细胞生活是不可缺少的,识别关键蛋白质可以帮助了解细胞生活的最小需求,同时对药物设计也有非常大的作用。随着高通量技术的发展,人们可得到越来越多的蛋白质-蛋白质相互作用(PPI)的数据,这就使得可以在网络层次上来研究关键蛋白质。目前,学术界已经提出了一系列的计算方法来识别关键蛋白质,但这些方法并没有完全解决蛋白质相互作用数据的假阳性问题。除此之外,现有方法一般只考虑了网络的拓扑结构,对于生物信息的考虑,目前还是比较欠缺的。蛋白质对于人类细胞的生命活动不仅仅与网络拓扑结构有关,还和蛋白质在网络上的生物信息相关。因此,针对以上问题,提出了一种高效的预测关键蛋白质的新方法EPP(Essential Proteins Predict),该方法通过计算蛋白质在PPI网络中的重要性来进行预测,蛋白质的重要性越高,成为关键蛋白质的可能性就越大。取重要性排名前P%的蛋白质作为关键蛋白质,在进行蛋白质重要性的计算时,综合考虑语义相似度及可信度因素,以综合考虑网络的拓扑结构与蛋白质本身的生物信息。实验结果表明,与其他传统方法相比,提出的新方法复杂度较低,且能够识别出更多的关键蛋白质,并且其统计指标也高于其他的方法。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号