首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 187 毫秒
1.
在蛋白质空间结构预测中,二硫键的确定可以大大减少蛋白质构象的搜索空间。为提高二硫键预测的准确率,对形成二硫键的半胱氨酸及其周围的氨基酸残基在蛋白质二级结构形成上的偏性进行了分析,并提出将蛋白质二级结构信息加入到BP神经网络预测模型的输入编码信息中。研究对象为从SWISS-PROT数据库中选取的252条蛋白质序列,随机均分4组,对预测准确率进行4-交叉验证。各项准确率均比未加入蛋白质二级结构信息前,有明显提高。结果表明,结合蛋白质二级结构信息的编码方式是可行且有效的。  相似文献   

2.
基于神经网络集成的蛋白质二级结构预测模型   总被引:5,自引:3,他引:2  
为了提高蛋白质二级结构预测精度,本文尝试采用一种基于串联BP网络集成的二级结构预测模型。首先根据二级结构是由其一级序列决定以及神经网络输出之间具有相关性,采用串联BP作为集成的子网络分类器,在训练过程中采用“剪枝法”和“早停”来防止过拟合。其次为增加网络的差异度,利用bagging方法对样本重采样并加入随机噪声。把单独训练的具有一定差异度的5个子网络利用相对多数“投票规则”进行整合。以Rs126中的90个蛋白质共15 377个氨基酸进行10倍率交叉验证,仿真结果表明此网络集成可以较好地对二级结构进行分类。  相似文献   

3.
黄秀  陈月辉  曹毅 《计算机工程》2011,37(1):159-160,163
提出一种基于柔性神经树的蛋白质结构预测方法,将近似熵和蛋白质序列的疏水特性作为伪氨基酸组成的特征。对数据集中的每一条蛋白质进行特征提取。对于一个蛋白质样本,用一个27-D伪氨基酸组成作为其特征,伪氨基酸组成特征作为输入数据,柔性神经树作为预测工具,分类方法采用M-ary方法,数据集选用640数据集。仿真结果表明,该方法具有较好的优化性能,提高了预测的准确率。  相似文献   

4.
传统蛋白质二级结构预测,由于氨基酸序列中三种结构数量的差异,易造成不均衡训练,使得对三种结构的预测准确率差别较大。为改善这种缺陷,受装袋原理的启发,对传统方法进行改进,缩小训练时三种结构数量的差距。在实验中,采用数据集CB396,结果表明该方法能够显著提高对折叠的预测正确率,而且在总的预测正确率上达到77.3%,可以较好地进行蛋白质二级结构预测。  相似文献   

5.
提出了用于预测蛋白质二级结构的Chernoff-GA-PLS算法。该方法首先是根据各个氨基酸残基的理化性质等自身所带的信息,计算出各样本到不同类别的Chernoff距离,进而根据Chernoff距离对蛋白质的氨基酸序列数据进行编码。最后由偏最小二乘进行蛋白质二级结构预测,并在整个算法过程中使用GA优化各个运行参数。为解决蛋白质二结构预测中的编码问题,提高预测结果的准确性和鲁棒性提供了一种新的思路。应用本方法对28个蛋白质共5789个氨基酸进行处理,获得的正确预测率达73.47%,研究结果表明,该方法预测结果明显高于目前运用单一方法获得的65%左右的预测准确率。由于该方法的预测误差小,易在Matlab上编程实现,计算过程中的参数意义明确和良好的可解释性,因此具有良好的应用前景。  相似文献   

6.
特征向量的构造是蛋白质二级结构预测的一个关键问题. 现有的研究方法,通常只使用BLOSUM62进化矩阵生成PSSM矩阵,对蛋白质进化过程中存在的氨基酸残基突变现象缺乏考虑. 本文提出利用多重进化矩阵构造蛋白质特征向量,其融合了不同进化时间的PSSM矩阵,不仅能够很好地反映序列中氨基酸的位置信息,而且能够反映序列进化过程中氨基酸位点发生突变产生的影响. 本文通过组合不同进化程度的矩阵来构造特征向量,选用逻辑回归、随机森林和多分类支持向量机三种分类算法作为预测工具,利用网格搜索法和交叉实验法优化参数,在RS126、CB513和25PDB公用数据集上进行了若干组实验. 对比实验结果表明,本文所提出基于多重进化矩阵的蛋白质特征向量构造方法能够有效提高蛋白质二级结构的预测精度.  相似文献   

7.
氨基酸序列编码问题一直是在蛋白质结构预测中导致算法输入空间较大的主要原因。只有对氨基酸序列进行更好的编码.才能为后续进行计算机分析打下基础。提出并实现了综合考虑了氨基酸序列的划分和长程作用效应,利用氨基酸正交编码区分每个氨基酸个体,利用基本正交矩阵获得氨基酸在物理、化学、生物上的相似性,利用分属概率来获得当前蛋白质序列中氨基酸构成不同二级结构的趋势的新的混合编码方法,从而改进了氨基酸残基序列编码,并利用现有算法比较了不同编码方式对蛋白质二级结构预测的影响,结果证实该编码方式能够提高蛋白质二级结构预测的准确性。  相似文献   

8.
片段组装方法是从头预测蛋白质三维结构的一类重要方法.现有的基于序列相似的片段库质量限制了低同源目标的预测精度,所以寻找与天然结构更加拟合的已知蛋白质结构片段来构建高质量的片段库是片段组装方法的一项重要任务.本文利用SCOP数据库中的三维结构相似性,对SCOP的折叠模式进行预测,提取预测出的相同折叠模式的已知蛋白质结构的信息,生成保存残基信息的数据库(Vall库).然后将目标蛋白质序列分割成的残基片段与Vall库进行综合评价后生成一种新的片段库,该片段库可以用于一个骨架预测并行蚁群算法.将本文方法与蛋白质结构预测程序RosettaAbinitio的基于序列的片段库进行了比较,实验结果表明采用本文方法的片段库可以找到更接近天然构象的蛋白质结构.  相似文献   

9.
氨基酸序列编码问题一直是在蛋白质结构预测中导致算法输入空间较大的主要原因。只有对氨基酸序列进行更好的编码,才能为后续进行计算机分析打下基础。提出并实现了综合考虑了氨基酸序列的划分和长程作用效应,利用氨基酸正交编码区分每个氨基酸个体,利用基本正交矩阵获得氨基酸在物理、化学、生物上的相似性,利用分属概率来获得当前蛋白质序列中氨基酸构成不同二级结构的趋势的新的混合编码方法,从而改进了氨基酸残基序列编码,并利用现有算法比较了不同编码方式对蛋白质二级结构预测的影响,结果证实该编码方式能够提高蛋白质二级结构预测的准确性。  相似文献   

10.
鉴于不同类型氨基酸的相互作用对蛋白质结构预测的影响不同,文中融合卷积神经网络和长短时记忆神经网络模型,提出卷积长短时记忆神经网络,并应用到蛋白质8类二级结构的预测中.首先基于氨基酸序列的类别信息和氨基酸结构的进化信息表示蛋白质序列,并采用卷积提取氨基酸残基之间的局部相关特征,然后利用双向长短时记忆神经网络提取蛋白质序列内部残基之间的远程相互作用,最后将提取的蛋白质的局部相关特征和远程相互作用用于蛋白质8类二级结构的预测.实验表明,相比基准方法,文中模型提高8类二级结构预测的精度,并具有良好的可扩展性.  相似文献   

11.
元胞自动机图的蛋白质二级结构类型预测   总被引:1,自引:0,他引:1       下载免费PDF全文
蛋白质结构预测是后基因组时代的一项重要任务,蛋白质二级结构预测是蛋白质结构预测的关键步骤。利用氨基酸数字编码模型生成蛋白质序列的元胞自动机图(Cellular Automata Image,CAI),提出了一种基于灰度共生矩阵(Gray Level Co-occurrence Matrix,GLCM)提取纹理图像特征的方法。用扩大的协方差算法进行预测,仿真结果显示有较好的分类效果,Jackknife检验的预测成功率达到94.61%。  相似文献   

12.
预测蛋白质二级结构,是当今生物信息学中一个难以解决的问题。由于预测蛋白质二级结构的精度在蛋白 质结构研究中起到非常重要的作用,因此在基于KDTICM理论基础上,提出一种基于混合SVM方法的蛋白质二级 结构预测算法。该算法有效地利用蛋白质的物化属性和PSI-SEARCH生成的位置特异性打分矩阵作为双层SVM的 输入,从而大大地提高了蛋白质二级结构预测的精度。实验比较分析表明,新算法的预测精度和普适性明显优于目前 其他典型的预测方法。  相似文献   

13.
编码方式是影响蛋白质二级结构预测准确率的重要因素之一。针对单序列蛋白质二级结构预测问题,提出了一种新的综合编码方法。该编码是根据氨基酸出现在每种二级结构中的倾向因子以及氨基酸的疏水性值进行分类,并以二进制形式来表示每类氨基酸的编码方法。在相同的实验条件下,首先用不同的编码方式对数据集CB513进行编码,然后采用支持向量机的方法进行训练建模预测。实验结果显示提出编码的预测准确率比20位正交编码和5位编码分别高出1.48%和10.68%。可见,该编码比较适合非同源或低同源蛋白质结构预测。  相似文献   

14.
蛋白质二级结构类型预测是当今生物信息学研究的热点之一。利用氨基酸数字编码模型将氨基酸序列转换成数字信号,得出此蛋白质的GM(1,1)模型参数,并将这些参数作为伪氨基酸成分,由于这些伪氨基酸成分具有描述氨基酸序列的总体特征的特点,使得预测成功率有较大的提高。  相似文献   

15.
面向中文自动分词的可扩展式电子词典研究   总被引:1,自引:0,他引:1  
在中文自动分词及词性标注系统中,电子词典是系统的重要组成部分,也是影响系统性能的重要因素之一。介绍了电子词典应该具备的查询功能及常用的组织结构,给出了一种结构为系统词典+用户词典的可扩展式电子词典机制。其系统词典是基于首字Hash散列的逐字二分词典结构,用户词典采用基于首字Hash散列的链接表词典结构,具有很强的扩展性和实用性。  相似文献   

16.
Precise prediction of protein secondary structures from the associated amino acids sequence is of great importance in bioinformatics and yet a challenging task for machine learning algorithms. As a major step toward predicting the ultimate three dimensional structures, the secondary structure assignment specifies the protein function. Considering a multilayer perceptron neural network, pruned for optimum size of hidden layers, as the reference network, advanced kinds of recurrent neural network (RNN) are devised in this article to enhance the secondary structure prediction. To better model the strong correlations between secondary structure elements, types of modular reciprocal recurrent neural networks (MRR-NN) are examined. Additionally, to take into account the long-range interactions between amino acids in formation of the secondary structure, bidirectional RNN are investigated. A multilayer bidirectional recurrent neural network (MBR-NN) is finally applied to capture the predominant long-term dependencies. Eventually, a modular prediction system based on the interactive combination of the MRR-NN and MBR-NN boosts the percentage accuracy (Q3) up to 76.91% and augments the segment overlap (SOV) up to 68.13% when tested on the PSIPRED dataset. The coupling effects of the secondary structure types as well as the sequential information of amino acids along the protein chain can be well cast by the integration of the MRR-NN and the MBR-NN.  相似文献   

17.
蛋白质二级结构的协同训练预测方法*   总被引:1,自引:1,他引:0  
针对蛋白质二级结构机器学习预测方法,忽略氨基酸疏水性特征以及氨基酸之间的长程作用和准确率不高的现状,进行了比较实验分析。采用氨基酸对应的疏水能值替换蛋白质中相应的氨基酸,得到疏水能值的序列实验结果表明,用长的疏水能值序列,训练BP网络,对长程作用起主导的E结构的预测效果好。由于Profile编码特征和疏水能值特征是独立的冗余视图,基于协同训练思想,提出Cotraining算法。该算法的主要步骤是在Profile特征空间训练SVM分类器,在疏水性特征空间训练BP神经网络分类器,协同对氨基酸二级结构进行预测  相似文献   

18.
Accurate protein secondary structure prediction plays an important role in direct tertiary structure modeling, and can also significantly improve sequence analysis and sequence-structure threading for structure and function determination. Hence improving the accuracy of secondary structure prediction is essential for future developments throughout the field of protein research.In this article, we propose a mixed-modal support vector machine (SVM) method for predicting protein secondary structure. Using the evolutionary information contained in the physicochemical properties of each amino acid and a position-specific scoring matrix generated by a PSI-BLAST multiple sequence alignment as input for a mixed-modal SVM, secondary structure can be predicted at significantly increased accuracy. Using a Knowledge Discovery Theory based on the Inner Cognitive Mechanism (KDTICM) method, we have proposed a compound pyramid model, which is composed of three layers of intelligent interface that integrate a mixed-modal SVM (MMS) module, a modified Knowledge Discovery in Databases (KDD1) process, a mixed-modal back propagation neural network (MMBP) module and so on.Testing against data sets of non-redundant protein sequences returned values for the Q3 accuracy measure that ranged from 84.0% to 85.6%,while values for the SOV99 segment overlap measure ranged from 79.8% to 80.6%. When compared using a blind test dataset from the CASP8 meeting against currently available secondary structure prediction methods, our new approach shows superior accuracy.Availability: http://www.kdd.ustb.edu.cn/protein_Web/.  相似文献   

19.
A method is presented for predicting the secondary structure of globular proteins from their amino acid sequence. It is based on a rigorous statistical exploitation of the well-known biological fact that the amino acid compositions of each secondary structure are different. We also propose an evaluation process that allows us to estimate the capacity of a method to predict the secondary structure of a new protein which does not have any homologous proteins whose structure is already known. This evaluation process shows that our method has a prediction accuracy of 58.7% over three states for the 62 proteins of the Kabsch and Sander (1983a) data bank. This result is better than that obtained by the most widely used methods--Lim (1974), Chou and Fasman (1978) and Garnier et al. (1978)--and also than that obtained by a recent method based on local homologies (Levin et al., 1986). Our prediction method is very simple and may be implemented on any microcomputer and even on programmable pocket calculators. A simple Pascal implementation of the method prediction algorithm is given. The interpretation of our results in terms of protein folding and directions for further work are discussed.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号