首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 218 毫秒
1.
氨基酸序列编码问题一直是在蛋白质结构预测中导致算法输入空间较大的主要原因。只有对氨基酸序列进行更好的编码.才能为后续进行计算机分析打下基础。提出并实现了综合考虑了氨基酸序列的划分和长程作用效应,利用氨基酸正交编码区分每个氨基酸个体,利用基本正交矩阵获得氨基酸在物理、化学、生物上的相似性,利用分属概率来获得当前蛋白质序列中氨基酸构成不同二级结构的趋势的新的混合编码方法,从而改进了氨基酸残基序列编码,并利用现有算法比较了不同编码方式对蛋白质二级结构预测的影响,结果证实该编码方式能够提高蛋白质二级结构预测的准确性。  相似文献   

2.
编码方式是影响蛋白质二级结构预测准确率的重要因素之一。针对单序列蛋白质二级结构预测问题,提出了一种新的综合编码方法。该编码是根据氨基酸出现在每种二级结构中的倾向因子以及氨基酸的疏水性值进行分类,并以二进制形式来表示每类氨基酸的编码方法。在相同的实验条件下,首先用不同的编码方式对数据集CB513进行编码,然后采用支持向量机的方法进行训练建模预测。实验结果显示提出编码的预测准确率比20位正交编码和5位编码分别高出1.48%和10.68%。可见,该编码比较适合非同源或低同源蛋白质结构预测。  相似文献   

3.
提出了一种基于结构特征的蛋白质二级结构预测方法。先对氨基酸的理化特性进行主成分分析,提取出主要影响因素,并融合成3位编码。接着,在原有3位编码基础上加入3位氨基酸在特定二级结构中的倾向因子。编码完成后,使用支持向量机方法进行预测。实验结果表明,改进后的编码方式优于单纯做主成分分析得到的3位编码和5位编码方式,可以有效地用于蛋白质二级结构预测。  相似文献   

4.
蛋白质结构与功能一直是生命科学的研究重点.尽管蛋白质二级结构的预测已得到广泛的应用,但其预测的精度一直受到算法的制约.在本文中,采用复合编码代替传统的氨基酸编码方式,结合氨基酸疏水性对蛋白质结构的影响,提出一种新的支持向量机算法.使用7倍交叉验证表明,本算法提高了二级蛋白质结构预测的准确性,并节约了计算资源.  相似文献   

5.
提出了用于预测蛋白质二级结构的Chernoff-GA-PLS算法。该方法首先是根据各个氨基酸残基的理化性质等自身所带的信息,计算出各样本到不同类别的Chernoff距离,进而根据Chernoff距离对蛋白质的氨基酸序列数据进行编码。最后由偏最小二乘进行蛋白质二级结构预测,并在整个算法过程中使用GA优化各个运行参数。为解决蛋白质二结构预测中的编码问题,提高预测结果的准确性和鲁棒性提供了一种新的思路。应用本方法对28个蛋白质共5789个氨基酸进行处理,获得的正确预测率达73.47%,研究结果表明,该方法预测结果明显高于目前运用单一方法获得的65%左右的预测准确率。由于该方法的预测误差小,易在Matlab上编程实现,计算过程中的参数意义明确和良好的可解释性,因此具有良好的应用前景。  相似文献   

6.
在蛋白质空间结构预测中,二硫键的确定可以大大减少蛋白质构象的搜索空间。为提高二硫键预测的准确率,对形成二硫键的半胱氨酸及其周围的氨基酸残基在蛋白质二级结构形成上的偏性进行了分析,并提出将蛋白质二级结构信息加入到BP神经网络预测模型的输入编码信息中。研究对象为从SWISS-PROT数据库中选取的252条蛋白质序列,随机均分4组,对预测准确率进行4-交叉验证。各项准确率均比未加入蛋白质二级结构信息前,有明显提高。结果表明,结合蛋白质二级结构信息的编码方式是可行且有效的。  相似文献   

7.
多聚脯氨酸二型螺旋是一种特殊且稀少的蛋白质二级结构。为了节省实验方法测定该结构的时间和成本,本文设计一种基于卷积神经网络的深度学习算法用于预测多聚脯氨酸二型螺旋。首先,对蛋白质序列信息进行特征编码生成特征矩阵,特征编码方式包括氨基酸正交码、氨基酸物理化学性质和位置特异性打分矩阵。其次,将归一化处理后的特征矩阵输入到卷积神经网络中,自动提取蛋白质序列的局部深层特征并输出多聚脯氨酸二型螺旋的预测结果。实验结果表明,该算法的性能相较于支持向量机之类的6种传统机器学习算法有明显的提升。  相似文献   

8.
王菲露  宋杨 《计算机仿真》2012,29(2):184-187
在生化实验中,关于优化蛋白质预测问题,由于采集的信息、参数、选取和设置等优化处理存在随机性,限制了蛋白质二级结构预测精确度。为解决上述问题,针对广义回归神经网络学习速率快、网络稳健的特点,提出基于广义回归神经网络预测蛋白质二级结构的方法。鉴于编码方式对预测精度有重要影响,首先基于5位编码和不同的滑动窗口构建多个广义回归神经网络预测器对蛋白质二级结构进行预测,取得了较好的结果。并采用富含生物进化信息的序列谱(Profile)编码构建输入向量、并针对不同大小的滑动窗口设置多个spread值重新创建广义回归神经网络预测器,大大提高了预测精确度,仿真结果证明了预测模型的有效性和可行性,为预测提供了有效方法。  相似文献   

9.
鉴于不同类型氨基酸的相互作用对蛋白质结构预测的影响不同,文中融合卷积神经网络和长短时记忆神经网络模型,提出卷积长短时记忆神经网络,并应用到蛋白质8类二级结构的预测中.首先基于氨基酸序列的类别信息和氨基酸结构的进化信息表示蛋白质序列,并采用卷积提取氨基酸残基之间的局部相关特征,然后利用双向长短时记忆神经网络提取蛋白质序列内部残基之间的远程相互作用,最后将提取的蛋白质的局部相关特征和远程相互作用用于蛋白质8类二级结构的预测.实验表明,相比基准方法,文中模型提高8类二级结构预测的精度,并具有良好的可扩展性.  相似文献   

10.
蛋白质二级结构的协同训练预测方法*   总被引:1,自引:1,他引:0  
针对蛋白质二级结构机器学习预测方法,忽略氨基酸疏水性特征以及氨基酸之间的长程作用和准确率不高的现状,进行了比较实验分析。采用氨基酸对应的疏水能值替换蛋白质中相应的氨基酸,得到疏水能值的序列实验结果表明,用长的疏水能值序列,训练BP网络,对长程作用起主导的E结构的预测效果好。由于Profile编码特征和疏水能值特征是独立的冗余视图,基于协同训练思想,提出Cotraining算法。该算法的主要步骤是在Profile特征空间训练SVM分类器,在疏水性特征空间训练BP神经网络分类器,协同对氨基酸二级结构进行预测  相似文献   

11.
HIV-1 protease has been the subject of intense research for deciphering HIV-1 virus replication process for decades. Knowledge of the substrate specificity of HIV-1 protease will enlighten the way of development of HIV-1 protease inhibitors. In the prediction of HIV-1 protease cleavage site techniques, various feature encoding techniques and machine learning algorithms have been used frequently. In this paper, a new feature amino acid encoding scheme is proposed to predict HIV-1 protease cleavage sites. In the proposed method, we combined orthonormal encoding and Taylor’s venn-diagram. We used linear support vector machines as the classifier in the tests. We also analyzed our technique by comparing some feature encoding techniques. The tests are carried out on PR-1625 and PR-3261 datasets. Experimental results show that our amino acid encoding technique leads to better classification performance than other encoding techniques on a standalone classifier.  相似文献   

12.
蛋白质二级结构类型预测是当今生物信息学研究的热点之一。利用氨基酸数字编码模型将氨基酸序列转换成数字信号,得出此蛋白质的GM(1,1)模型参数,并将这些参数作为伪氨基酸成分,由于这些伪氨基酸成分具有描述氨基酸序列的总体特征的特点,使得预测成功率有较大的提高。  相似文献   

13.
A method is presented for predicting the secondary structure of globular proteins from their amino acid sequence. It is based on a rigorous statistical exploitation of the well-known biological fact that the amino acid compositions of each secondary structure are different. We also propose an evaluation process that allows us to estimate the capacity of a method to predict the secondary structure of a new protein which does not have any homologous proteins whose structure is already known. This evaluation process shows that our method has a prediction accuracy of 58.7% over three states for the 62 proteins of the Kabsch and Sander (1983a) data bank. This result is better than that obtained by the most widely used methods--Lim (1974), Chou and Fasman (1978) and Garnier et al. (1978)--and also than that obtained by a recent method based on local homologies (Levin et al., 1986). Our prediction method is very simple and may be implemented on any microcomputer and even on programmable pocket calculators. A simple Pascal implementation of the method prediction algorithm is given. The interpretation of our results in terms of protein folding and directions for further work are discussed.  相似文献   

14.
介绍了构造性机器学习方法——覆盖算法在蛋白质二级结构预测中的应用。相比普通的神经网络,这种方法直观且运算简单,对训练样本可100%识别。同时,考虑到同源家族的结构应该比单条序列结构预测更准确,采用了基于概率的Profile编码方式,相比以往的预测方法,具有更好的稳定性和精确性。  相似文献   

15.
从氨基酸的物化特性出发,利用物理学中“粗粒化”思想,提出了一种蛋白质序列的分组重量编码方法(Encoding Basedon Grouped Weight,简记为EBGW),并结合组分耦联算法进行结构型预测的研究。对标准集T359中359个蛋白质的Resubstitution检验和Jack-knife检验预测准确性分别达到99.72%和91.09%,其中Jack-knife检验总体预测精度比相同条件下采用氨基酸组成编码的方法提高了约7%,特别是α+β类的预测精度提高了15%。实验结果表明蛋白质序列的EBGW编码方法能够有效地提取字母序列中蕴含的结构信息。  相似文献   

16.
This study proposes a novel prediction approach for human breast and colon cancers using different feature spaces. The proposed scheme consists of two stages: the preprocessor and the predictor. In the preprocessor stage, the mega-trend diffusion (MTD) technique is employed to increase the samples of the minority class, thereby balancing the dataset. In the predictor stage, machine-learning approaches of K-nearest neighbor (KNN) and support vector machines (SVM) are used to develop hybrid MTD-SVM and MTD-KNN prediction models. MTD-SVM model has provided the best values of accuracy, G-mean and Matthew's correlation coefficient of 96.71%, 96.70% and 71.98% for cancer/non-cancer dataset, breast/non-breast cancer dataset and colon/non-colon cancer dataset, respectively. We found that hybrid MTD-SVM is the best with respect to prediction performance and computational cost. MTD-KNN model has achieved moderately better prediction as compared to hybrid MTD-NB (Naïve Bayes) but at the expense of higher computing cost. MTD-KNN model is faster than MTD-RF (random forest) but its prediction is not better than MTD-RF. To the best of our knowledge, the reported results are the best results, so far, for these datasets. The proposed scheme indicates that the developed models can be used as a tool for the prediction of cancer. This scheme may be useful for study of any sequential information such as protein sequence or any nucleic acid sequence.  相似文献   

17.
南雨宏  陈绮 《微机发展》2011,(10):168-170,175
提出一种易于修改的蛋白质二级结构预测算法。以蛋白质数据银行中PDB文本数据作为数据源,提取所有蛋白质氨基酸序列并以此建立样本数据库,然后针对α-螺旋、β-折叠分别利用基于散列辞典的不同改进方法编程实现蛋白质二级结构序列片段预测,在预测过程中,随机抽取68421个蛋白质中部分样本作为测试集,对未知序列根据建立的散列辞典中的片段使用正向最大匹配分词法进行切分对比。从实验结果来看,对未知序列片段预测的准确度达到了83.9%,而且能够较好地体现片段之间的连接顺序。  相似文献   

18.
吕志鹏  黄文奇 《计算机科学》2005,32(11):148-149
蛋白质结构预测问题是计算生物学领域的核心问题之一。通过理论计算的方法根据蛋白质氨基酸序列直接预测其空间结构是解决这一问题的有效途径。构造了新的邻域结构,采用了部分随机跳坑策略,对此问题提出了新的局部搜索算法。计算结果表明,该算法计算效率要优于传统的遗传算法和Monte Carlo方法。对于链长为50的算例还找到了文献中所没有的全新的最低能量构形。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号