共查询到18条相似文献,搜索用时 46 毫秒
1.
编码方式是影响蛋白质二级结构预测准确率的重要因素之一。针对单序列蛋白质二级结构预测问题,提出了一种新的综合编码方法。该编码是根据氨基酸出现在每种二级结构中的倾向因子以及氨基酸的疏水性值进行分类,并以二进制形式来表示每类氨基酸的编码方法。在相同的实验条件下,首先用不同的编码方式对数据集CB513进行编码,然后采用支持向量机的方法进行训练建模预测。实验结果显示提出编码的预测准确率比20位正交编码和5位编码分别高出1.48%和10.68%。可见,该编码比较适合非同源或低同源蛋白质结构预测。 相似文献
2.
针对蛋白质二级结构机器学习预测方法,忽略氨基酸疏水性特征以及氨基酸之间的长程作用和准确率不高的现状,进行了比较实验分析。采用氨基酸对应的疏水能值替换蛋白质中相应的氨基酸,得到疏水能值的序列实验结果表明,用长的疏水能值序列,训练BP网络,对长程作用起主导的E结构的预测效果好。由于Profile编码特征和疏水能值特征是独立的冗余视图,基于协同训练思想,提出Cotraining算法。该算法的主要步骤是在Profile特征空间训练SVM分类器,在疏水性特征空间训练BP神经网络分类器,协同对氨基酸二级结构进行预测 相似文献
3.
提出了基于SVM的主动学习算法,用来解决蛋白质相互作用的预测问题。细胞中的生物过程是通过蛋白质相互作用实现的。但是通过实验验证蛋白质之间是否具有相互作用的代价非常大,而且数据很难获取。为了在有限的阳性样本情况下更加快速准确地预测蛋白质之间是否具有相互作用,引入了主动学习方法。主动学习算法可以用来构造有效训练集,其目标是通过迭代抽样,每次寻找最富有信息量的数据点,找到最有利于提升分类效果的样本,进而减小分类训练集的大小。比较了5种不同的主动学习算法,以寻找在有限资源前提下提高分类算法效率的最佳途径。实验表明,主动学习方法与SVM算法相结合,能够在保证SVM分类性能的前提下,有效减少学习所需的样本数量。 相似文献
4.
杨雪梅 《计算机与数字工程》2012,40(8):32-34,41
为了提高蛋白质氧链糖基化位点的预测准确率,提出了把独立成分分析和支持向量机相结合的方法。实验样本(蛋白质序列)用稀疏编码方式编码,窗口长度为w=21,对于训练样本和待测样本,首先用独立成分分析法(ICA)提取了120个独立成分(特征),把这些独立成分作为支持向量机的输入,在特征空间用支持向量机(SVM)进行预测(分类)。实验结果表明,ICA+SVM的方法比PCA+SVM和SVM的好。预测准确率为88%。更进一步,用同一个蛋白质序列在不同窗口长度下的样本做实验,结果表明,窗口长度越长,预测准确率越高。 相似文献
5.
考虑到现有的基于序列的蛋白质相互作用预测方法均采用单一的特征提取方法,具有一定的局限性,提出一种方法。用元学习策略作为分类器融合策略,并集成多种蛋白质序列特征提取方法。在10 702对酿酒酵母蛋白质对数据集上,得到97.28%的预测精度,优于目前现有方法的平均水平,在独立测试集上同样具有优秀的表现,实验结果表明,该方法有效提高了蛋白质相互作用预测的准确率。 相似文献
6.
7.
支持向量机有许多优点:有效防止过拟和,适合大的特征空间,给定数据集的信息压缩。本文首次利用支持向量机从氨基酸组成来预测蛋白质的稳定性。总预测率可以达到80.64%,对嗜热蛋白质的预测率为82.50%,对嗜温蛋白质的预测率为80.29%从预测率可以验证氨基酸组成与蛋白质热稳定性成正相关的关系,支持向量机可以成为基于氨基酸组成预测蛋白质热稳定性的有效工具。 相似文献
8.
正确地识别蛋白质-二磷酸鸟苷(Guanosine Diphosphate,GDP)绑定位点对于蛋白质功能分析和药物设计有非常重要的意义。蛋白质-GDP绑定位点预测是一个典型的不平衡学习问题。直接应用传统的机器学习方法是不合适的,而且会使预测结果偏向大多数类。为了解决这个问题,在基于稀疏表示的位置特异性得分矩阵特征基础上,提出了加权下采样方法来使得样本平衡,采用支持向量机算法来预测。实验结果表明提出的方法能获得更高的预测性能。 相似文献
9.
支持向量机有许多优点有效防止过拟和,适合大的特征空间,给定数据集的信息压缩.本文首次利用支持向量机从氨基酸组成来预测蛋白质的稳定性.总预测率可以达到80.64%,对嗜热蛋白质的预测率为82.50%,对嗜温蛋白质的预测率为80.29%从预测率可以验证氨基酸组成与蛋白质热稳定性成正相关的关系,支持向量机可以成为基于氨基酸组成预测蛋白质热稳定性的有效工具. 相似文献
10.
计算实验表明蛋白质一级结构包含着四级结构信息。本文用支持向量机方法从蛋白质一级结构出发区分同源二聚体和非同源二聚体。蛋白质原始序列的子序列分布用于支持向量机的输入向量,从而充分考虑了蛋白质序列的信息。当子序列的长度为3时,10次交叉验证的总预测准确率达到84.9%,在相同的数据集上,比原有的决策树方法提高了15.0%。实验表明残基顺序对同源寡聚蛋白质的识别起重要作用,而支持向量机方法是蛋白质四级结构预测的强有力工具。 相似文献
11.
Although an ordered 3D structure is generally considered to be anecessary pre-condition for protein functionality, there are disorderedcounter examples found to have biological activity. The objectives ofour data mining project are: (1) to generalize from the limitedset of counter examples and then apply this knowledge to large databases of amino acid sequence in order to estimate commonness ofdisordered protein regions in nature, and (2) to determine whether thereare different types of protein disorder. For general disorderestimation, a neural network based predictor was designed and tested ondata built from several public domain data banks through a nontrivialsearch, statistical analysis and data dimensionality reduction. Inaddition, predictors for identification of family-specific disorder weredeveloped by extracting knowledge from databases generated throughmultiple sequence alignments of a known disordered sequence to otherhighly related proteins. Family-specific predictors were also integratedto test quality of general protein disorder identification from suchhybrid prediction systems. Out-of-sample cross validation performance ofseveral predictors was computed first, followed by tests on an unrelateddatabase of proteins with long disordered regions, and the applicationof few selected predictors to two large protein data banks:Nrl_3D, currently containing more than 10,000 protein fragmentsof known 3D structure, and Swiss Protein, having almost 60,000 proteinsequences. The obtained results provide evidence that long disorderedregions are common in nature, with an estimate that 11% of allthe residues in the Swiss Protein data bank belong to disordered regionsof length 40 or greater. The hypothesis that different protein disordertypes exist is supported by high specificity/low sensitivity resultsof two family-specific predictors, by hybrid systems outperforminggeneral models on a two-family test, and by existence of significantgaps in Swiss Protein vs. Nrl_3D disorder frequency estimates forboth families. These findings prompt the need for a revision in thecurrent understanding of protein structure and function, as well as forthe developing of improved disorder predictors that should haveimportant uses in biotechnology applications. 相似文献
12.
蛋白质结构预测方法的研究进展 总被引:11,自引:0,他引:11
殷志祥 《计算机工程与应用》2004,40(20):54-57
目前,在蛋白质结构预测方面,人们努力发展新的方法,该文主要介绍了蛋白质结构预测的方法和进展。详细地综述了几种方法,并简单地介绍了蛋白质结构预测的几个不同阶段,并提出了在蛋白质结构预测方面存在的一些困难。 相似文献
13.
选取合适的蛋白质结构预测算法的性能评估指标,是直接影响到衡量和比较各种蛋白质结构预测算法优劣的重要问题。本文对目前各种评估指标进行了剖析比较,总结对比了各种评估指标的优缺点,分析了其相互之间的联系与区别,并结合神经网络建模,提出各种评估指标的适用范围与使用原则。 相似文献
14.
传统的预测方法在构造特征向量时只考虑了氨基酸的组成,而自相关系数不仅能够很好地反映序列中氨基酸的位置信息,而且考虑了序列内部不同位置的氨基酸间的相互影响。设计了一种将氨基酸组成和自相关系数相结合的方法来构造特征向量;在Chou提出的伪氨基酸组成模型(pseudo.aminoacidcomposition,PseAAC)的基础上,通过扩展信息重新构造了伪氨基酸组成模型,并将其与自相关系数组合在一起来构造特征向量。分别使用两种方法编码,选用支持向量机作为预测工具,在数据集Z277、Z498以及独立测试集D138上进行了若干实验,对比结果显示,新方法比传统的氨基酸组成方法的准确率分别平均提高了7.43%和8.53%,证明了新方法是有效的。 相似文献
15.
基于径向基函数蛋白质二级结构预测方法 总被引:2,自引:1,他引:2
文章针对蛋白质二级结构预测这一复杂非线性模式分类问题,提出了基于径向基函数的预测方法。在分析了基于神经网络预测方法的基础上,讨论了蛋白质二级结构预测算法研究中的数据选取、网络结构与参数对网络性能的影响,实验结果表明这一方法的可行性和有效性。 相似文献
16.
Intrinsically disordered regions in proteins are relatively frequent and important for our understanding of molecular recognition
and assembly, and protein structure and function. From an algorithmic standpoint, flagging large disordered regions is also
important for ab initio protein structure prediction methods. Here we first extract a curated, non-redundant, data set of protein disordered regions
from the Protein Data Bank and compute relevant statistics on the length and location of these regions. We then develop an
ab initio predictor of disordered regions called DISpro which uses evolutionary information in the form of profiles, predicted secondary
structure and relative solvent accessibility, and ensembles of 1D-recursive neural networks. DISpro is trained and cross validated
using the curated data set. The experimental results show that DISpro achieves an accuracy of 92.8% with a false positive
rate of 5%. DISpro is a member of the SCRATCH suite of protein data mining tools available through 相似文献
17.
复杂环境中存在大量的混沌现象,难以用传统的预测方法进行准确预测.针对这一问题,本文利用信息几何理论、支持向量机理论与重构相空间理论,提出混沌支持向量机CSVM,对含有混沌现象的时间序列进行预测;针对混沌环境下核函数难于构造,从信息几何角度,提出在混沌环境下,如何方便准确得进行构造核函数;最后将CSVM应用于Henon混沌系统实验.实验结果表明,误差随嵌入维数变化和延迟时间变化趋于恒定;与BP、RBF和SVM相比,CSVM具有所需支持向量少,收敛速度快,准确性高等特点. 相似文献
18.
蛋白质是生命活动的物质基础,直接参与、执行生命的活动过程。大多数蛋白质通过相互作用形成复合物来实现各种生物功能,因此预测蛋白质复合物有助于了解复合物的结构及其功能,也为细胞机制的研究奠定了重要基础。目前,随着高通量实验技术的不断发展,全基因组蛋白质相互作用(PPI)数据日益增多,领域内已经出现了很多基于计算的蛋白质复合物预测方法。虽然现有方法各具特色与优势,但也存在一些不足。首先,针对现有基于计算的蛋白质复合物预测方法进行了分类和比较全面、详细的分析评述;接着,介绍了复合物预测中常用的评价指标和主要数据集,并比较和分析了几种代表性方法的预测性能;最后,对复合物预测方法进行了总结与展望,提出了今后有待解决的若干问题。希望通过对各类方法的分析与比较,为相关人员使用和研究基于计算的蛋白质复合物预测方法提供有价值的参考和方向指引。 相似文献