首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 218 毫秒
1.
首先基于特征融合思想,采用氨基酸组成、熵密度和自相关系数结合的方式构建190维特征向量进行特征表达,与仅考虑氨基酸组成信息的传统方法相比,能更好地表达蛋白质结构信息。然后利用LDA(Linear Discriminant Analysis)方法进行降维,降低计算复杂性,加强同类样本间的相关性。接下来选用支持向量机作为分类器进行定位预测,最后采用留一法在Gram-negative和Gram-positive数据集上进行交叉检验。实验结果表明,多特征结合的方法优于传统的氨基酸组成方法和简单的自相关系数方法,证明了新方法的有效性。  相似文献   

2.
罗林波  陈绮 《微机发展》2010,(2):206-208,212
组成蛋白质的基本单位是氨基酸,对于蛋白质分类预测问题,氨基酸序列特征提取方法是一个非常重要的因素。对基于氨基酸组成、位置的特征提取算法如熵密度、n阶耦联组成和基于氨基酸性质的特征提取方法如自相关函数、伪氨基酸组成等方法进行了阐述,并进行了简单评价。基于氨基酸组成的方法实现简单、计算量小,且对所有的氨基酸序列都适用,但丢失了氨基酸的顺序信息以及其问的相互作用,基于氨基酸位置信息或理化特性等方法计算量非常大,科研工作者可以根据对蛋白质的不同要求选择相应的特征提取方法。  相似文献   

3.
组成蛋白质的基本单位是氨基酸,对于蛋白质分类预测问题,氨基酸序列特征提取方法是一个非常重要的因素。对基于氨基酸组成、位置的特征提取算法如熵密度、n阶耦联组成和基于氨基酸性质的特征提取方法如自相关函数、伪氨基酸组成等方法进行了阐述,并进行了简单评价。基于氨基酸组成的方法实现简单、计算量小,且对所有的氨基酸序列都适用,但丢失了氨基酸的顺序信息以及其问的相互作用,基于氨基酸位置信息或理化特性等方法计算量非常大,科研工作者可以根据对蛋白质的不同要求选择相应的特征提取方法。  相似文献   

4.
特征向量的构造是蛋白质二级结构预测的一个关键问题. 现有的研究方法,通常只使用BLOSUM62进化矩阵生成PSSM矩阵,对蛋白质进化过程中存在的氨基酸残基突变现象缺乏考虑. 本文提出利用多重进化矩阵构造蛋白质特征向量,其融合了不同进化时间的PSSM矩阵,不仅能够很好地反映序列中氨基酸的位置信息,而且能够反映序列进化过程中氨基酸位点发生突变产生的影响. 本文通过组合不同进化程度的矩阵来构造特征向量,选用逻辑回归、随机森林和多分类支持向量机三种分类算法作为预测工具,利用网格搜索法和交叉实验法优化参数,在RS126、CB513和25PDB公用数据集上进行了若干组实验. 对比实验结果表明,本文所提出基于多重进化矩阵的蛋白质特征向量构造方法能够有效提高蛋白质二级结构的预测精度.  相似文献   

5.
针对传统机器学习算法中仍需手工操作表示特征的问题,提出了一种基于堆栈式降噪自编码器(SDAE)深度网络的蛋白质亚细胞定位算法。首先,分别利用改进型伪氨基酸组成法(PseAAC)、伪位置特异性得分矩阵法(PsePSSM)和三联体编码法(CT)对蛋白质序列进行特征提取,并将这三种方法得到的特征向量进行融合,以得到一个全新的蛋白质序列特征表达模型;接着,将融合后的特征向量输入到SDAE深度网络里自动学习更有效的特征表示;然后选用Softmax回归分类器进行亚细胞的分类预测,并采用留一法在Viral proteins和Plant proteins两个数据集上进行交叉验证;最后,将所提算法的结果与mGOASVM、HybridGO-Loc等多种现有算法的结果进行比较。实验结果表明,所提算法在Viral proteins数据集上取得了98.24%的准确率,与mGOASVM算法相比提高了9.35个百分点;同时所提算法在Plant proteins数据集上取得了97.63%的准确率,比mGOASVM算法和HybridGO-Loc算法分别提高了10.21个百分点和4.07个百分点。综上说明所提算法可以有效提高蛋白质亚细胞定位预测的准确性。  相似文献   

6.
针对传统机器学习算法中仍需手工操作表示特征的问题,提出了一种基于堆栈式降噪自编码器(SDAE)深度网络的蛋白质亚细胞定位算法。首先,分别利用改进型伪氨基酸组成法(PseAAC)、伪位置特异性得分矩阵法(PsePSSM)和三联体编码法(CT)对蛋白质序列进行特征提取,并将这三种方法得到的特征向量进行融合,以得到一个全新的蛋白质序列特征表达模型;接着,将融合后的特征向量输入到SDAE深度网络里自动学习更有效的特征表示;然后选用Softmax回归分类器进行亚细胞的分类预测,并采用留一法在Viral proteins和Plant proteins两个数据集上进行交叉验证;最后,将所提算法的结果与mGOASVM、HybridGO-Loc等多种现有算法的结果进行比较。实验结果表明,所提算法在Viral proteins数据集上取得了98.24%的准确率,与mGOASVM算法相比提高了9.35个百分点;同时所提算法在Plant proteins数据集上取得了97.63%的准确率,比mGOASVM算法和HybridGO-Loc算法分别提高了10.21个百分点和4.07个百分点。综上说明所提算法可以有效提高蛋白质亚细胞定位预测的准确性。  相似文献   

7.
传统的蛋白质亚核定位利用单一序列特征表达导致信息不足,且表达与定位孤立导致信息不充分利用,为此利用伪氨基酸组成和位置特异性得分矩阵,收集到氨基酸物理化学特性信息和蛋白质进化信息,从而形成信息丰富的融合表达。在该基础上利用有监督局部保持投影学习数据低维流形,进而得到类间分割、类内保持的低维判别特征。然后依据此数据分布,适用最近邻分类器预测亚核位置。最后在标准数据集上,十折交叉验证的评估结果表明:该方法相较于已有方法在精度上有较大提升。  相似文献   

8.
从序列出发预测水解酶亚家族类型具有重要意义.本文利用不同标度的伪氨基酸组成提取序列特征值,采用k-近邻算法预测水解酶亚家族类型.选择参数后,三种方法各自在最优运行参数下预测水解酶亚家族的准确率分别为:85.15%,82.65%和80.14%.其中以Z标度的伪氨基酸组成效果最佳,比氨基酸组成识别精度提高12.85%.本文研究结果说明从序列出发,预测水解酶亚家族是可行的,且修正的伪氨基酸组成可望成为一种新的有效提取蛋白质序列特征值的方法.  相似文献   

9.
氨基酸序列的特征描述是指从一条氨基酸序列选取相关的特征信息并用数学方法描述这些信息,使之能正确反映序列与结构或功能之间的关系。在根据氨基酸序列预测蛋白质的结构类或亚细胞位置等问题中,氨基酸序列的特征描述直接影响预测质量;同时比较不同描述方法对预测结果的影响可以帮助我们理解序列与结构或序列与功能之间的关系。本文介绍了几种氨基酸序列的特征描述方法,以FDOD方程作为判别函数,比较了其中几种描述方法对蛋白质结构类预测结果的影响,发现二级结构单纯的全α类和全β类蛋白质对于氨基酸组成比较敏感,而对于混合型蛋白质,即α+β类和α/β类蛋白质,考虑氨基酸残基排列顺序可以显著提高预测结果。  相似文献   

10.
氨基酸序列的特征描述   总被引:2,自引:4,他引:2  
氨基酸序列的特征描述是指从一条氨基酸序列选取相关的特征信息并用数学方法描述这些信息,使之能正确反映序列与结构或功能之间的关系。在根据氨基酸序列预测蛋白质的结构类或亚细胞位置等问题中,氨基酸序列的特征描述直接影响预测质量;同时比较不同描述方法对预测结果的影响可以帮助我们理解序列与结构或序列与功能之间的关系。本文介绍了几种氨基酸序列的特征描述方法,以FDOD方程作为判别函数,比较了其中几种描述方法对蛋白质结构类预测结果的影响,发现二级结构单纯的全α类和全β类蛋白质对于氨基酸组成比较敏感,而对于混合型蛋白质,即α β类和α/β类蛋白质,考虑氨基酸残基排列顺序可以显著提高预测结果。  相似文献   

11.
蛋白质亚细胞的定位预测不仅是研究蛋白质结构和功能的重要基础,还对了解某些疾病的发病机理、药物设计与发现具有重要意义.然而,如何利用机器学习精准预测蛋白质亚细胞的位置一直是一项具有挑战性的科学难题.针对这一问题,提出了一种基于聚类与特征融合的蛋白质亚细胞定位方法.首先将自相关系数法和熵密度法引入蛋白质特征表达模型的构建,...  相似文献   

12.
Prediction of protein structural class plays an important role in protein structure and function analysis, drug design and many other biological applications. Prediction of protein structural class for low-similarity sequences is still a challenging task. Based on the theory of wavelet denoising, this paper presents a novel method of prediction of protein structural class for the first time. Firstly, the features of the protein sequence are extracted by using Chou’s pseudo amino acid composition (PseAAC). Then the extracted feature information is denoised by two-dimensional (2D) wavelet. Finally, the optimal feature vectors are input to support vector machine (SVM) classifier to predict protein structural classes. We obtained significant predictive results using jackknife test on three low-similarity protein structural class datasets 25PDB, 1189 and 640, and compared our method with previous methods The results indicate that the method proposed in this paper can effectively improve the prediction accuracy of protein structural class, which will be a reliable tool for prediction of protein structural class, especially for low-similarity sequences.  相似文献   

13.
如何有效提取蛋白质序列特征值,一直是生物信息学研究的重要任务.本文研究8种序列特征值提取方法,并考察它们在不同分类器中的表现,以用于预测氧化还原酶辅酶依赖类型.其中,氨基酸组成法效果最差,平均预测精度仅及64.96%;而将两性伪氨基酸组成和新氨基酸组成分布两种方法合并后,以支持向量机作为分类器时,其识别效果最佳,可达92.93%.此外,不同特征值的提取方法与分类器之间似乎有着一定的匹配关系,只有找到其间的最佳匹配,才能获得最佳的识别效果.  相似文献   

14.
Lysine propionylation is an important and common protein acylation modification in both prokaryotes and eukaryotes. To better understand the molecular mechanism of propionylation, it is important to identify propionylated substrates and their corresponding propionylation sites accurately. In this study, a novel bioinformatics tool named PropPred is developed to predict propionylation sites by using multiple feature extraction and biased support vector machine. On the one hand, various features are incorporated, including amino acid composition, amino acid factors, binary encoding, and the composition of k-spaced amino acid pairs. And the F-score feature method and the incremental feature selection algorithm are adopted to remove the redundant features. On the other hand, the biased support vector machine algorithm is used to handle the imbalanced problem in propionylation sites training dataset. As illustrated by 10-fold cross-validation, the performance of PropPred achieves a satisfactory performance with a Sensitivity of 70.03%, a Specificity of 75.61%, an accuracy of 75.02% and a Matthew’s correlation coefficient of 0.3085. Feature analysis shows that some amino acid factors play the most important roles in the prediction of propionylation sites. These analysis and prediction results might provide some clues for understanding the molecular mechanisms of propionylation. A user-friendly web-server for PropPred is established at 123.206.31.171/PropPred/.  相似文献   

15.
高斯序列核支持向量机用于说话人识别   总被引:3,自引:1,他引:2       下载免费PDF全文
说话人识别问题具有重要的理论价值和深远的实用意义,在研究支持向量机核方法理论的基础上,将其与传统高斯混合模型(GMM)相结合构建成基于高斯序列核的支持向量机(SVM)。SVM的灵活性和强大分类能力主要在于可以根据要处理的问题来相应的选取核函数。在识别的过程中引入特征空间归正技术NAP(Nuisance Attribute Projection)对同一说话人在不同信道和环境所带来的特征差异进行弥补。用美国国家标准与技术研究所(NIST)2004年评测数据集进行实验,结果表明该方法可以大幅度提高识别率。  相似文献   

16.
为直接利用序列和结构信息预测蛋白质耐热温度,提出了基于群智能的蛋白质耐热温度预测方法。基于多元线性回归模型,利用人工蜂群与粒子群混合算法,优化了蛋白质的耐热温度与氨基酸含量的多元线性回归模型的参数,得到蛋白质的耐热温度。此外,通过加入蛋白质的氨基酸网络拓扑属性,提高了蛋白质耐热温度的预测准确性。对耐温蛋白质,网络拓扑属性的加入使得蛋白质耐热温度的预测值偏差和真实值偏差之间的相关系数增加到0.71,平均预测率增加到0.88;耐热蛋白质的相关系数增加到0.75,平均预测率增加到0.91。氨基酸网络拓扑属性的引入为预测蛋白质耐热温度提供了新的视角。  相似文献   

17.
利用巴氏距离(Bhattacharyya Distance)和PCA(Principal Component Analysis)相结合进行人脸识别研究,提出了使用巴氏距离和PCA相合的算法对特征进行提取。当特征向量维数高时,首先对样本K-L(Karhunen-Loeve)变换进行降维,然后采用巴氏距离特征的迭代算法,得到最小错误率上界。基于ORL人脸数据库的实验表明该方法的识别性能优于LDA、HPCA、HLDA,采用文中的算法可以有效地提高识别率,减少巴氏距离特征计算时间,具有较强的实用性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号