首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 156 毫秒
1.
组成蛋白质的基本单位是氨基酸,对于蛋白质分类预测问题,氨基酸序列特征提取方法是一个非常重要的因素。对基于氨基酸组成、位置的特征提取算法如熵密度、n阶耦联组成和基于氨基酸性质的特征提取方法如自相关函数、伪氨基酸组成等方法进行了阐述,并进行了简单评价。基于氨基酸组成的方法实现简单、计算量小,且对所有的氨基酸序列都适用,但丢失了氨基酸的顺序信息以及其问的相互作用,基于氨基酸位置信息或理化特性等方法计算量非常大,科研工作者可以根据对蛋白质的不同要求选择相应的特征提取方法。  相似文献   

2.
氨基酸序列的特征描述是指从一条氨基酸序列选取相关的特征信息并用数学方法描述这些信息,使之能正确反映序列与结构或功能之间的关系。在根据氨基酸序列预测蛋白质的结构类或亚细胞位置等问题中,氨基酸序列的特征描述直接影响预测质量;同时比较不同描述方法对预测结果的影响可以帮助我们理解序列与结构或序列与功能之间的关系。本文介绍了几种氨基酸序列的特征描述方法,以FDOD方程作为判别函数,比较了其中几种描述方法对蛋白质结构类预测结果的影响,发现二级结构单纯的全α类和全β类蛋白质对于氨基酸组成比较敏感,而对于混合型蛋白质,即α+β类和α/β类蛋白质,考虑氨基酸残基排列顺序可以显著提高预测结果。  相似文献   

3.
氨基酸序列的特征描述   总被引:2,自引:4,他引:2  
氨基酸序列的特征描述是指从一条氨基酸序列选取相关的特征信息并用数学方法描述这些信息,使之能正确反映序列与结构或功能之间的关系。在根据氨基酸序列预测蛋白质的结构类或亚细胞位置等问题中,氨基酸序列的特征描述直接影响预测质量;同时比较不同描述方法对预测结果的影响可以帮助我们理解序列与结构或序列与功能之间的关系。本文介绍了几种氨基酸序列的特征描述方法,以FDOD方程作为判别函数,比较了其中几种描述方法对蛋白质结构类预测结果的影响,发现二级结构单纯的全α类和全β类蛋白质对于氨基酸组成比较敏感,而对于混合型蛋白质,即α β类和α/β类蛋白质,考虑氨基酸残基排列顺序可以显著提高预测结果。  相似文献   

4.
非比对序列相似性模型直接采用序列自身的统计信息来计算序列之间的相似度,具有运算速度快、聚类结果准确等优点。提出一种基于位置信息的非比对序列相似性模型,通过提取K词模型中每个词的Local Frequency(LF),计算对应K词的LF熵,并结合K词频率进行序列的特征提取,应用于蛋白质聚类。实验结果表明该方法能够有效地提取序列的信息,提高聚类的准确率。  相似文献   

5.
准确识别出信号肽对蛋白质的研究和定位有着非常重要的意义。压缩感知技术能够在保留生物序列主要信息的同时降低冗余信息,将高维信息投影到低维空间上进行特征提取。因此本文基于压缩感知技术再结合动态时间规整算法提取出新的特征向量,提出一种高鉴别性的信号肽特征提取新方法。该算法所提取的特征不但体现了信号肽中的氨基酸组成、排列顺序、结构等重要信息,还能把信号肽的不同区域在时间维度中非线性地弯曲对整,为机器学习算法提供有效的信号肽特征表达。实验结果显示,新方法提取的特征向量在3个数据集Eukaryotes, Gram+ bacteria, Gram-bacteria上的识别率分别达到99.65%, 98.05%和98.56%,并且这种方法能简单地运用到其他生物序列的识别过程中。  相似文献   

6.
黄秀  陈月辉  曹毅 《计算机工程》2011,37(1):159-160,163
提出一种基于柔性神经树的蛋白质结构预测方法,将近似熵和蛋白质序列的疏水特性作为伪氨基酸组成的特征。对数据集中的每一条蛋白质进行特征提取。对于一个蛋白质样本,用一个27-D伪氨基酸组成作为其特征,伪氨基酸组成特征作为输入数据,柔性神经树作为预测工具,分类方法采用M-ary方法,数据集选用640数据集。仿真结果表明,该方法具有较好的优化性能,提高了预测的准确率。  相似文献   

7.
传统的预测方法在构造特征向量时只考虑了氨基酸的组成,而自相关系数不仅能够很好地反映序列中氨基酸的位置信息,而且考虑了序列内部不同位置的氨基酸间的相互影响。设计了一种将氨基酸组成和自相关系数相结合的方法来构造特征向量;在Chou提出的伪氨基酸组成模型(pseudo.aminoacidcomposition,PseAAC)的基础上,通过扩展信息重新构造了伪氨基酸组成模型,并将其与自相关系数组合在一起来构造特征向量。分别使用两种方法编码,选用支持向量机作为预测工具,在数据集Z277、Z498以及独立测试集D138上进行了若干实验,对比结果显示,新方法比传统的氨基酸组成方法的准确率分别平均提高了7.43%和8.53%,证明了新方法是有效的。  相似文献   

8.
蛋白质可溶性在药物设计的研究中起着重要的作用,传统生物实验测试蛋白质可溶性费时费力,因此基于计算方法对可溶性进行预测成为一个重要的研究方向.针对传统可溶性预测模型不能充分表示蛋白质特征的问题,文中设计了一种基于多种蛋白质序列信息的神经网络模型PSPNet,并应用到蛋白质可溶性预测中.该模型首先使用氨基酸残基序列嵌入信息...  相似文献   

9.
结合中心氨基酸组成成分预测固有不规则蛋白质   总被引:1,自引:0,他引:1  
在固有不规则蛋白质结构预测过程中,针对短的不规则结构区域特征提取困难,提出一种结合中心氨基酸组成成分进行预测的方法。利用滑窗技术,计算20种氨基酸在窗口内出现的频率,构建一个子预测器;计算窗口中心氨基酸形成不规则结构的统计概率,以此作为新的特征参数;对子预测器的结果与新的特征参数分别赋予一个系数,进行加权组合,建立基于组合模型的固有不规则蛋白质结构预测器。实验结果表明,该预测器在保持对长的不规则结构区域预测精度较高的前提下,能够显著提高短的不规则结构区域的预测精度。  相似文献   

10.
获取凋亡蛋白亚细胞定位的信息对揭示细胞程序性死亡的机制和注解蛋白质功能都具有非常重要的意义。鉴于实验方法确定亚细胞定位不仅费时费力而且代价过高,开发快速有效的计算方法预测亚细胞定位已成为生物信息学领域的重要研究内容之一。首先基于位置特异性得分矩阵提取氨基酸组分、二肽组分和自协方差变量等特征构建蛋白质序列的特征表示模型,然后采用递归特征消除法进行特征选择,最后选用支持向量机分类器在两个常用数据集上进行夹克刀检验。实验结果表明,该方法优于大多数已报道的预测方法,从而证明了其有效性。  相似文献   

11.
如何有效提取蛋白质序列特征值,一直是生物信息学研究的重要任务.本文研究8种序列特征值提取方法,并考察它们在不同分类器中的表现,以用于预测氧化还原酶辅酶依赖类型.其中,氨基酸组成法效果最差,平均预测精度仅及64.96%;而将两性伪氨基酸组成和新氨基酸组成分布两种方法合并后,以支持向量机作为分类器时,其识别效果最佳,可达92.93%.此外,不同特征值的提取方法与分类器之间似乎有着一定的匹配关系,只有找到其间的最佳匹配,才能获得最佳的识别效果.  相似文献   

12.
基于氨基酸组成预测蛋白质热稳定性的v-支持向量机方法   总被引:2,自引:2,他引:0  
支持向量机有许多优点有效防止过拟和,适合大的特征空间,给定数据集的信息压缩.本文首次利用支持向量机从氨基酸组成来预测蛋白质的稳定性.总预测率可以达到80.64%,对嗜热蛋白质的预测率为82.50%,对嗜温蛋白质的预测率为80.29%从预测率可以验证氨基酸组成与蛋白质热稳定性成正相关的关系,支持向量机可以成为基于氨基酸组成预测蛋白质热稳定性的有效工具.  相似文献   

13.
Lysine propionylation is an important and common protein acylation modification in both prokaryotes and eukaryotes. To better understand the molecular mechanism of propionylation, it is important to identify propionylated substrates and their corresponding propionylation sites accurately. In this study, a novel bioinformatics tool named PropPred is developed to predict propionylation sites by using multiple feature extraction and biased support vector machine. On the one hand, various features are incorporated, including amino acid composition, amino acid factors, binary encoding, and the composition of k-spaced amino acid pairs. And the F-score feature method and the incremental feature selection algorithm are adopted to remove the redundant features. On the other hand, the biased support vector machine algorithm is used to handle the imbalanced problem in propionylation sites training dataset. As illustrated by 10-fold cross-validation, the performance of PropPred achieves a satisfactory performance with a Sensitivity of 70.03%, a Specificity of 75.61%, an accuracy of 75.02% and a Matthew’s correlation coefficient of 0.3085. Feature analysis shows that some amino acid factors play the most important roles in the prediction of propionylation sites. These analysis and prediction results might provide some clues for understanding the molecular mechanisms of propionylation. A user-friendly web-server for PropPred is established at 123.206.31.171/PropPred/.  相似文献   

14.
首先基于特征融合思想,采用氨基酸组成、熵密度和自相关系数结合的方式构建190维特征向量进行特征表达,与仅考虑氨基酸组成信息的传统方法相比,能更好地表达蛋白质结构信息。然后利用LDA(Linear Discriminant Analysis)方法进行降维,降低计算复杂性,加强同类样本间的相关性。接下来选用支持向量机作为分类器进行定位预测,最后采用留一法在Gram-negative和Gram-positive数据集上进行交叉检验。实验结果表明,多特征结合的方法优于传统的氨基酸组成方法和简单的自相关系数方法,证明了新方法的有效性。  相似文献   

15.
磷酸化是最重要的蛋白质翻译后修饰之一,随着蛋白质磷酸化数据的增加,利用已有数据对蛋白质磷酸化修饰进行规律挖掘和预测的条件日益成熟.设计新的基于AdaBoost(adaptive boost)分类器的规则抽取算法和利用修饰位点附近氨基酸性质作为特征并采用AdaBoost方法进行特征选择和分类器训练的磷酸化修饰位点预测方法AproPhos(using amino acid properties for phosphorylation sites prediction),使其在具有较高预测精度的同时可以对预测结果进行可理解的规则解释,规则抽取还有助于发现新的磷酸化修饰氨基酸性质分布规律,对揭示生命活动规律和药物开发有着重要意义.  相似文献   

16.
A geometric approach to edge detection   总被引:2,自引:0,他引:2  
This paper describes edge detection as a composition of four steps: conditioning, feature extraction, blending, and scaling. We examine the role of geometry in determining good features for edge detection and in setting parameters for functions to blend the features. We find that: (1) statistical features such as the range and standard deviation of window intensities can be as effective as more traditional features such as estimates of digital gradients; (2) blending functions that are roughly concave near the origin of feature space ran provide visually better edge images than traditional choices such as the city-block and Euclidean norms; (3) geometric considerations ran be used to specify the parameters of generalized logistic functions and Takagi-Sugeno input-output systems that yield a rich variety of edge images; and (4) understanding the geometry of the feature extraction and blending functions is the key to using models based on computational learning algorithms such as neural networks and fuzzy systems for edge detection. Edge images derived from a digitized mammogram are given to illustrate various facets of our approach  相似文献   

17.
提出了一种基于PSO_BFA优化的词袋模型。传统词袋模型有两个重要参数:窗口大小[d]和字典大小[k]。结合粒子群算法和细菌觅食算法产生新的PSO_BFA混合优化算法,在PSO进行局部搜索时,加入BFA的复制和迁移行为,得到PSO_BFA的最优解即为窗口大小和字典大小的最佳组合。将优化词袋模型与蛋白质序列的氨基酸组成算法和伪氨基酸组成算法结合,获得蛋白质序列的词袋特征。实验结果证明,基于PSO_BFA优化的词袋模型能有效提高蛋白质亚细胞定位预测的精度。  相似文献   

18.
多聚脯氨酸二型螺旋是一种特殊且稀少的蛋白质二级结构。为了节省实验方法测定该结构的时间和成本,本文设计一种基于卷积神经网络的深度学习算法用于预测多聚脯氨酸二型螺旋。首先,对蛋白质序列信息进行特征编码生成特征矩阵,特征编码方式包括氨基酸正交码、氨基酸物理化学性质和位置特异性打分矩阵。其次,将归一化处理后的特征矩阵输入到卷积神经网络中,自动提取蛋白质序列的局部深层特征并输出多聚脯氨酸二型螺旋的预测结果。实验结果表明,该算法的性能相较于支持向量机之类的6种传统机器学习算法有明显的提升。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号