首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到16条相似文献,搜索用时 62 毫秒
1.
如何有效提取蛋白质序列特征值,一直是生物信息学研究的重要任务.本文研究8种序列特征值提取方法,并考察它们在不同分类器中的表现,以用于预测氧化还原酶辅酶依赖类型.其中,氨基酸组成法效果最差,平均预测精度仅及64.96%;而将两性伪氨基酸组成和新氨基酸组成分布两种方法合并后,以支持向量机作为分类器时,其识别效果最佳,可达92.93%.此外,不同特征值的提取方法与分类器之间似乎有着一定的匹配关系,只有找到其间的最佳匹配,才能获得最佳的识别效果.  相似文献   

2.
凋亡蛋白对于物种发育和生物体内平衡的维持发挥着非常重要的作用。对凋亡蛋白的亚细胞位点的准确预测有利于理解细胞程序性死亡的机理和其生物学功能。本文利用SignalP得到的裂解位点将肽链分成N-端信号序列和成熟端序列。通过提取两端序列的氨基酸组分(ACC)、伪氨基酸组分(Pse-AAC)和整个链的立体化学特性来描述一条蛋白质序列。最后将得到的特征向量输入到支持向量机(SVM)中来预测其亚细胞位置。对三个凋亡蛋白基准数据集进行Jackknife验证,得到的总体精度分别为93.9%,87.6%,91.5%。此外我们还利用了由Reinhardt和Hubbard构建的非凋亡蛋白基准测试数据集(NNPSL数据集)来验证本文的方法,对于真核和原核蛋白的预测准确度分别达到87.7%和94.8%。  相似文献   

3.
使用伪氨基酸和集成分类器预测凋谢蛋白亚细胞定位   总被引:1,自引:1,他引:0  
预测凋谢蛋白质亚细胞定位是生物信息学和蛋白质科学中重要的研究内容.基于Chou的伪氨基酸组成概念,用近似熵表示蛋白质序列的附加特征,组成新的伪氨基酸组成表示序列特征.将蛋白质序列看作短时间序列,近似熵能够区分不同亚细胞定位中序列的复杂度.结合多个模糊K近邻分类器(基本分类器)的集成分类器作为预测工具.以不同维数的伪氨基酸组成向量,作为每个基本分类器的输入数据.3个常用的数据集用来测试算法的性能,Jackknife测试结果表明新算法有效和实用.有望发展成为亚细胞定位研究的有用工具.  相似文献   

4.
提出一种基于经验模态分解(EMD)和模糊支持向量机(FSVM)的非平稳时间序列组合预测方法。首先,利用EMD对非平稳时间序列进行分解,将其分解为时间尺度特征较为单一的单模态分量,降低待预测信号的非线性复杂度;然后,利用模糊支持向量机对EMD分解后的各固有模态函数进行预测;最后将各固有模态函数独立预测的结果进行叠加,即可得到原始序列的预测值。以带噪声的Lorenz系统和太阳黑子月平滑值序列为实验数据,对提出的预测方法进行了仿真分析。实验结果表明,与BP神经网络预测和传统的SVM预测方法相比,提出的方法具有更好的预测精度,而且对带有孤立点、噪声的序列信号具有较强的适应能力。  相似文献   

5.
基于小波变换和AR-LSSVM的非平稳时间序列预测   总被引:4,自引:1,他引:4  
提出一种基于二进正交小波变换和AR-LSSVM方法的非平稳时间序列预测方案.首先利用Mallat算法对非平稳时同序列进行分解和重构,分离出非平稳时间序列中的低频信息和高频信息;然后对高频信息构建自回归模型,对低频信息则用最小二乘支持向量机进行拟合;最后将各模型的预测结果进行叠加,从而得到原始序列的预测值.研究结果表明,该方法不仅能充分拟合低频信息,而且可避免对高频信息的过拟合.  相似文献   

6.
纪腾其  孟军  赵思远  胡鹤还 《计算机应用》2021,41(12):3614-3619
长链非编码RNA(lncRNA)中的小开放阅读框(sORFs)能够编码长度不超过100个氨基酸的短肽。针对短肽预测研究中lncRNA中的sORFs特征不鲜明且高可信度数据尚不充分的问题,提出一种基于表示学习的深度森林(DF)模型。首先,使用常规lncRNA特征提取方法对sORFs进行编码;其次,通过自编码器(AE)进行表示学习来获得输入数据的高效表示;最后,训练DF模型实现对lncRNA编码短肽的预测。实验结果表明,该模型在拟南芥数据集上能够达到92.08%的准确率,高于传统机器学习模型、深度学习模型以及组合模型,且具有较好的稳定性;此外,在大豆与玉米数据集上进行的模型测试中,该模型的准确率分别能达到78.16%和74.92%,验证了所提模型良好的泛化能力。  相似文献   

7.
提出了利用小波变换和均生函数周期外推组合模式进行时间序列长期预测的方法. 基于小波多分辨率分析理论, 非平稳时间序列被分解为多个相对简单的准周期信号, 信号的趋势项、周期项和随机项被分离出来. 然后采用均生函数周期外推预报模式对这些准周期信号进行预报, 此方法能有效的提高预报长度, 并能获得较高的建模及预报精度. 仿真采用两个典型实例进行验证, 结果表明了方法的正确性和有效性.  相似文献   

8.
提出了两层混合分类器来预测蛋白质半胱氨酸氧化还原状态,第一层总体线性分类器利用氨基酸百分含量作为输入信息,第二层局部SVM分类器利用半胱氨酸周围局部序列作为输入信息。以2002年4月份的PISCES culled PDB数据库中的 639条蛋白质多肽链作为研究对象,共含有584条二硫键,2 904个半胱氨酸。经严格的折叠刀方法检验,预测半胱氨酸的氧化还原状态准确率最高可达84.1%(半胱氨酸水平)和80.1%(蛋白质水平)。结果表明这种将蛋白质总体信息与局部上下文序列信息结合起来构建的两层混和分类器具有较高的预测准确率。研究结果也表明总体氨基酸百分含量和半胱氨酸周围局部序列都携带有二硫键形成的相关信息,暗示了半胱氨酸是否形成二硫键不但取决于蛋白质全局的结构信息同时也受到局部序列信息的影响。  相似文献   

9.
传统的预测方法在构造特征向量时只考虑了氨基酸的组成,而自相关系数不仅能够很好地反映序列中氨基酸的位置信息,而且考虑了序列内部不同位置的氨基酸间的相互影响。设计了一种将氨基酸组成和自相关系数相结合的方法来构造特征向量;在Chou提出的伪氨基酸组成模型(pseudo.aminoacidcomposition,PseAAC)的基础上,通过扩展信息重新构造了伪氨基酸组成模型,并将其与自相关系数组合在一起来构造特征向量。分别使用两种方法编码,选用支持向量机作为预测工具,在数据集Z277、Z498以及独立测试集D138上进行了若干实验,对比结果显示,新方法比传统的氨基酸组成方法的准确率分别平均提高了7.43%和8.53%,证明了新方法是有效的。  相似文献   

10.
外膜蛋白由于其位于细菌的表面,从而对于抗生素和疫苗开发具有重要的研究价值.如何准确地将外膜蛋白从球蛋白和内膜蛋白等中识别出来对于从基因组序列中确认外膜蛋白以及预测其二级、三级结构都是一项重要的研究任务.近年来人们已经提出了若干从蛋白质序列出发预测外膜蛋白的方法.本文利用1种新的核方法,即核最近邻算法,结合蛋白质序列的子序列分布预测外膜蛋白,并和支持向量机方法、传统的最近邻算法进行了比较.结果表明本文算法不亚于已有的预测方法,而且新算法更为简洁、容易实现.同时我们发现残基顺序在外膜蛋白预测中具有重要作用.  相似文献   

11.
考虑到现有的基于序列的蛋白质相互作用预测方法均采用单一的特征提取方法,具有一定的局限性,提出一种方法。用元学习策略作为分类器融合策略,并集成多种蛋白质序列特征提取方法。在10 702对酿酒酵母蛋白质对数据集上,得到97.28%的预测精度,优于目前现有方法的平均水平,在独立测试集上同样具有优秀的表现,实验结果表明,该方法有效提高了蛋白质相互作用预测的准确率。  相似文献   

12.
以氨基酸含量为特征向量,研究了SVM和KNN预测蛋白质耐热性的准确度。结果表明,基于SVM的分类效果较好,其局部预测率和全局预测率分别为82.4%和83.4%;而基于KNN方法的局部预测率和全局预测率分别为77.6%和79.9%。两种方法的预测率均表明氨基酸含量是影响蛋白质耐热性的主要因素。  相似文献   

13.
从氨基酸的物化特性出发,利用物理学中“粗粒化”思想,提出了一种蛋白质序列的分组重量编码方法(Encoding Basedon Grouped Weight,简记为EBGW),并结合组分耦联算法进行结构型预测的研究。对标准集T359中359个蛋白质的Resubstitution检验和Jack-knife检验预测准确性分别达到99.72%和91.09%,其中Jack-knife检验总体预测精度比相同条件下采用氨基酸组成编码的方法提高了约7%,特别是α+β类的预测精度提高了15%。实验结果表明蛋白质序列的EBGW编码方法能够有效地提取字母序列中蕴含的结构信息。  相似文献   

14.
基于ANN蛋白质结构预测方法研究   总被引:2,自引:0,他引:2  
为了破译遗传信息传递的全过程,确定蛋白质空间结构与其功能之间的关系从而改造天然蛋白质,首先简要介绍了蛋白质结构预测的研究意义,然后回顾了用ANN预测蛋白质结构的研究,并分析了各算法的特点和效果,最后探讨了用ANN预测蛋白质结构的研究方向。通过把800个预测网络和126个蛋白质序列的标准集合,平均每个残基的二级结构预测精度为80%,每个链的精度范围为55%-100%,整体均值为80.5%  相似文献   

15.
从序列出发预测水解酶亚家族类型具有重要意义.本文利用不同标度的伪氨基酸组成提取序列特征值,采用k-近邻算法预测水解酶亚家族类型.选择参数后,三种方法各自在最优运行参数下预测水解酶亚家族的准确率分别为:85.15%,82.65%和80.14%.其中以Z标度的伪氨基酸组成效果最佳,比氨基酸组成识别精度提高12.85%.本文研究结果说明从序列出发,预测水解酶亚家族是可行的,且修正的伪氨基酸组成可望成为一种新的有效提取蛋白质序列特征值的方法.  相似文献   

16.
为直接利用序列和结构信息预测蛋白质耐热温度,提出了基于群智能的蛋白质耐热温度预测方法。基于多元线性回归模型,利用人工蜂群与粒子群混合算法,优化了蛋白质的耐热温度与氨基酸含量的多元线性回归模型的参数,得到蛋白质的耐热温度。此外,通过加入蛋白质的氨基酸网络拓扑属性,提高了蛋白质耐热温度的预测准确性。对耐温蛋白质,网络拓扑属性的加入使得蛋白质耐热温度的预测值偏差和真实值偏差之间的相关系数增加到0.71,平均预测率增加到0.88;耐热蛋白质的相关系数增加到0.75,平均预测率增加到0.91。氨基酸网络拓扑属性的引入为预测蛋白质耐热温度提供了新的视角。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号