首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 533 毫秒
1.
氨基酸序列的特征描述   总被引:2,自引:4,他引:2  
氨基酸序列的特征描述是指从一条氨基酸序列选取相关的特征信息并用数学方法描述这些信息,使之能正确反映序列与结构或功能之间的关系。在根据氨基酸序列预测蛋白质的结构类或亚细胞位置等问题中,氨基酸序列的特征描述直接影响预测质量;同时比较不同描述方法对预测结果的影响可以帮助我们理解序列与结构或序列与功能之间的关系。本文介绍了几种氨基酸序列的特征描述方法,以FDOD方程作为判别函数,比较了其中几种描述方法对蛋白质结构类预测结果的影响,发现二级结构单纯的全α类和全β类蛋白质对于氨基酸组成比较敏感,而对于混合型蛋白质,即α β类和α/β类蛋白质,考虑氨基酸残基排列顺序可以显著提高预测结果。  相似文献   

2.
鉴于不同类型氨基酸的相互作用对蛋白质结构预测的影响不同,文中融合卷积神经网络和长短时记忆神经网络模型,提出卷积长短时记忆神经网络,并应用到蛋白质8类二级结构的预测中.首先基于氨基酸序列的类别信息和氨基酸结构的进化信息表示蛋白质序列,并采用卷积提取氨基酸残基之间的局部相关特征,然后利用双向长短时记忆神经网络提取蛋白质序列内部残基之间的远程相互作用,最后将提取的蛋白质的局部相关特征和远程相互作用用于蛋白质8类二级结构的预测.实验表明,相比基准方法,文中模型提高8类二级结构预测的精度,并具有良好的可扩展性.  相似文献   

3.
蛋白质功能的准确预测有利于推进生物医学发展,高通量测序技术的快速发展加快了蛋白质序列的提取速度,从而产生了大量未注释的蛋白质,并且新测序序列缺乏结构等生物信息,针对该问题提出了基于序列和组合图卷积网络的蛋白质功能预测模型(Protein Function Prediction using Sequences and Combined Graph Convolutional Networks, PFP-SCGCN).首先通过深度学习方法捕获蛋白质序列的多维特征信息,再通过多序列比对从蛋白质序列中提取进化耦合信息和氨基酸残基群落,然后利用进化耦合信息和氨基酸残基群落生成序列氨基酸之间两种不同连接程度的邻接矩阵,将这两种邻接矩阵与序列特征信息一起输入给组合图卷积网络进行信息融合,最后通过多个全连接层获得蛋白质功能类别信息.本文还通过分析PFP-SCGCN的特定网络层识别蛋白质功能位点,可帮助人们推测出新序列中的重要氨基酸.模型结果表明,PFP-SCGCN模型的功能预测准确率远高于对比方法,具有较好的鲁棒性,并且可以较准确的识别功能位点.  相似文献   

4.
膜蛋白是一种具有重要生物功能的蛋白质,根据蛋白质的序列信息预测其是否属于β桶状跨膜蛋白是结构预测与功能分析的重要先导步骤,也是蛋白质预测领域中的一个挑战性问题。针对这两类问题,提取了208条β桶状跨膜蛋白序列的氨基酸位置与理化特征。利用支持向量机(SVM)进行了预测,结果表明二分类精度与相关系数分别达到了88.36%与0.7723。  相似文献   

5.
SIMCA法用于从非同源蛋白一级序列预测其结构类   总被引:1,自引:1,他引:1  
蛋白质结构类的正确识别对于其三级结构预测具有十分重要的意义,有必要引入先进的算法提高预测精度。使用SIMCA法处理氨基酸组成、自相关系数提取的特征参数以及氨基酸对含量,进行了蛋白质结构类的预测。采用Miyazawa和Jerni—gan的疏水值时,All-α、All-β、αβ类的白检验的精度为89%、91%、89%,它检验的精度分别为74%、87%、91%;引入氨基酸对含量后,All-α、All-β、αβ类白检验精度为86%、89%、90%,它检验的精度为77%、88%、93%。SIMCA的预测结果好于Bayesian识别函数法,氨基酸对的引入可以提高预测精度。  相似文献   

6.
从氨基酸的物化特性出发,利用物理学中“粗粒化”思想,提出了一种蛋白质序列的分组重量编码方法(Encoding Basedon Grouped Weight,简记为EBGW),并结合组分耦联算法进行结构型预测的研究。对标准集T359中359个蛋白质的Resubstitution检验和Jack-knife检验预测准确性分别达到99.72%和91.09%,其中Jack-knife检验总体预测精度比相同条件下采用氨基酸组成编码的方法提高了约7%,特别是α+β类的预测精度提高了15%。实验结果表明蛋白质序列的EBGW编码方法能够有效地提取字母序列中蕴含的结构信息。  相似文献   

7.
南雨宏  陈绮 《微机发展》2011,(10):168-170,175
提出一种易于修改的蛋白质二级结构预测算法。以蛋白质数据银行中PDB文本数据作为数据源,提取所有蛋白质氨基酸序列并以此建立样本数据库,然后针对α-螺旋、β-折叠分别利用基于散列辞典的不同改进方法编程实现蛋白质二级结构序列片段预测,在预测过程中,随机抽取68421个蛋白质中部分样本作为测试集,对未知序列根据建立的散列辞典中的片段使用正向最大匹配分词法进行切分对比。从实验结果来看,对未知序列片段预测的准确度达到了83.9%,而且能够较好地体现片段之间的连接顺序。  相似文献   

8.
一种基于子序列分布的蛋白质结构类预测方法   总被引:2,自引:4,他引:2  
蛋白质结构类预测方法的预测能力主要取决于两个方面:一方面,方法采用的序列描述中包含多少有效的蛋白质结构类信息;另一方面,方法采用的判别函数对序列描述中包含的有效信息的利用程度。子序列分布是蛋白质结构类预测中的一种新的序列描述,广义平方距离是组分耦联方法中的判别函数,它包含序列描述中不同组分之间的耦合效应。本文改进了组分耦联方法中的判别函数,解决了当协方差矩阵不可逆时组分耦联方法不能解决的问题,从而把子序列分布与包含耦合效应的判别函数结合起来,对Chou等选取的含有359个蛋白质(结构域)的训练集做了预测,自检测和jackknife检测结果分别为100%和96.7%,这一结果比组分耦联方法提高了5.6和12.6个百分点,比基于自相关函数方法提高了3.3和6.2个百分点。  相似文献   

9.
基于蛋白质CGR的线粒体蛋白质序列比对   总被引:1,自引:0,他引:1       下载免费PDF全文
利用蛋白质混沌游走表示法(PCGR)提出一种新的蛋白质序列比对方法。通过计算两序列之间的PCGR点距离,就可以找到所有的局部相似片断。根据氨基酸的化学物理性质把氨基酸分成4和7类,针对分类与无分类的各种情况进行蛋白质序列比对。为了更直观地描述比对结果,采用点阵图来表示比对数据,不仅能显示两序列间所有相同片断,还可以体现出序列的相似性。  相似文献   

10.
高冶  陈绮 《微机发展》2013,(6):191-194
通过氨基酸序列来预测蛋白质功能与空间结构一直是生物信息学研究的重点之一。蛋白质二级结构是在一定的氨基酸残基的组成和排列顺序(即蛋白质一级结构)的基础上形成的,不同的氨基酸残基由于具有不同的理化特性,从而形成不同的蛋白质二级结构。文中以蛋白质数据库(PDB)为数据源建立了二级结构数据库,并选取疏水值、等电点等特征,利用蚁群聚类对二级结构进行聚类,其结果所表现出的特征符合既有规律,并为后期的预测工作提供了依据。  相似文献   

11.
如何有效提取蛋白质序列特征值,一直是生物信息学研究的重要任务.本文研究8种序列特征值提取方法,并考察它们在不同分类器中的表现,以用于预测氧化还原酶辅酶依赖类型.其中,氨基酸组成法效果最差,平均预测精度仅及64.96%;而将两性伪氨基酸组成和新氨基酸组成分布两种方法合并后,以支持向量机作为分类器时,其识别效果最佳,可达92.93%.此外,不同特征值的提取方法与分类器之间似乎有着一定的匹配关系,只有找到其间的最佳匹配,才能获得最佳的识别效果.  相似文献   

12.
在鱼饲料中添加0.25%比例的赖氨酸的试验结果表明,可以提高鲤鱼的生长速度近20%。降低饲料成本可达13.7%,提高了鲤鱼产量。因此赖氨酸是鲤鱼生长发育的良好营养添加剂和生长剂。  相似文献   

13.
氨基酸含量是影响蛋白质耐热性的主要因素。本文以氨基酸含量为特征向量,研究了贝叶斯方法预测蛋白质耐热性的准确度。结果表明,基于贝叶斯方法的局部预测率和全局预测率分别为73.1%和76.1%。这不仅表明贝叶斯方法适合于蛋白质耐热性的分类,而且也证明了氨基酸含量的确对蛋白质耐热性有重要作用。  相似文献   

14.
波谱学方法研究蛋白质时,蛋白质序列的特征频率与蛋白质的位点、功能、空间结构对应.基于时间序列傅里叶变换的交叉谱原理,本文提出的“一个蛋白质关于多种氨基酸指数的一致谱”能够获取一个或多个蛋白质序列较显著的特征频率,再由特征频率去筛选与之对应的氨基酸指数.该方法与Lazovi(c)的筛选方法和筛选意义不同.结果显示,筛选出的氨基酸指数对应的性质多数与蛋白质的空间结构性质有关.蛋白质特征频率也许是用于特征提取的好方法,氨基酸指数筛选可被看作蛋白质数字表达的一种优化.  相似文献   

15.
蛋白质结构的鲁棒性能够提高蛋白质在不稳定环境中保持生物功能的能力。用氨基酸网络表示超氧化物歧化酶(Fe-SOD)的结构,从研究氨基酸网络鲁棒性的角度研究Fe-SOD结构的鲁棒性。实验结果显示,氨基酸网络的鲁棒性比同等规模大小的随机网络的鲁棒性差。尤其以介数方式攻击,Fe-SOD氨基酸网络表现出明显的脆弱性。嗜热的Fe-SOD氨基酸网络的鲁棒性比常温的氨基酸网络的鲁棒性高。通过鲁棒性分析,识别氨基酸网络中关键残基,发现关键残基主要包括进化保守残基、疏水性残基、规则二级结构内部的残基以及Fe-SOD活性位点残基。与热稳定性低的Fe-SOD氨基酸网络相比,热稳定性高的Fe-SOD氨基酸网络中的关键残基较均匀地分布在Fe-SOD内部。关键残基在Fe-SOD结构中均匀分布,有利于提高嗜热Fe-SOD整体的稳定性。  相似文献   

16.
为直接利用序列和结构信息预测蛋白质耐热温度,提出了基于群智能的蛋白质耐热温度预测方法。基于多元线性回归模型,利用人工蜂群与粒子群混合算法,优化了蛋白质的耐热温度与氨基酸含量的多元线性回归模型的参数,得到蛋白质的耐热温度。此外,通过加入蛋白质的氨基酸网络拓扑属性,提高了蛋白质耐热温度的预测准确性。对耐温蛋白质,网络拓扑属性的加入使得蛋白质耐热温度的预测值偏差和真实值偏差之间的相关系数增加到0.71,平均预测率增加到0.88;耐热蛋白质的相关系数增加到0.75,平均预测率增加到0.91。氨基酸网络拓扑属性的引入为预测蛋白质耐热温度提供了新的视角。  相似文献   

17.
以氨基酸含量为特征向量,研究了SVM和KNN预测蛋白质耐热性的准确度。结果表明,基于SVM的分类效果较好,其局部预测率和全局预测率分别为82.4%和83.4%;而基于KNN方法的局部预测率和全局预测率分别为77.6%和79.9%。两种方法的预测率均表明氨基酸含量是影响蛋白质耐热性的主要因素。  相似文献   

18.
利用生物信息学快速准确鉴别酶、非酶蛋白及内含肽能极大提高实验效率,而测序数量的指数型增长使酶、非酶蛋白及内含肽的自动分类尤显重要。本文获取了同一性小于25%的序列共计3853条,采用Z标度的伪氨基酸组成和氨基酸组成分布提取序列特征值识别酶、非酶蛋白及内含肽。结果表明,该特征值提取方法经参数优化后,即当λ=5,w=0.15时,以支持向量机为分类器,其10倍交叉验证的精度可达81.3%,ROC曲线下面积为0.83;其精度高于其它方法0.5%到12.9%不等;独立样本测试的预测精度可达71.2%,ROC曲线下面积为0.782,其精度高于其它方法0.4%到6.4%不等,效果均优于其它常见的序列特征值方法。本文结果说明从序列出发判断其归属是可行的,3种不同功能的分子在序列特征上存在一定的差异,所建立的Z标度的伪氨基酸组成和氨基酸组成分布法可用于其它类似的生物信息学问题。建立了从序列出发预测酶、非酶蛋白及内含肽的新方法。  相似文献   

19.
在温室基质栽培条件下,以不同比例(28.57%和57.14%)的氨基酸态氮分别代替无机营养液里的硝态氮,制成低浓度和高浓度氨基酸营养液。研究了不同浓度氨基酸态氮对番茄产量、品质及风味的影响。结果表明:在营养液总氮含量相同的条件下,低浓度和高浓度氨基酸态氮对番茄的增产效应都与硝态氮相当。低浓度氨基酸态氮提高了番茄可溶性糖含量,高浓度氨基酸态氮降低了番茄Vc的含量,氨基酸态氮一定程度降低了番茄的硝酸盐含量。感官评价结果显示,氨基酸态氮营养液与无机营养液种植的番茄相比,风味没有显著差异。因此,氨基酸可以作为番茄的氮源,但在总氮中的比例不宜超过50%。  相似文献   

20.
α-淀粉酶在许多工业领域中均有广泛应用,但大多数α-淀粉酶必须改造才能满足苛刻的温度条件,因此α-淀粉酶温度改造的蛋白质工程已经开始。通过对酶的理性设计可以创造新的酶。这一技术实现,依赖于两大技术的发明,即基因工程中的定点诱变技术和生物信息学。在本文中,构建了α-淀粉酶序列库和α-淀粉酶温度序列库。通过对α-淀粉酶温度序列库进行多元回归分析,得到预测α-淀粉酶的最适温度的方程。预测了α-淀粉酶的最适温度,相关系数为0.959 71。分析方程中各种氨基酸系数,发现:半胱氨酸对α-淀粉酶最适温度影响最大。极性氨基酸影响强;大多数氨基酸会降低α-淀粉酶的最适温度。这些信息将有助于α-淀粉酶的温度改造工程。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号