首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 171 毫秒
1.
氨基酸含量是影响蛋白质耐热性的主要因素。本文以氨基酸含量为特征向量,研究了贝叶斯方法预测蛋白质耐热性的准确度。结果表明,基于贝叶斯方法的局部预测率和全局预测率分别为73.1%和76.1%。这不仅表明贝叶斯方法适合于蛋白质耐热性的分类,而且也证明了氨基酸含量的确对蛋白质耐热性有重要作用。  相似文献   

2.
氨基酸含量是影响蛋白质耐热性的主要因素,为了提高以氨基酸含量为特征向量的蛋白质耐热性预测的精度和预测模型的性能,提出了一种基于机器学习蚁群算法(ACO)优化支持向量机(SVM)参数的蛋白质耐热性预测方法。建立了SVM参数优化模型,探讨了基于网格划分策略的连续蚁群算法,通过对SVM的惩罚因子和径向基核函数的全局搜索,筛选出最优参数,使SVM的蛋白质耐热性预测率最优。结果表明:采用未优化的SVM建立的预测模型的蛋白质耐热性总预测率相对较低,约为76.5%,采用遗传算法优化预测模型参数后的预测率约为86.6%,采用ACO优化预测模型参数后预测率达到87.8%。采用ACO优化的SVM模型参数的寻优速度快,预测结果准确。  相似文献   

3.
基于两层分类器的半胱氨酸氧化还原状态预测方法   总被引:1,自引:1,他引:0  
提出了两层混合分类器来预测蛋白质半胱氨酸氧化还原状态,第一层总体线性分类器利用氨基酸百分含量作为输入信息,第二层局部SVM分类器利用半胱氨酸周围局部序列作为输入信息。以2002年4月份的PISCES culled PDB数据库中的 639条蛋白质多肽链作为研究对象,共含有584条二硫键,2 904个半胱氨酸。经严格的折叠刀方法检验,预测半胱氨酸的氧化还原状态准确率最高可达84.1%(半胱氨酸水平)和80.1%(蛋白质水平)。结果表明这种将蛋白质总体信息与局部上下文序列信息结合起来构建的两层混和分类器具有较高的预测准确率。研究结果也表明总体氨基酸百分含量和半胱氨酸周围局部序列都携带有二硫键形成的相关信息,暗示了半胱氨酸是否形成二硫键不但取决于蛋白质全局的结构信息同时也受到局部序列信息的影响。  相似文献   

4.
通过实验对SVM、KNN文本分类算法进行了深入探讨。基于KNN和SVM算法,提出了一种SVM.KNN算法。该算法结合KNN和SVM两种分类器,并通过分类预测概率的反馈和修正来提高分类器性能。在CWT100G中文网页分类测试系统中,对SVM.KNN算法的实际效果进行了测试和算法性能验证。  相似文献   

5.
基于支持向量机和k-近邻分类器的多特征融合方法   总被引:1,自引:0,他引:1  
陈丽  陈静 《计算机应用》2009,29(3):833-835
针对传统分类方法只采用一种分类器而存在的片面性,分类精度不高,以及支持向量机分类超平面附近点易错分的问题,提出了基于支持向量机(SVM)和k 近邻(KNN)的多特征融合方法。在该算法中,设样本集特征可分为L组,先用SVM算法根据训练集中每组特征数据构造分类超平面,共构造L个;其次用SVM KNN方法对测试集进行测试,得到由L组后验概率构成的决策轮廓矩阵;最后将其进行多特征融合,输出最终的分类结果。用鸢尾属植物数据进行了数值实验,实验结果表明:采用基于SVM KNN的多特征融合方法比单独使用一种SVM或SVM KNN方法的平均预测精度分别提高了28.7%和1.9%。  相似文献   

6.
为直接利用序列和结构信息预测蛋白质耐热温度,提出了基于群智能的蛋白质耐热温度预测方法。基于多元线性回归模型,利用人工蜂群与粒子群混合算法,优化了蛋白质的耐热温度与氨基酸含量的多元线性回归模型的参数,得到蛋白质的耐热温度。此外,通过加入蛋白质的氨基酸网络拓扑属性,提高了蛋白质耐热温度的预测准确性。对耐温蛋白质,网络拓扑属性的加入使得蛋白质耐热温度的预测值偏差和真实值偏差之间的相关系数增加到0.71,平均预测率增加到0.88;耐热蛋白质的相关系数增加到0.75,平均预测率增加到0.91。氨基酸网络拓扑属性的引入为预测蛋白质耐热温度提供了新的视角。  相似文献   

7.
肖绚  徐培杰 《计算机工程》2011,37(18):204-205
利用氨基酸数字编码模型,将蛋白质序列转换为数字序列,根据偏序理论构建蛋白质哈斯矩阵。基于同一类型蛋白质哈斯矩阵图 具有相似图像纹理的假设,运用图像处理方法提取图像的几何矩作为伪氨基酸成分,对G-蛋白偶联受体类型分为2层进行预测,预测成功率分别为92.33%和85.48%。预测效果表明该方法是可行的。  相似文献   

8.
肖绚  肖纯材  王普 《计算机应用研究》2010,27(10):3698-3700
蛋白质二级结构预测在蛋白质结构预测中具有很重要的作用。基于伪氨基酸成分表示蛋白质的方法,能提高蛋白质结构和功能预测的成功率,利用蛋白质距离矩阵灰度图,基于几何矩提出了一种伪氨基酸构造方法,结合氨基酸的成分对蛋白质二级结构类型进行预测,通过国际公认的Jackknife检验方法显示预测成功率达到95.10%,比其他方法高出许多,说明此方法具有有效的分类效果。  相似文献   

9.
鉴于不同类型氨基酸的相互作用对蛋白质结构预测的影响不同,文中融合卷积神经网络和长短时记忆神经网络模型,提出卷积长短时记忆神经网络,并应用到蛋白质8类二级结构的预测中.首先基于氨基酸序列的类别信息和氨基酸结构的进化信息表示蛋白质序列,并采用卷积提取氨基酸残基之间的局部相关特征,然后利用双向长短时记忆神经网络提取蛋白质序列内部残基之间的远程相互作用,最后将提取的蛋白质的局部相关特征和远程相互作用用于蛋白质8类二级结构的预测.实验表明,相比基准方法,文中模型提高8类二级结构预测的精度,并具有良好的可扩展性.  相似文献   

10.
基于GM(2,1)的亚细胞定位预测   总被引:2,自引:0,他引:2  
林卫中  肖绚 《计算机工程》2009,35(8):225-226
对于蛋白质氨基酸序列,使用GM(2,1)模型的参数作为伪氨基酸成分,加上各氨基酸在序列中所占比例,构成蛋白质的灰色伪氨基酸成分表示。利用扩大协方差算法预测亚细胞定位,开发基于该方法的亚细胞定位预测服务器。在相同的数据集上,对比实验结果显示,该预测服务器在总体预测率上达到77.6%,比其他预测方法优越。相关的研究拓展了灰色理论在生物信息学上的应用。  相似文献   

11.
基于一级结构信息预测蛋白质热稳定性,对于利用计算机筛选热稳定性蛋白具有重要意义。本文采用k-近邻算法从序列出发预测蛋白质的热稳定性,用自一致性检验、交叉验证和独立样本测试等三种方法评估。仅用20种氨基酸组成作为特征变量时,识别的正确率分别可达100%,87.7%和89.6%;而引入8个新变量后,其精度分别为100%,89.6%和90.2%,对小蛋白质分子识别的精度提高了2.4%。同时探讨了蛋白质分子大小对识别效果的影响。  相似文献   

12.
基于氨基酸组成预测蛋白质热稳定性的v-支持向量机方法   总被引:2,自引:2,他引:0  
支持向量机有许多优点有效防止过拟和,适合大的特征空间,给定数据集的信息压缩.本文首次利用支持向量机从氨基酸组成来预测蛋白质的稳定性.总预测率可以达到80.64%,对嗜热蛋白质的预测率为82.50%,对嗜温蛋白质的预测率为80.29%从预测率可以验证氨基酸组成与蛋白质热稳定性成正相关的关系,支持向量机可以成为基于氨基酸组成预测蛋白质热稳定性的有效工具.  相似文献   

13.
针对密度峰值聚类算法(DPC)在处理维数较高、含噪声及结构复杂数据集时聚类性能不佳问题,提出一种结合K近邻的改进密度峰值聚类算法(IDPCA)。该算法首先给出新的局部密度度量方法来描述每个样本在空间中的分布情况,然后引入核心点的概念并结合K近邻思想设计了全局搜索分配策略,通过不断将核心点的未分配K近邻正确归类以加快聚类速度,进而提出一种基于K近邻加权的统计学习分配策略,利用剩余点的K近邻加权信息来确定其被分配到各局部类的概率,有效提高了聚类质量。实验结果表明,IDPCA算法在21个典型的测试数据集上均有良好的适用性,而在与DPC算法及另外3种典型聚类算法的性能指标对比上,其优势更为明显。  相似文献   

14.
In this paper we propose a new image classification technique. According to this note that most research focuses on extraction of features in the frequency domain, location, and reduction of feature dimensions, in this research we focused on learning step in image classification. The main aim is to use the heuristic methods to increase the function of the estimator of the learning algorithm and continue to achieve the desired state, as well as categorization without user interference and automatically performed by the model produced from the above steps. So, in this paper, a new learning approach based on the Salp Swarm Algorithm was proposed that was implemented and evaluated on learning algorithm Decision Tree, K-Nearest Neighbors and Naïve Bayes. The results demonstrate the improvement of the performance of learning algorithms in all the achieved criteria by using the SSA algorithm in comparison with traditional learning algorithms. In the accuracy, sensitivity, classification error and F1 criterion, the best performance of the proposed model is using the Decision Tree learning method with values of 99.17%, 100%, 0.83% and 95.65% respectively. In the specificity and precision criterion, the best performance of the proposed model is based on K-Nearest Neighbors learning method with values of 100%.  相似文献   

15.
针对超宽带在非视距环境下测距误差大引起定位误差较大的问题,提出了一种基于最小二乘支持向量机支持向量机(Least Squares_Support Vector Machine,LS_SVM)算法的测距误差处理.该方法将室内区域划分为多个相等的小区域,建立每个区域的采样信号的特征值和节点位置的非线性关系,利用LS_SVM对其进行分类和回归进行定位,对于非视距测距结果赋予较小的一个权重.实验仿真表明,相比K邻近算法(K-Nearest Neighbors,K-NN)误差精度在7 cm内提高10%,说明本算法能够有效的提高定位精度.  相似文献   

16.
霍华  赵刚 《计算机工程》2012,38(13):131-133
针对视觉词袋模型的量化误差与视觉词含糊性,提出一种基于视觉词模糊权重的视频语义标注方案。该方案在训练样本集的预聚类基础上,逐个聚类训练单类支持向量机OC-SVM。根据样本特征与聚类超球球心的距离函数及聚类超球的空间分布确定视觉词映射及权重,以提高视觉词的表达力、区别力。实验结果表明,基于该方案的视频语义标注精度分别比TF方案和VWA方案提高34%和16%。  相似文献   

17.
As an important attribute of proteins, protein subcellular location(s) can provide valuable information about their functions. Determining protein subcellular locations using experimental methods are usually expensive and time-consuming. Over the years, a variety of computational approaches have been developed to predict protein subcellular locations based on knowledge of known protein locations. However, the problem is inherently hard, especially for proteins that can exist at multiple subcellular locations. Further studies are still in great need in this area. In this paper, we propose an ensemble learning framework that utilizes a modified Weighted K-Nearest Neighbors (WKNN) as the basic learning algorithm. Two different types of features are considered and extracted from training data, which are based on protein amino acid compositions (Amphiphilic Pseudo Amino Acid Composition, or AmPseAAC) and protein sequence similarities (Protein Similarity Measure, or PSM), respectively. Two individual classifiers are trained separately based on these two types of features and each assigns a probability distribution over different locations to a query protein. Based on the outputs of the two base classifiers, a novel ensemble strategy named Maximized Probability on Label (MPoL) is proposed. The strategy produces a final set of protein locations for each protein by integrating prediction results of the base classifiers through an optimization procedure. To measure the prediction quality of the proposed approach, two different types of evaluation metrics, example-based metrics and label-based metrics, are used. To evaluate the performance of our approach objectively, we compare its results with those predicted by another popular method named iLoc-Animal on a benchmark dataset through cross-validation. Results show that in terms of absolute true success rate on multi-location prediction, MPoL has achieved much better results than iLoc-Animal. It implies that the proposed method has some potential to solve a diverse set of multi-label learning problems.  相似文献   

18.
Protein thermostability information is closely linked to commercial production of many biomaterials. Recent developments have shown that amino acid composition, special sequence patterns and hydrogen bonds, disulfide bonds, salt bridges and so on are of considerable importance to thermostability. In this study, we present a system to integrate these various factors that predict protein thermostability. In this study, the features of proteins in the PGTdb are analyzed. We consider both structure and sequence features and correlation coefficients are incorporated into the feature selection algorithm. Machine learning algorithms are then used to develop identification systems and performances between the different algorithms are compared. In this research, two features, (E + F + M + R)/residue and charged/non-charged, are found to be critical to the thermostability of proteins. Although the sequence and structural models achieve a higher accuracy, sequence-only models provides sufficient accuracy for sequence-only thermostability prediction.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号