首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 234 毫秒
1.
在伪氨基酸组成中加入与序列相关的影响因子能够提高蛋白质三级结构预测的准确率。将伪氨基酸组成的特征作为神经网络的输入,建立分类预测模型。选用粒子群优化算法对神经网络的参数进行优化。分类方法采用一对多的二分类方法。数据集选用Chou提出的204条蛋白质。实验结果使用Jackknife交叉验证,表明该方法能提高预测准确率。  相似文献   

2.
使用伪氨基酸和集成分类器预测凋谢蛋白亚细胞定位   总被引:1,自引:1,他引:0  
预测凋谢蛋白质亚细胞定位是生物信息学和蛋白质科学中重要的研究内容.基于Chou的伪氨基酸组成概念,用近似熵表示蛋白质序列的附加特征,组成新的伪氨基酸组成表示序列特征.将蛋白质序列看作短时间序列,近似熵能够区分不同亚细胞定位中序列的复杂度.结合多个模糊K近邻分类器(基本分类器)的集成分类器作为预测工具.以不同维数的伪氨基酸组成向量,作为每个基本分类器的输入数据.3个常用的数据集用来测试算法的性能,Jackknife测试结果表明新算法有效和实用.有望发展成为亚细胞定位研究的有用工具.  相似文献   

3.
基于氨基酸组成预测蛋白质热稳定性的v-支持向量机方法   总被引:2,自引:2,他引:0  
支持向量机有许多优点有效防止过拟和,适合大的特征空间,给定数据集的信息压缩.本文首次利用支持向量机从氨基酸组成来预测蛋白质的稳定性.总预测率可以达到80.64%,对嗜热蛋白质的预测率为82.50%,对嗜温蛋白质的预测率为80.29%从预测率可以验证氨基酸组成与蛋白质热稳定性成正相关的关系,支持向量机可以成为基于氨基酸组成预测蛋白质热稳定性的有效工具.  相似文献   

4.
针对传统机器学习算法中仍需手工操作表示特征的问题,提出了一种基于堆栈式降噪自编码器(SDAE)深度网络的蛋白质亚细胞定位算法。首先,分别利用改进型伪氨基酸组成法(PseAAC)、伪位置特异性得分矩阵法(PsePSSM)和三联体编码法(CT)对蛋白质序列进行特征提取,并将这三种方法得到的特征向量进行融合,以得到一个全新的蛋白质序列特征表达模型;接着,将融合后的特征向量输入到SDAE深度网络里自动学习更有效的特征表示;然后选用Softmax回归分类器进行亚细胞的分类预测,并采用留一法在Viral proteins和Plant proteins两个数据集上进行交叉验证;最后,将所提算法的结果与mGOASVM、HybridGO-Loc等多种现有算法的结果进行比较。实验结果表明,所提算法在Viral proteins数据集上取得了98.24%的准确率,与mGOASVM算法相比提高了9.35个百分点;同时所提算法在Plant proteins数据集上取得了97.63%的准确率,比mGOASVM算法和HybridGO-Loc算法分别提高了10.21个百分点和4.07个百分点。综上说明所提算法可以有效提高蛋白质亚细胞定位预测的准确性。  相似文献   

5.
支持向量机有许多优点:有效防止过拟和,适合大的特征空间,给定数据集的信息压缩。本文首次利用支持向量机从氨基酸组成来预测蛋白质的稳定性。总预测率可以达到80.64%,对嗜热蛋白质的预测率为82.50%,对嗜温蛋白质的预测率为80.29%从预测率可以验证氨基酸组成与蛋白质热稳定性成正相关的关系,支持向量机可以成为基于氨基酸组成预测蛋白质热稳定性的有效工具。  相似文献   

6.
针对传统机器学习算法中仍需手工操作表示特征的问题,提出了一种基于堆栈式降噪自编码器(SDAE)深度网络的蛋白质亚细胞定位算法。首先,分别利用改进型伪氨基酸组成法(PseAAC)、伪位置特异性得分矩阵法(PsePSSM)和三联体编码法(CT)对蛋白质序列进行特征提取,并将这三种方法得到的特征向量进行融合,以得到一个全新的蛋白质序列特征表达模型;接着,将融合后的特征向量输入到SDAE深度网络里自动学习更有效的特征表示;然后选用Softmax回归分类器进行亚细胞的分类预测,并采用留一法在Viral proteins和Plant proteins两个数据集上进行交叉验证;最后,将所提算法的结果与mGOASVM、HybridGO-Loc等多种现有算法的结果进行比较。实验结果表明,所提算法在Viral proteins数据集上取得了98.24%的准确率,与mGOASVM算法相比提高了9.35个百分点;同时所提算法在Plant proteins数据集上取得了97.63%的准确率,比mGOASVM算法和HybridGO-Loc算法分别提高了10.21个百分点和4.07个百分点。综上说明所提算法可以有效提高蛋白质亚细胞定位预测的准确性。  相似文献   

7.
首先基于特征融合思想,采用氨基酸组成、熵密度和自相关系数结合的方式构建190维特征向量进行特征表达,与仅考虑氨基酸组成信息的传统方法相比,能更好地表达蛋白质结构信息。然后利用LDA(Linear Discriminant Analysis)方法进行降维,降低计算复杂性,加强同类样本间的相关性。接下来选用支持向量机作为分类器进行定位预测,最后采用留一法在Gram-negative和Gram-positive数据集上进行交叉检验。实验结果表明,多特征结合的方法优于传统的氨基酸组成方法和简单的自相关系数方法,证明了新方法的有效性。  相似文献   

8.
传统的预测方法在构造特征向量时只考虑了氨基酸的组成,而自相关系数不仅能够很好地反映序列中氨基酸的位置信息,而且考虑了序列内部不同位置的氨基酸间的相互影响。设计了一种将氨基酸组成和自相关系数相结合的方法来构造特征向量;在Chou提出的伪氨基酸组成模型(pseudo.aminoacidcomposition,PseAAC)的基础上,通过扩展信息重新构造了伪氨基酸组成模型,并将其与自相关系数组合在一起来构造特征向量。分别使用两种方法编码,选用支持向量机作为预测工具,在数据集Z277、Z498以及独立测试集D138上进行了若干实验,对比结果显示,新方法比传统的氨基酸组成方法的准确率分别平均提高了7.43%和8.53%,证明了新方法是有效的。  相似文献   

9.
传统的蛋白质亚核定位利用单一序列特征表达导致信息不足,且表达与定位孤立导致信息不充分利用,为此利用伪氨基酸组成和位置特异性得分矩阵,收集到氨基酸物理化学特性信息和蛋白质进化信息,从而形成信息丰富的融合表达。在该基础上利用有监督局部保持投影学习数据低维流形,进而得到类间分割、类内保持的低维判别特征。然后依据此数据分布,适用最近邻分类器预测亚核位置。最后在标准数据集上,十折交叉验证的评估结果表明:该方法相较于已有方法在精度上有较大提升。  相似文献   

10.
从序列出发预测水解酶亚家族类型具有重要意义.本文利用不同标度的伪氨基酸组成提取序列特征值,采用k-近邻算法预测水解酶亚家族类型.选择参数后,三种方法各自在最优运行参数下预测水解酶亚家族的准确率分别为:85.15%,82.65%和80.14%.其中以Z标度的伪氨基酸组成效果最佳,比氨基酸组成识别精度提高12.85%.本文研究结果说明从序列出发,预测水解酶亚家族是可行的,且修正的伪氨基酸组成可望成为一种新的有效提取蛋白质序列特征值的方法.  相似文献   

11.
随着软件系统的规模越来越庞大,如何快速高效地预测软件中的程序缺陷成为一个研究热点。最近的研究引入了深度学习模型,使用神经网络提取代码特征构建分类器进行缺陷预测。针对现有的神经网络只在单层面、单粒度上提取代码特征,导致特征不够丰富,造成预测精度不高的问题,提出了一种基于特征融合的软件缺陷预测框架。通过将程序解析为抽象语法树(abstract syntax tree,AST)以及Token序列两种不同的程序表示方式,利用树卷积神经网络以及文本卷积神经网络分别提取代码的结构和语义特征进行特征融合,从而提取到更丰富的代码特征用于缺陷预测。同时改进了AST和Token序列提取方法,降低模型复杂度。选择使用公共存储库PROMISE中的公开数据集作为实验数据集,采用softmax分类器预测得到最终的预测结果。实验结果表明,该框架在实验数据集上可以获得比已有方法更高的F1-score。  相似文献   

12.
Jong  Sung-Yang  Seungjin   《Pattern recognition》2006,39(12):2301-2311
Prediction of the cellular location of a protein plays an important role in inferring the function of the protein. Feature extraction is a critical part in prediction systems, requiring raw sequence data to be transformed into appropriate numerical feature vectors while minimizing information loss. In this paper, we present a method for extracting useful features from protein sequence data. The method employs local and global pairwise sequence alignment scores as well as composition-based features. Five different features are used for training support vector machines (SVMs) separately and a weighted majority voting makes a final decision. The overall prediction accuracy evaluated by the 5-fold cross-validation reached 88.53% for the eukaryotic animal data set. Comparing the prediction accuracy of various feature extraction methods, provides a biological insight into the location of targeting information. Our experimental results confirm that our feature extraction methods are very useful for predicting subcellular localization of proteins.  相似文献   

13.
为了提高软件的可靠性,软件缺陷预测已经成为软件工程领域中一个重要的研究方向.传统的软件缺陷预测方法主要是设计静态代码度量,并用机器学习分类器来预测代码的缺陷概率.但是,静态代码度量未能充分考虑到潜藏在代码中的语义特征.根据这种状况,本文提出了一种基于深度卷积神经网络的软件缺陷预测模型.首先,从源代码的抽象语法树中选择合适的结点提取表征向量,并构建字典将其映射为整数向量以方便输入到卷积神经网络.然后,基于GoogLeNet设计卷积神经网络,利用卷积神经网络的深度挖掘数据的能力,充分挖掘出特征中的语法语义特征.另外,模型使用了随机过采样的方法来处理数据分类不均衡问题,并在网络中使用丢弃法来防止模型过拟合.最后,用Promise上的历史工程数据来测试模型,并以AUC和F1-measure为指标与其他3种方法进行了比较,实验结果显示本文提出的模型在软件缺陷预测性能上得到了一定的提升.  相似文献   

14.
姚小强  侯志森 《计算机应用》2018,38(11):3336-3341
针对传统方法对多噪声、非线性的时间序列无法进行有效预测的问题,以多尺度特征融合为切入点,提出并验证了基于树结构长短期记忆(LSTM)神经网络的预测方法。首先,提出了实现预测目标的核心方法,并分析了方法的内在优势;其次,构建了基于树结构长短期记忆神经网络的预测模型;最后,基于最近十年的国际黄金现货交易数据对模型进行了验证。实验结果表明,所提算法预测准确率高出最小成功率近10个百分点,证实了所提方法的有效性。  相似文献   

15.
组合原则表明句子的语义由其构成成分的语义按照一定规则组合而成,由此基于句法结构的语义组合计算一直是一个重要的探索方向,其中采用树结构的组合计算方法最具有代表性。但是该方法难以应用于大规模数据处理,主要问题是其语义组合的顺序依赖于具体树的结构,无法实现并行处理。该文提出一种基于图的依存句法分析和语义组合计算的联合框架,并借助复述识别任务训练语义组合模型和句法分析模型。一方面,图模型可以在训练和预测阶段采用并行处理,极大地缩短计算时间;另一方面,联合句法分析的语义组合框架不必依赖外部句法分析器,同时两个任务的联合学习可使语义表示同时学习句法结构和语义的上下文信息。我们在公开汉语复述识别数据集LCQMC上进行评测,实验结果显示准确率接近树结构组合方法,达到79.54%,预测速度最高可提升30倍以上。  相似文献   

16.
交通流量序列具有不平稳性、周期性、易受节假日等因素影响的特点,因此交通流量预测是一项困难的任务。针对交通流量序列的预测问题,设计了一种基于深度学习的交通流量预测模型。模型融合了卷积神经网络和长短时记忆神经网络两种网络结构,卷积神经网络用于提取特征分量,长短时记忆神经网络综合提取出来的特征分量做序列预测。通过在贵州省高速公路车流量数据集上的验证,模型比传统的预测方法具有更高的精确度和实时性,在不同数据集上的泛化性能良好。  相似文献   

17.
An intrusion is defined as a violation of the security policy of the system, and, hence, intrusion detection mainly refers to the mechanisms that are developed to detect violations of system security policy. Current intrusion detection systems (IDS) examine all data features to detect intrusion or misuse patterns. Some of the features may be redundant or contribute little (if anything) to the detection process. The purpose of this study is to identify important input features in building an IDS that is computationally efficient and effective. This article proposes an IDS model based on a general and enhanced flexible neural tree (FNT). Based on the predefined instruction/operator sets, a flexible neural tree model can be created and evolved. This framework allows input variables selection, overlayer connections, and different activation functions for the various nodes involved. The FNT structure is developed using an evolutionary algorithm, and the parameters are optimized by a particle swarm optimization algorithm. Empirical results indicate that the proposed method is efficient. © 2007 Wiley Periodicals, Inc. Int J Int Syst 22: 337–352, 2007.  相似文献   

18.
针对神经网络和决策树方法在算法上的本质联系和互补优势,将C4.5决策树提取规则的基于知识的神经网络(knowledgebased neural network,KBNN)用于出行方式预测。对居民通勤出行方式选择数据的分析表明,KBNN相比于决策树方法、普通前馈神经网络和多项Logit模型(MNL)有更高的预测精度,方法不仅提高了网络的可解释性,且易于构造、收敛速度更快,实用性较强,为出行方式选择预测提供了新的思路。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号