共查询到18条相似文献,搜索用时 156 毫秒
1.
周雄 《计算机工程与应用》2014,(10):120-123,187
为了提高剪接位点的识别精度,提出一种多尺度组分和位点关联特征相融合的剪接位点识别模型(MSC-APR)。确定剪接位点序列保守性的窗口长度,分别提取序列的多尺度组分和位点关联特征,然后将两类特征组合输入最小二乘支持向量机构建剪接位点分类器,采用数据集HS3D和NN269进行仿真实验。结果表明, MSC-APR的剪接位点识别精度明显优于对比模型的识别精度。 相似文献
2.
针对不同特征向量下选择最优核函数的学习方法问题,将多核学习支持向量机(MK-SVM)应用于音乐流派自动分类中,提出了将最优核函数进行加权组合构成合成核函数进行流派分类的方法。多核分类学习能够针对不同的声学特征采用不同的最优核函数,并通过学习得到各个核函数在分类中的权重,从而明确各声学特征在流派分类中的权重,为音乐流派分类中特征向量的分析和选择提供了一个清晰、明确的结果。在ISMIR 2011竞赛数据集上验证了提出的基于多核学习支持向量机(MKL-SVM)的分类方法,并与传统的基于单核支持向量机的方法进行了比较分析。实验结果表明基于MKL-SVM的音乐流派自动分类准确率比传统单核支持向量机的分类准确率提高了6.58%,且该方法与传统的特征选择结果比较,更清楚地解释了所选择的特征向量对流派分类的影响大小,通过选择影响较大的特征组合进行分类,分类结果也有了明显的提升。 相似文献
3.
基于W_2~1再生核支持向量机的模式分类研究 总被引:1,自引:0,他引:1
支持向量机是基于统计学习理论的模式分类器。它通过结构风险最小化准则和核函数方法,较好地解决了模式分类器复杂性和推广性之间的矛盾,引起了大家对模式识别领域的极大关注。近年来,支持向量机在手写体识别、人脸识别、文本分类等领域取得了很大的成功。文章将一种新的核函数用于虹膜识别,并与传统的多项式核函数、高斯核函数进行了比较。初步结果显示了该核函数的应用潜力。 相似文献
4.
基于W12再生核支持向量机的模式分类研究 总被引:1,自引:0,他引:1
支持向量机是基于统计学习理论的模式分类器.它通过结构风险最小化准则和核函数方法,较好地解决了模式分类器复杂性和推广性之间的矛盾,引起了大家对模式识别领域的极大关注.近年来,支持向量机在手写体识别、人脸识别、文本分类等领域取得了很大的成功.文章将一种新的核函数用于虹膜识别,并与传统的多项式核函数、高斯核函数进行了比较.初步结果显示了该核函数的应用潜力. 相似文献
5.
依据剪接位点附近存在的序列保守性出现了多种机器学习识别方法,如基于统计概率的方法、基于隐马尔可夫模型(Hidden Markov Model,HMM)的方法和基于支持向量机(Support Vector Machines,SVM)的方法等,这些方法识别精度较高,但算法过程复杂。基于剪接位点附近碱基之间的相关性和统计特征,构造了一种固定位点上碱基间的网络结构图,并在此网络结构图的基础上提出了基于概率统计特征的剪接位点识别计算公式,利用N269数据库对识别方法和其他传统方法的性能进行了比较。实验结果表明,基于概率统计特征的方法预测人类的剪接位点,有较好的预测效果,与其他的一些算法相比,表现出参数少,精度高等优点。 相似文献
6.
支持向量机是基于统计学习理论的模式分类器。它通过结构风险最小化准则和核函数方法,较好地解决了模式分类器复杂性和推广性之间的矛盾,引起了大家对模式识别领域的极大关注。近年来,支持向量机在手写体识别、人脸识别、文本分类等领域取得了很大的成功。文章将一种新的核函数用于虹膜识别,并与传统的多项式核函数、高斯核函数进行了比较。初步结果显示了该核函数的应用潜力。 相似文献
7.
8.
9.
10.
11.
12.
《Expert systems with applications》2006,30(1):73-81
One of the most important tasks in correctly annotating genes in higher organisms is to accurately locate the DNA splice sites. Although relatively high accuracy has been achieved by existing methods, most of these prediction methods are computationally extensive. Due to the enormous amount of DNA sequences to be processed, the computational speed is an important issue to consider. In this paper, we present a new machine learning method for predicting DNA splice sites, which first applies a Bayes feature mapping (kernel) to project the data into a new feature space and then uses a linear Support Vector Machine (SVM) as a classifier to recognize the true splice sites. The computation time is linear to the number of sequences tested, while the performance is notably improved compared with the Naive Bayes classifier in terms of classification accuracy, precision, and recall. Our classification results are also comparable to the solution quality obtained by the SVMs with polynomial kernels, while the speed of our proposed method is significantly faster. This is a notable improvement in computational modeling considering the huge amount of DNA sequences to be processed. 相似文献
13.
针对基于固定阶Markov链模型的方法不能充分利用不同阶次子序列结构特征的问题,提出一种基于多阶Markov模型的符号序列贝叶斯分类新方法。首先,建立了基于多阶次Markov模型的条件概率分布模型;其次,提出一种附后缀表的n-阶子序列后缀树结构和高效的树构造算法,该算法能够在扫描一遍序列集过程中建立多阶条件概率模型;最后,提出符号序列的贝叶斯分类器,其训练算法基于最大似然法学习不同阶次模型的权重,分类算法使用各阶次的加权条件概率进行贝叶斯分类预测。在三个应用领域实际序列集上进行了系列实验,结果表明:新分类器对模型阶数变化不敏感;与使用固定阶模型的支持向量机等现有方法相比,所提方法在基因序列与语音序列上可以取得40%以上的分类精度提升,且可输出符号序列Markov模型最优阶数参考值。 相似文献
14.
Recurrent networks can generate spatio-temporal neural sequences of very large cycles, having an apparent random behavior. Nonetheless a proximity measure between these sequences may be defined through comparison of the synaptic weight matrices that generate them. Following the dynamic neural filter (DNF) formalism we demonstrate this concept by comparing teacher and student recurrent networks of binary neurons. We show that large sequences, providing a training set well exceeding the Cover limit, allow for good determination of the synaptic matrices. Alternatively, assuming the matrices to be known, very fast determination of the biases can be achieved. Thus, a spatio-temporal sequence may be regarded as spatio-temporal encoding of the bias vector. We introduce a linear support vector machine (SVM) variant of the DNF in order to specify an optimal weight matrix. This approach allows us to deal with noise. Spatio-temporal sequences generated by different DNFs with the same number of neurons may be compared by calculating correlations of the synaptic matrices of the reconstructed DNFs. Other types of spatio-temporal sequences need the introduction of hidden neurons, and/or the use of a kernel variant of the SVM approach. The latter is being defined as a recurrent support vector network (RSVN). 相似文献
15.
为了提高网络安全态势的预测精度,针对单一核函数的局限性,提出一种组合核函数相关向量机的网络安全态势预测模型。首先对网络安全态势时间序列进行重新构造,得到相关向量机的学习样本,然后采用多项式和高斯核函数构建组合核函数,并采用组合核函数相关向量机对网络安全态势样本进行学习,建立网络安全态势预测模型,最后对网络安全态势预测性能进行测试。实验结果表明,相对于单一核函数相关向量机以及其它网络安全态势预测模型,组合核函数相关向量机提高了网络安全态势的预测准确性,可以满足网络安全态势预测的实际应用需求 相似文献
16.
本文通过数据挖掘自身的特点,有效地结合相关算法并基于人体运动捕捉数据,给出这两个问题的有效解决方法。主要工作如下:(1)提出了基于能量模型的算法。相对于现有文献中使用的关节的几何位置,本文提出了的人体能量模型能够有效地降低动作数据的维度,并且能够正确地反映原动作的特征。在此基础上,使用相关系数来表示人体运动过程中各关节之间的相关性,并据此提取出原动作的低维度索引,实验表明该索引能够有效地体现原动作的特征。使用支持向量机结合低维度索引可以有效地讲输入动作划分到一个动作大类中,在此基础上使用基于Keogh下界的线性索引算法可以精确、快速地检索到与输入动作DTW距离最近的候选动作。(2)提出了基于公共子序列距离的数据挖掘算法。相对于现有文献中使用的欧式距离,本文使用的基于最长公共子序列的度量方法能够有效地降低噪声对于挖掘结果的不利影响。使用启发式搜索可以将搜索所需要的时间降低为使用朴素式搜索算法的60%以下,并且随着序列的长度的增加、计算量的增大,前者相对于后者运行时间的百分比有明显的减小趋势,利用这一特性,该算法可以在长序列的主旨模式挖掘中,大规模地减少算法的运行时间。在各长度的候选模式集合中,使用层次化聚类分析可以有效地合并相似度较高的候选模式,以达到合理约简模式、消除相邻重叠模式对结果不利影响的目的。使用最小描述长度原则可以根据模式的长度以及出现频率对候选模式表达整个原序列的能力进行有效地评估,从而达到支持非固定长度主旨模式挖掘的目的。 相似文献
17.
Recognition of characteristic patterns in sets of functionally equivalent DNA sequences 总被引:3,自引:0,他引:3
An algorithm has been developed for the identification of unknown patterns which are distinctive for a set of short DNA sequences believed to be functionally equivalent. A pattern is defined as being a string, containing fully or partially specified nucleotides at each position of the string. The advantage of this 'vague' definition of the pattern is that it imposes minimum constraints on the characterization of patterns. A new feature of the approach developed here is that it allows a 'fair' simultaneous testing of patterns of all degrees of degeneracy. This analysis is based on an evaluation of inhomogeneity in the empirical occurrence distribution of any such pattern within a set of sequences. The use of the nonparametric kernel density estimation of Parzen allows one to assess small disturbances among the sequence alignments. The method also makes it possible to identify sequence subsets with different characteristic patterns. This algorithm was implemented in the analysis of patterns characteristic of sets of promoters, terminators and splice junction sequences. The results are compared with those obtained by other methods. 相似文献
18.
在基因选择性剪接调控过程中,有各种剪接信号参与其中,如剪接位点、剪接调控元件等。如何识别这些剪接信号、研究其在基因组中的分布规律是一个有趣的问题。设计了一个基于序列特征的剪接信号打分算法,该算法可赋予每个信号一个分值,表示其信号强度。基于该打分算法所构建的分类器可用于预测识别新的剪接信号。应用该打分算法研究剪接位点和剪接调控元件在基因组中的分布,发现这两类信号具有互补特性。该研究提供了一种可用于分析生物序列数据的新方法,给出了一个从生物信息学角度来研究基因调控问题的新途径。 相似文献