首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 93 毫秒
1.
SVM在基因微阵列癌症数据分类中的应用   总被引:1,自引:0,他引:1  
在总结二分类支持向量机应用的基础上,提出了利用t-验证方法和Wilcoxon验证方法进行特征选取,以支持向量机(SVM)为分类器,针对基因微阵列癌症数据进行分析的新方法,通过对白血病数据集和结肠癌数据集的分类实验,证明提出的方法不但识别率高,而且需要选取的特征子集小,分类速度快,提高了分类的准确性与分类速度。  相似文献   

2.
黄晓娟  张莉 《计算机应用》2015,35(10):2798-2802
为处理癌症多分类问题,已经提出了多类支持向量机递归特征消除(MSVM-RFE)方法,但该方法考虑的是所有子分类器的权重融合,忽略了各子分类器自身挑选特征的能力。为提高多分类问题的识别率,提出了一种改进的多类支持向量机递归特征消除(MMSVM-RFE)方法。所提方法利用一对多策略把多类问题化解为多个两类问题,每个两类问题均采用支持向量机递归特征消除来逐渐剔除掉冗余特征,得到一个特征子集;然后将得到的多个特征子集合并得到最终的特征子集;最后用SVM分类器对获得的特征子集进行建模。在3个基因数据集上的实验结果表明,改进的算法整体识别率提高了大约2%,单个类别的精度有大幅度提升甚至100%。与随机森林、k近邻分类器以及主成分分析(PCA)降维方法的比较均验证了所提算法的优势。  相似文献   

3.
文本特征维数通常高达几万且特征之间存在大量冗余和不相关信息,从而导致传统的分类方法效率低、分类准确率低.为了提高文本分类的快速性和准确性,提出了一种遗传算法(GA)和支持向量机(SVM)相结合的文本分类方法.把文本特征组合看作遗传算法中一个染色体,并进行二进制编码,将支持向量机分类准确率作为遗传算法的适应度函数,对每一...  相似文献   

4.
当特征集合存在强相关的特征子集且共同对分类问题有重要贡献时,传统方法通常从该子集中随机选择一个特征,导致数据可读性和分类性能下降.为此,面向多分类问题,提出一种基于支持向量机的特征选择算法,并设计一种快速迭代算法.该算法能够自动选择或剔除强相关的特征子集,在得到有效特征的同时实现特征降维.利用人工数据集和标准数据集进行试验,结果表明文中算法在特征选择可行性和有效性方面都有良好表现.  相似文献   

5.
标准的SVM分类计算过程中有大量的支持向量参与了计算,导致了分类速度缓慢。该文为提高SVM的分类速度,提出了一种快速的多项式核函数SVM分类算法,即将使用多项式核的SVM分类决策函数展开为关于待分类向量各分量的多项式,分类时通过计算各个多项式的值而得到分类结果,使分类计算量和支持向量数量无关,又保留了全部支持向量的信息。当多项式核函数的阶数或待分类向量的维数较低而支持向量数量较多时,使用该算法可以使SVM 分类的速度得到极大的提高。针对实际数据集的实验表明了该算法的有效性。  相似文献   

6.
微阵列数据癌症分类问题中的基因选择   总被引:1,自引:0,他引:1  
微阵列数据广泛而成功地应用于生物医学的癌症分类研究.一个典型的微阵列数据集包含大量(通常成千上万,甚至数十万)的基因、相对少量(往往不足一百)的样本.在这成千上万的基因中,仅仅一少部分基因对癌症分类有贡献.因而,对于癌症分类来说,最重要的一个问题就是识别出对癌症分类最有贡献的基因.这一识别过程称为基因选择.基因选择在统计模式识别、机器学习和数据挖掘领域已得到广泛研究.介绍基因选择问题所涉及到的相关背景知识和基本概念;全面地回顾统计学、机器学习和数据挖掘领域对基因选择问题的解决方法;通过实验展示了几种典型算法在微阵列数据上的性能;指出当前存在的问题和未来的研究方向.  相似文献   

7.
为了从高维、小样本的基因表达数据中有效地选择特征基因,消除与肿瘤分类无关的数据,提出一种随机矩阵替换与支持向量机的肿瘤信息基因选择算法(RD-SVM)。首先构建多组0/1随机向量表示的信息基因子集,并以支持向量机构建分类器评价每组子集的优劣,然后考虑各特征之间的相互作用,以0、1替换策略对基因子集评估,并找到最优基因子集,最后采用5个肿瘤信息基因表达谱数据对算法性能进行测试。结果表明,相对于参比算法,RD-SVM算法不仅提高了肿瘤信息基因的识别精度,同时所选信息基因最少。  相似文献   

8.
特征选择和分类器设计是网络入侵分类的关键,为了提高网络入侵分类率,针对特征选择问题,提出一种蚁群算法优化SVM选择和加权特征的网络入侵分类方法.首先利用支持向量机的分类精度和特征子集维数加权构造了综合适应度指标,然后利用蚁群算法的全局寻优和多次优解搜索能力实现特征子集搜索;然后选择网络数据的关键特征,计算信息增益获得各个特征权重,并根据特征权重构建加权支持向量机的网络入侵分类器;最后设计了局部细化搜索方式,使得特征选择结果不含冗余特征的同时提高了算法的收敛性,并通过KDD1999数据集验证了算法有效性.结果表明,ACO-SVM有效降低了特征维数,提高了网络入侵检测正确率和检测速度.  相似文献   

9.
贾鹤鸣  李瑶  孙康健 《自动化学报》2022,48(6):1601-1615
针对传统支持向量机方法用于数据分类存在分类精度低的不足问题, 将支持向量机分类方法与特征选择同步结合, 并利用智能优化算法对算法参数进行优化研究. 首先将遗传算法(Genetic algorithm, GA)和乌燕鸥优化算法(Sooty tern optimization algorithm, STOA)进行混合, 先通过对平均适应度值进行评估, 当个体的适应度函数值小于平均值时采用遗传算法对其进行局部搜索的加强, 否则进行乌燕鸥本体优化过程, 同时将支持向量机内核函数和特征选择目标共同作为优化对象, 利用改进后的STOA-GA寻找最适应解, 获得所选的特征分类结果. 其次, 通过16组经典UCI数据集和实际乳腺癌数据集进行数据分类研究, 在最佳适应度值、所选特征个数、特异性、敏感性和算法耗时方面进行对比研究, 实验结果表明, 该算法可以更加准确地处理数据, 避免冗余特征干扰, 在数据挖掘领域具有更广阔的工程应用前景.  相似文献   

10.
对肿瘤基因表达谱进行分析,从而有效区分正常样本与肿瘤样本的关键是:准确找出能够决定样本类别的最少特征基因,并用一个性能较好的分类器进行分类预测。针对该问题,用修订的特征记分准则(RFSC)去除分类无关基因;对两两冗余法进行改进,提出强相关树法用于冗余基因的去除;对粗糙支持向量机(RSVM)改进,提出近似等价粗糙支持向量机(AE-RSVM)对样本集进行分类测试。以肿瘤样本集为例进行测试,实验结果表明了提出方法的可行性和有效性。  相似文献   

11.
基于支持向量机的肿瘤分类特征基因选取   总被引:19,自引:0,他引:19  
依据基因表达谱有效建立肿瘤分类模型的关键在于准确找出决定样本类别的一组特征基因.针对该问题,在分析肿瘤基因表达谱特征的基础上,研究了肿瘤分类特征基因选取问题.首先,提出了一种新的类别可分性判据以滤除分类无关基因,并采用支持向量机作为分类器进行特征基因分类性能的检验.然后,采用两两冗余分析及基于支持向量机分类模型的灵敏度分析法进行冗余基因的剔除.以急性白血病亚型分类特征基因选取为例进行实验,结果表明了上述方法的可行性和有效性.  相似文献   

12.
肿瘤基因表达谱分类特征基因选取问题及分析方法研究   总被引:18,自引:1,他引:18  
对肿瘤分类特征基因选取问题的研究是发现肿瘤特异表达基因、研究肿瘤基因表达模式的重要手段,文中基于多类别肿瘤基因表达谱数据集,从研究肿瘤与正常组织的分类入手,对肿瘤分类特征基因选取问题进行分析和研究,首先对基于Relief算法的特征选取策略加以改进生成候选特征集合;然后以支持向量机作为分类器对其分类性能进行检验以选取分类特征基因;最后结合分类模型。利用灵敏度分析方法进行特征基因的精确搜索以滤除冗余,基于该方法文中选出了52个具有良好分类性能的特征基因作为肿瘤的基因特征,并对其表达行为进行了简要分析。  相似文献   

13.
Gene Selection for Cancer Classification using Support Vector Machines   总被引:94,自引:0,他引:94  
DNA micro-arrays now permit scientists to screen thousands of genes simultaneously and determine whether those genes are active, hyperactive or silent in normal or cancerous tissue. Because these new micro-array devices generate bewildering amounts of raw data, new analytical methods must be developed to sort out whether cancer tissues have distinctive signatures of gene expression over normal tissues or other types of cancer tissues.In this paper, we address the problem of selection of a small subset of genes from broad patterns of gene expression data, recorded on DNA micro-arrays. Using available training examples from cancer and normal patients, we build a classifier suitable for genetic diagnosis, as well as drug discovery. Previous attempts to address this problem select genes with correlation techniques. We propose a new method of gene selection utilizing Support Vector Machine methods based on Recursive Feature Elimination (RFE). We demonstrate experimentally that the genes selected by our techniques yield better classification performance and are biologically relevant to cancer.In contrast with the baseline method, our method eliminates gene redundancy automatically and yields better and more compact gene subsets. In patients with leukemia our method discovered 2 genes that yield zero leave-one-out error, while 64 genes are necessary for the baseline method to get the best result (one leave-one-out error). In the colon cancer database, using only 4 genes our method is 98% accurate, while the baseline method is only 86% accurate.  相似文献   

14.
采用精选Gabor小波和SVM分类的物体识别   总被引:3,自引:0,他引:3  
沈琳琳  纪震 《自动化学报》2009,35(4):350-355
提出了一种基于Gabor小波和支持向量机的物体识别通用框架. 在该框架中, 特征抽取采用选取的Gabor小波在物体的最佳位置卷积实现, 而分类则通过支持向量机实现. 相比传统的基于Gabor特征的识别系统, 该方法能够同时达到准确而快速的分类目的. 本论文成功地将该框架应用于两个实际的物体识别例子: 物体/非物体分类和人脸识别. 实验结果证明了所提出的方法相对于其它方法的优越性.  相似文献   

15.
在基于内容图像检索中,图像的底层视觉特征和高层语义概念之间存在着较大的语义间隔。使用机器学习方法学习图像特征,自动建立图像类的模型成为一种有效的方法。本文提出了一种用支持向量机(SVM)实现自然图像自动语义归类的方法,基于块划分聚类得到特征向量作为SVM训练样本,实现语义分类器。由于参与聚类的是某类图像所有块的特征,提取的特征更能反映某一类图像特征。实验证明这种方法是有效的。  相似文献   

16.
本文提出了一种新的基于SVM多类问题的策略Half-Against-Half,用该方法训练的基本思想是从多个类别中选择相近或相似的类别,相近的类别放在一个子集里,把多个类别分成两个子集,一直递归地使用这种思想,用类似决策树的思想构造,直到通过多个二分SVM分类器能把每个类别分开。从理论上看,该方法在训练时间、速度、训练集大小等方面比传统的方法OVA、OVO、DAG有一定的优势,并在实践方面得到了实验数据的支持。  相似文献   

17.
特征选择在文本分类中是非常必要的,这是由于它可以使分类更加有效与准确。本文根据特征选择方法χ2统计方法的不足,对χ2统计进行改进,并在支持向量机分类算法上进行实验。实验结果表明改进的方法可以提高分类的准确度。  相似文献   

18.
基于GA/SVM的微阵列数据特征的选择与分类   总被引:2,自引:0,他引:2       下载免费PDF全文
微阵列数据样本小、维度高的特点给数据分析造成了困难,而主基因的挑选又十分的重要。该文采用遗传算法挑选主基因,其中,用k最邻居距离作为模式识别方法,用支持向量机构造了诊断系统,用不同核函数进行预测分类性能测试。在经典的白血病数据集上,对34个样本的测试集的分类准确率为100%。  相似文献   

19.
Feature extraction is the most critical step in classification of multispectral image. The classification accuracy is mainly influenced by the feature sets that are selected to classify the image. In the past, handcrafted feature sets are used which are not adaptive for different image domains. To overcome this, an evolutionary learning method is developed to automatically learn the spatial-spectral features for classification. A modified Firefly Algorithm (FA) which achieves maximum classification accuracy with reduced size of feature set is proposed to gain the interest of feature selection for this purpose. For extracting the most efficient features from the data set, we have used 3-D discrete wavelet transform which decompose the multispectral image in all three dimensions. For selecting spatial and spectral features we have studied three different approaches namely overlapping window (OW-3DFS), non-overlapping window (NW-3DFS) adaptive window cube (AW-3DFS) and Pixel based technique. Fivefold Multiclass Support Vector Machine (MSVM) is used for classification purpose. Experiments conducted on Madurai LISS IV multispectral image exploited that the adaptive window approach is used to increase the classification accuracy.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号