首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 187 毫秒
1.
基因表达谱中存在大量与肿瘤分类无关的基因,严重降低肿瘤诊断的准确率.基因表达谱还存在高维小样本、噪声大等问题,增加肿瘤诊断的难度.为了获取基因数量较少且分类能力较强的信息基因子集,文中提出基于对称不确定性(SU)和支持向量机递归特征消除(SVM-RFE)的信息基因选择方法.首先利用SU评估基因和类标签之间的相关性,根据SU定义近似马尔科夫毯,快速消除大量无关和冗余基因.然后利用SVM-RFE进一步剔除冗余基因,获取有效的信息基因子集.实验表明,文中方法可以在选取维数较少或相等的信息基因子集情况下获取较高的肿瘤分类性能.  相似文献   

2.
高超声速进气道不起动预测研究中主要包括确定压力传感器位置和建立起动\不起动分类面,属于机器学习中特征选择问题和分类问题,而常用特征选择算法(基于支持向量机的递归特征消除SVM-RFE)单一并且耗时较长。为解决该问题寻找较优的特征选择算法,建立一个高超声速二元进气道/隔离段模型,通过数值模拟获得内流道上表面压力数据样本;利用Relief和SVMRFE组合式算法Relief-Corre方法,Relief-SVMRFE方法,Relief-PSO-SVMRFE方法进行特征选择;支持向量机SVM训练分类面。最后得出Relief-SVMRFE方法性能最优,运行效率比SVMRFE提高了约3倍,准确率比其他基于Relief组合方法高;获得最优特征的分类面具有较高的泛化性与鲁棒性,证明该分类面的有效性。  相似文献   

3.
基于Relief和SVM-RFE的组合式SNP特征选择   总被引:1,自引:0,他引:1  
针对SNP的全基因组关联分析面临SNP数据的高维小样本特性和遗传疾病病理的复杂性两大难点,将特征选择引入SNP全基因组关联分析中,提出基于Relief和SVM-RFE的组合式SNP特征选择方法。该方法包括两个阶段:Filter阶段,使用Relief算法剔除无关SNPs;Wrapper阶段,使用基于支持向量机的特征递归消减方法(SVM-RFE)筛选出与遗传疾病相关的关键SNPs。实验表明,该方法具有明显优于单独使用SVM-RFE算法的性能,优于单独使用Relief-SVM算法的分类准确率,为SNP全基因组关联分析提供了一种有效途径。  相似文献   

4.
恐怖主义被称为现代人类社会之癌,是世界各国政府和人民面临着的重大的挑战,应该引起全人类的重视。在使用全球恐怖主义数据库中的数据对恐怖主义活动进行研究时,从高维数据中提取关键的特征,是反恐研究中的重点和难点。针对全球恐怖主义数据库中特征的高维性、冗余性和数据不完整性的特点,分别采用最小冗余最大相关算法(mRMR)、基于支持向量机的递归删除算法(SVM-RFE)和基于随机森林的特征选择算法进行特征筛选与提取。利用K-近邻(KNN)分类器其对上述特征选择方法进行降维结果分析和分类结果比较。实验结果表明,特征选择算法不仅能提高分类性能还能提高分类效率,并且基于支持向量机的递归删除算法(SVM-RFE)选择的特征子集在预测恐怖主义活动时准确率更高。  相似文献   

5.
黄晓娟  张莉 《计算机应用》2015,35(10):2798-2802
为处理癌症多分类问题,已经提出了多类支持向量机递归特征消除(MSVM-RFE)方法,但该方法考虑的是所有子分类器的权重融合,忽略了各子分类器自身挑选特征的能力。为提高多分类问题的识别率,提出了一种改进的多类支持向量机递归特征消除(MMSVM-RFE)方法。所提方法利用一对多策略把多类问题化解为多个两类问题,每个两类问题均采用支持向量机递归特征消除来逐渐剔除掉冗余特征,得到一个特征子集;然后将得到的多个特征子集合并得到最终的特征子集;最后用SVM分类器对获得的特征子集进行建模。在3个基因数据集上的实验结果表明,改进的算法整体识别率提高了大约2%,单个类别的精度有大幅度提升甚至100%。与随机森林、k近邻分类器以及主成分分析(PCA)降维方法的比较均验证了所提算法的优势。  相似文献   

6.
高维少样本数据的特征压缩   总被引:1,自引:0,他引:1       下载免费PDF全文
针对一类高维少样本数据的特点,给出了广义小样本概念,对广义小样本进行信息特征压缩:特征提取(降维)和特征选择(选维)。首先介绍基于主成分分析(PCA)的无监督与基于偏最小二乘(PLS)的有监督的特征提取方法;其次通过分析第一成分结构,提出基于PCA与PLS的新的全局特征选择方法,并进一步提出基于PLS的递归特征排除法(PLS-RFE);最后针对MIT AML/ALL的分类问题,实现基于PCA与PLS的特征选择和特征提取,以及PLS-RFE特征选择与比较,达到广义小样本信息特征压缩的目的。  相似文献   

7.
特征选择是处理高维大数据常用的降维手段,但其中牵涉到的多个彼此冲突的特征子集评价目标难以平衡。为综合考虑特征选择中多种子集评价方式间的折中,优化子集性能,提出一种基于子集评价多目标优化的特征选择框架,并重点对多目标粒子群优化(MOPSO)在特征子集评价中的应用进行了研究。该框架分别根据子集的稀疏度、分类能力和信息损失度设计多目标优化函数,继而基于多目标优化算法进行特征权值向量寻优,并通过权值向量Pareto解集膝点选取确定最优向量,最终实现基于权值向量排序的特征选择。设计实验对比了基于多目标粒子群优化算法的特征选择(FS_MOPSO)与四种经典方法的性能,多个数据集上的结果表明,FS_MOPSO在低维空间表现出更高的分类精度,并保证了更少的信息损失。  相似文献   

8.
已有基于支持向量数据描述的特征选择方法计算量较大,导致特征选择的时间过长。针对此问题,提出了一种新的基于支持向量数据描述的特征选择算法。新方法的特征选择是通过超球体球心方向上的能量大小来决定且采用了递归特征消除方式来逐渐剔除掉冗余特征。在Leukemia数据集上的实验结果表明,新方法能够进行快速的特征选择,且所选择的特征对后续的分类是有效的。  相似文献   

9.
SVM-RFE特征选择算法是一种有效的特征选择方法,具有较高的应用价值。针对传统SVM-RFE特征选择算法中SVM参数(γ和C)难以确定的问题,本文采用粒子群算法搜索SVM的参数。然后将特征向量映射到SVM参数γ确定的核空间中并进行特征选择,有效地将特征选择与SVM分类器设计关联起来。仿真结果表明,特征选择后的数据集仍能保证SVM分类器具有较高的分类正确率。  相似文献   

10.
一种基于递归分类树的集成特征基因选择方法   总被引:14,自引:1,他引:14  
李霞  张田文  郭政 《计算机学报》2004,27(5):675-682
利用DNA芯片基因表达谱信息识别疾病相关基因,对癌症等疾病分型、诊断及病理学研究有非常重要的实际意义.该文提出了一种基于递归分类树的特征基因选择的集成方法EFST(Ensemble Feature Selection based on Recursive Partition—Tree).EFST可选择多组基于不同样本分布结构的特征基因,结合有监督机器学习中的多分类器集成(ensemble)决策技术,利用提出的衡量特征基因稳定性与显著性测度.集成各特征基因组选择最终的特征基因.应用结肠癌2000个基因的表达谱实验数据分析结果显示:EFST方法不仅具有寻找疾病相关基因的能力和较强的数据维数压缩能力,而且由支持向量机(SVM)等4种模式分类方法证实EFST方法可以明显地提高疾病鉴别分类的准确率.  相似文献   

11.
In a DNA microarray dataset, gene expression data often has a huge number of features(which are referred to as genes) versus a small size of samples. With the development of DNA microarray technology, the number of dimensions increases even faster than before, which could lead to the problem of the curse of dimensionality. To get good classification performance, it is necessary to preprocess the gene expression data. Support vector machine recursive feature elimination (SVM-RFE) is a classical method for gene selection. However, SVM-RFE suffers from high computational complexity. To remedy it, this paper enhances SVM-RFE for gene selection by incorporating feature clustering, called feature clustering SVM-RFE (FCSVM-RFE). The proposed method first performs gene selection roughly and then ranks the selected genes. First, a clustering algorithm is used to cluster genes into gene groups, in each which genes have similar expression profile. Then, a representative gene is found to represent a gene group. By doing so, we can obtain a representative gene set. Then, SVM-RFE is applied to rank these representative genes. FCSVM-RFE can reduce the computational complexity and the redundancy among genes. Experiments on seven public gene expression datasets show that FCSVM-RFE can achieve a better classification performance and lower computational complexity when compared with the state-the-art-of methods, such as SVM-RFE.  相似文献   

12.
A method is described for performing sparse and stable gene selection from a number of unstable, but low cost, SVM-RFE units referred to as SVM-RFE subunits. Using a comprehensive simulation study, we show that the introduction of a consensus constraint with respect to variations in the policy of gene removal and a stability constraint with respect to perturbations in the training data can remarkably improve gene selection precision, dimensionality reduction ratio and stability of low cost SVM-RFE subunits still guaranteeing affordable computational costs. The method, which does not require the preselection of the number of selected genes, is divided into two stages. Multiple rough gene removal policies are first applied to multiple surrogate training datasets (spreading). Multiple consensus gene sets with respect to variations in the gene removal policy are then obtained and passed through a stability filter which selects the best performing gene set (despreading). Hence, while the consensus constraint performs strong dimensionality reduction at affordable computational costs, the stability constraint ensures acceptable indexes of gene selection stability and further dimensionality reduction. The method is validated on three benchmark microarray datasets.  相似文献   

13.
样本类型无关的多类特征基因选择方法   总被引:1,自引:0,他引:1  
分类特征基因是基因表达谱数据分析中的重点,目前的特征基因选择方法均没有考虑到基因在不同类别中分布失衡给特征基因选择算法带来的影响。提出一种样本无关的特征基因选择方法,该方法利用改进地类间差异函数和类内波动函数,根据两个函数的一致性选择每个类别的鉴别基因。该方法不仅适用于多类样本,对于各类样本数量不均衡以及基因在各类中分布失调的样本同样有效。实验结果表明,该方法确保了特征矢量的均衡性,提高了分类器的分类性能。  相似文献   

14.
基于统计相关性与K-means的区分基因子集选择算法   总被引:1,自引:0,他引:1  
谢娟英  高红超 《软件学报》2014,25(9):2050-2075
针对高维小样本癌症基因数据集的有效区分基因子集选择难题,提出基于统计相关性和K-means的新颖混合基因选择算法实现有效区分基因子集选择.算法首先采用Pearson相关系数和Wilcoxon秩和检验计算各基因与类标的相关性,根据统计相关性原则选取与类标相关性较大的若干基因构成预选择基因子集;然后,采用K-means算法将预选择基因子集中高度相关的基因聚集到同一类簇,训练SVM分类模型,计算每一个基因的权重,从每一类簇选择一个权重最大或者采用轮盘赌思想从每一类簇选择一个得票数最多的基因作为本类簇的代表基因,各类簇的代表基因构成有效区分基因子集.将该算法与采用随机策略选择各类簇代表基因的随机基因选择算法Random, Guyon的经典基因选择算法SVM-RFE、采用顺序前向搜索策略的基因选择算法SVM-SFS进行实验比较,几个经典基因数据集上的200次重复实验的平均实验结果表明:所提出的混合基因选择算法能够选择到区分性能非常好的基因子集,建立在该区分基因子集上的分类器具有非常好的分类性能.  相似文献   

15.
基因选择是基因表达数据分析中的重点问题.然而现有的方法没有综合考虑样本不平衡和基因间的相互作用。借鉴聚类的验证技术提出了基因选择的0-1规划模型,同时考虑了样本不平衡和基因间的相互作用。进一步根据0-1规划模型的特点,给出了基于贪心思想的启发式算法来求解所提出的优化问题。在3个真实的基因表达数据上对提出的方法进行测试并与两个对照的方法比较,结果表明所提出模型和算法是有效的且稳健的。  相似文献   

16.
Gene selection methods available have high computational complexity. This paper applies an 1-norm support vector machine with the squared loss (1-norm SVMSL) to implement fast gene selection for cancer classification. The 1-norm SVMSL, a variant of the 1-norm support vector machine (1-norm SVM) has been proposed. Basically, the 1-norm SVMSL can perform gene selection and classification at the same. However, to improve classification performance, we only use the 1-norm SVMSL as a gene selector, and adopt a subsequent classifier to classify the selected genes. We perform extensive experiments on four DNA microarray data sets. Experimental results indicate that the 1-norm SVMSL has a very fast gene selection speed compared with other methods. For example, the 1-norm SVMSL is almost an order of magnitude faster than the 1-norm SVM, and at least four orders of magnitude faster than SVM-RFE (recursive feature elimination), a state-of-the-art method.  相似文献   

17.
鉴于传统的基因选择方法会选出大量冗余基因从而导致较低的样本预测准确率,提出一种基于聚类和微粒群优化的基因选择算法。首先采用聚类算法将基因分成固定数目的簇;然后,采用极限学习机作为分类器进行簇中的特征基因分类性能评价,得到一个备选基因库;最后,采用基于微粒群优化和极限学习机的缠绕法从备选基因库中选择具有最大分类率、最小数目的基因子集。所选出的基因具有良好的分类性能。在两个公开的微阵列数据集上的实验结果表明,相对于一些经典的方法,新方法能够以较少的基因获得更高的分类性能。  相似文献   

18.
DNA microarray is a very active area of research in the molecular diagnosis of cancer. Microarray data are composed of many thousands of features and from tens to hundreds of instances, which make the analysis and diagnosis of cancer very complex. In this case, gene/feature selection becomes an elemental and essential task in data classification. In this paper, we propose a complete cancer diagnostic process through kernel-based learning and feature selection. First, support vector machines recursive feature elimination (SVM-RFE) is used to prefilter the genes. Second, the SVM-RFE is enhanced by using binary dragonfly (BDF), which is a recently developed metaheuristic that has never been benchmarked in the context of feature selection. The objective function is the average of classification accuracy rate generated by three kernel-based learning methods. We conducted a series of experiments on six microarray datasets often used in the literature. Experiment results demonstrate that this approach is efficient and provides a higher classification accuracy rate using a reduced number of genes.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号