首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 31 毫秒
1.
基于BP神经网络的肿瘤特征基因选取   总被引:2,自引:0,他引:2  
该文提出基于BP神经网络的灵敏度分析方法,并用于选取肿瘤特征基因。以结肠癌基因表达谱为例,首先定义基因对BP神经网络模型输出函数的灵敏度,递归去除灵敏度较低的若干基因,生成一组嵌套的候选特征基因子集。然后以支持向量机为分类器,检验候选特征基因子集对样本分类的贡献,选取错分率最低的候选特征基因子集为结肠癌特征基因子集。通过实验对比,该特征基因子集的分类结果优于文献给出的其他特征基因子集,表明了该方法的可行性和有效性。  相似文献   

2.
肿瘤基因表达谱分类特征基因选取问题及分析方法研究   总被引:18,自引:1,他引:18  
对肿瘤分类特征基因选取问题的研究是发现肿瘤特异表达基因、研究肿瘤基因表达模式的重要手段,文中基于多类别肿瘤基因表达谱数据集,从研究肿瘤与正常组织的分类入手,对肿瘤分类特征基因选取问题进行分析和研究,首先对基于Relief算法的特征选取策略加以改进生成候选特征集合;然后以支持向量机作为分类器对其分类性能进行检验以选取分类特征基因;最后结合分类模型。利用灵敏度分析方法进行特征基因的精确搜索以滤除冗余,基于该方法文中选出了52个具有良好分类性能的特征基因作为肿瘤的基因特征,并对其表达行为进行了简要分析。  相似文献   

3.
波段选择是降低高光谱数据量,克服地物分类中Hughes现象的有效手段。子集生成方式和评价准则是选择算法的两要素。提出一种混合随机搜索与启发式搜索的子集生成方法。该方法在随机搜索中嵌入启发式搜索,对由离散粒子群优化算法每次迭代更新的种群利用序贯搜索进行局部微调,提高了随机搜索的精度。这种嵌入微调也保证了优化算法解的有效性。高光谱波段选择与分类实验比较了该方法与混合遗传算法、标准遗传算法和顺序前向浮动选择算法的性能,表明算法能选择出评价准则意义下更好的子集。  相似文献   

4.
基于遗传算法的结肠癌基因选择与样本分类   总被引:2,自引:1,他引:1       下载免费PDF全文
提出了一种基于两轮遗传算法的用于结肠癌微阵列数据基因选择与样本分类的新方法。该方法先根据基因的Bhattacharyya距离指标过滤大部分与分类不相关的基因,而后使用结合了遗传算法和CFS(Correlation-based Feature Selection)的GA/CFS方法选择优秀基因子集,并存档记录这些子集。根据存档子集中基因被选择的频率选择进一步搜索的候选子集,最后以结合了遗传算法和SVM的GA/SVM从候选基因子集中选择分类特征子集。把这种GA/CFS-GA/SVM方法应用到结肠癌微阵列数据,实验结果及与文献的比较表明了该方法效果良好。  相似文献   

5.
基因表达谱中存在大量与肿瘤分类无关的基因,严重降低肿瘤诊断的准确率.基因表达谱还存在高维小样本、噪声大等问题,增加肿瘤诊断的难度.为了获取基因数量较少且分类能力较强的信息基因子集,文中提出基于对称不确定性(SU)和支持向量机递归特征消除(SVM-RFE)的信息基因选择方法.首先利用SU评估基因和类标签之间的相关性,根据SU定义近似马尔科夫毯,快速消除大量无关和冗余基因.然后利用SVM-RFE进一步剔除冗余基因,获取有效的信息基因子集.实验表明,文中方法可以在选取维数较少或相等的信息基因子集情况下获取较高的肿瘤分类性能.  相似文献   

6.
基因表达谱中信息基因选择是有效建立肿瘤分类模型的关键问题。肿瘤基因表达谱具有高维小样本、噪声大且存在大量无关和冗余基因等特点。为了获得基因数量尽可能少而分类能力尽可能强的一组信息基因,提出一种基于对称不确定性和邻域粗糙集的肿瘤分类信息基因选择SUNRS方法。首先利用对称不确定性指标评估信息基因的重要度,以剔除大量无关和冗余基因,获取信息基因的候选子集;然后利用邻域粗糙集约简算法对信息基因候选子集进行寻优,获得信息基因的目标子集。实验结果表明,SUNRS方法能够用较少的信息基因获得更高的分类精度,从而既能改善算法的泛化性能,又能提高时间效率。  相似文献   

7.
Feature Fusion plays an important role in speech emotion recognition to improve the classification accuracy by combining the most popular acoustic features for speech emotion recognition like energy, pitch and mel frequency cepstral coefficients. However the performance of the system is not optimal because of the computational complexity of the system, which occurs due to high dimensional correlated feature set after feature fusion. In this paper, a two stage feature selection method is proposed. In first stage feature selection, appropriate features are selected and fused together for speech emotion recognition. In second stage feature selection, optimal feature subset selection techniques [sequential forward selection (SFS) and sequential floating forward selection (SFFS)] are used to eliminate the curse of dimensionality problem due to high dimensional feature vector after feature fusion. Finally the emotions are classified by using several classifiers like Linear Discriminant Analysis (LDA), Regularized Discriminant Analysis (RDA), Support Vector Machine (SVM) and K Nearest Neighbor (KNN). The performance of overall emotion recognition system is validated over Berlin and Spanish databases by considering classification rate. An optimal uncorrelated feature set is obtained by using SFS and SFFS individually. Results reveal that SFFS is a better choice as a feature subset selection method because SFS suffers from nesting problem i.e it is difficult to discard a feature after it is retained into the set. SFFS eliminates this nesting problem by making the set not to be fixed at any stage but floating up and down during the selection based on the objective function. Experimental results showed that the efficiency of the classifier is improved by 15–20 % with two stage feature selection method when compared with performance of the classifier with feature fusion.  相似文献   

8.
基于相关性分析及遗传算法的高维数据特征选择   总被引:4,自引:0,他引:4  
特征选择是模式识别及数据挖掘等领域的重要问题之一。针对高维数据对象,特征选择一方面可以提高分类精度和效率,另一方面可以找出富含信息的特征子集。针对此问题,提出了一种综合了filter模型及wrapper模型的特征选择方法,首先基于特征与类别标签的相关性分析进行特征筛选,只保留与类别标签具有较强相关性的特征,然后针对经过筛选而精简的特征子集采用遗传算法进行随机搜索,并采用感知器模型的分类错误率作为评价指标。实验结果表明,该算法可有效地找出具有较好的线性可分离性的特征子集,从而实现降维并提高分类精度。  相似文献   

9.
基于遗传算法及聚类的基因表达数据特征选择   总被引:1,自引:0,他引:1  
特征选择是模式识别及数据挖掘等领域的重要问题之一。针对高维数据对象(如基因表达数据)的特征选择,一方面可以提高分类及聚类的精度和效率,另一方面可以找出富含信息的特征子集,如发现与疾病密切相关的重要基因。针对此问题,本文提出了一种新的面向基因表达数据的特征选择方法,在特征子集搜索上采用遗传算法进行随机搜索,在特征子集评价上采用聚类算法及聚类错误率作为学习算法及评价指标。实验结果表明,该算法可有效地找出具有较好可分离性的特征子集,从而实现降维并提高聚类及分类精度。  相似文献   

10.
高娟  王国胤  胡峰 《计算机科学》2012,39(10):193-197
从信息学角度出发寻找肿瘤相关基因、发现肿瘤基因表达特征对肿瘤的诊断和治疗具有重要的生物学意义,而肿瘤与正常组织的分类是其中一个重要应用。根据多类别肿瘤基因表达谱,提出了一种自动特征选择方法。首先,结合非参数方法和filter思想,利用决策序列的随机性度量基因的权值并排序;然后,采用相关信息熵进行冗余性排除,自动地选择出具有高分辨能力、低冗余度的特征基因子集。实验结果表明,提出的方法能从多类别肿瘤基因表达谱数据中自动选出30个具有良好分类能力的特征基因,且具有较高的正确识别率。  相似文献   

11.
一种基于信息增益及遗传算法的特征选择算法   总被引:8,自引:0,他引:8  
特征选择是模式识别及数据挖掘等领域的重要问题之一。针对高维数据对象,特征选择一方面可以提高分类精度和效率,另一方面可以找出富含信息的特征子集。针对此问题,本文提出一种综合了filter模型及wrapper模型的特征选择方法,首先基于特征之间的信息增益进行特征分组及筛选,然后针对经过筛选而精简的特征子集采用遗传算法进行随机搜索,并采用感知器模型的分类错误率作为评价指标。实验结果表明,该算法可有效地找出具有较好的线性可分离性的特征子集,从而实现降维并提高分类精度。  相似文献   

12.
In this paper, we present a gene selection method based on genetic algorithm (GA) and support vector machines (SVM) for cancer classification. First, the Wilcoxon rank sum test is used to filter noisy and redundant genes in high dimensional microarray data. Then, the different highly informative genes subsets are selected by GA/SVM using different training sets. The final subset, consisting of highly discriminating genes, is obtained by analyzing the frequency of appearance of each gene in the different gene subsets. The proposed method is tested on three open datasets: leukemia, breast cancer, and colon cancer data. The results show that the proposed method has excellent selection and classification performance, especially for breast cancer data, which can yield 100% classification accuracy using only four genes.  相似文献   

13.
14.
随着DNA微阵列技术的出现,大量关于不同肿瘤的基因表达谱数据集被发布到网络上,从而使得对肿瘤特征基因选择和亚型分类的研究成为生物信息学领域的热点。基于Lasso(least absolute shrinkage and selection operator)方法提出了K-split Lasso特征选择方法,其基本思想是将数据集平均划分为K份,分别使用Lasso方法对每份进行特征选择,而后将选择出来的每份特征子集合并,重新进行特征选择,得到最终的特征基因。实验采用支持向量机作为分类器,结果表明K-split Lasso方法减少了冗余特征,提高了分类精度,具有良好的稳定性。由于每次计算的维数降低,K-split Lasso方法解决了计算开销过大的问题,并在一定程度上解决了"过拟合"问题。因此K-split Lasso方法是一种有效的肿瘤特征基因选择方法。  相似文献   

15.
肿瘤信息基因启发式宽度优先搜索算法研究   总被引:6,自引:0,他引:6  
基于基因表达谱的肿瘤检测方法有望成为临床医学上一种快速而有效的肿瘤分子诊断方法,但由于基因表达谱数据存在维数过高、样本量很小以及噪音很大等特点,使得肿瘤信息基因选择成为一件有挑战性的工作.根据肿瘤基因表达谱样本集的特点,提出了一种以支持向量机分类性能为评估准则的寻找信息基因的启发式宽度优先搜索算法,其优点是能够同时搜索到基因数量尽可能少而分类能力尽可能强的多个信息基因子集.实验采用了3种肿瘤样本集以验证新算法的可行性和有效性,对于急性白血病、难以分类的结肠癌和多肿瘤亚型的小圆蓝细胞瘤样本集,分别只需2,4和4个信息基因就能获得100%的4-折交叉验证识别准确率.与其它优秀的肿瘤分类方法相比,实验结果在信息基因数量及其分类性能方面具有明显的优越性.为避免样本集的不同划分对分类性能的影响,提出了一种能够更加客观地反映信息基因子集分类性能的全折交叉验证评估方法.  相似文献   

16.
Multiclass MTS for Simultaneous Feature Selection and Classification   总被引:1,自引:0,他引:1  
Multiclass Mahalanobis-Taguchi system (MMTS), the extension of MTS, is developed for simultaneous multiclass classification and feature selection. In MMTS, the multiclass measurement scale is constructed by establishing an individual Mahalanobis space for each class. To increase the validity of the measurement scale, the Gram-Schmidt process is performed to mutually orthogonalize the features and eliminate the multicollinearity. The important features are identified using the orthogonal arrays and the signal-to-noise ratio, and are then used to construct a reduced model measurement scale. The contribution of each important feature to classification is also derived according to the effect gain to develop a weighted Mahalanobis distance which is finally used as the distance metric for the classification of MMTS. Using the reduced model measurement scale, an unknown example will be classified into the class with minimum weighted Mahalanobis distance considering only the important features. For evaluating the effectiveness of MMTS, a numerical experiment is implemented, and the results show that MMTS outperforms other well-known algorithms not only on classification accuracy but also on feature selection efficiency. Finally, a real case about gestational diabetes mellitus is studied, and the results indicate the practicality of MMTS in real-world applications.  相似文献   

17.
基于基因表达谱的SRBCT分类研究   总被引:2,自引:0,他引:2  
肿瘤亚型的准确判别对肿瘤的治疗具有重要的意义。文章提出了一种多类肿瘤分类和特征基因选取的策略。该方法以儿童SRBCT(小圆蓝细胞瘤)的基因表达谱为例,计算基因的类加权Bhattacharyya距离,并据此选取特征基因,然后利用这些基因的表达数据建立了基于支持向量机的多模预测模型并对SRBCT的4种亚型进行了识别。实验结果表明了该方法的有效性和可行性。  相似文献   

18.
Gene selection is one of the important issues for cancer classification based on gene expression profiles. Filter and wrapper approaches are widely used for gene selection, where the former is hard to measure the relationship between genes and the latter requires lots of computation. We present a novel method, called gene boosting, to select relevant gene subsets by integrating filter and wrapper approaches. It repeatedly selects a set of top-ranked informative genes by a filtering algorithm with respect to a temporal training dataset constructed according to the classification result for the original training dataset. Empirical results on three microarray benchmark datasets have shown that the proposed method is effective and efficient in finding a relevant and concise gene subset. It achieved competitive performance with fewer genes in a reasonable time, as well as led to the identification of some genes frequently getting selected.  相似文献   

19.
针对特征子集区分度准则(Discernibility of feature subsets, DFS)没有考虑特征测量量纲对特征子集区分能力影响的缺陷, 引入离散系数, 提出GDFS (Generalized discernibility of feature subsets)特征子集区分度准则. 结合顺序前向、顺序后向、顺序前向浮动和顺序后向浮动4种搜索策略, 以极限学习机为分类器, 得到4种混合特征选择算法. UCI数据集与基因数据集的实验测试, 以及与DFS、Relief、DRJMIM、mRMR、LLE Score、AVC、SVM-RFE、VMInaive、AMID、AMID-DWSFS、CFR和FSSC-SD的实验比较和统计重要度检测表明: 提出的GDFS优于DFS, 能选择到分类能力更好的特征子集.  相似文献   

20.
陈应良  王士同 《计算机应用》2008,28(7):1738-1741
为了使经典谱分割的Nystrm采样快速算法得到更清晰的结果,将权重马氏距离高斯核应用于其中,相对于常用的马氏距离高斯核,得到了更好的分割效果。结果表明,使用权重马氏距离高斯核更能准确的反映两个向量的相似度,从而实现准确的分割。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号