首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 171 毫秒
1.
基于支持向量机的肿瘤分类特征基因选取   总被引:19,自引:0,他引:19  
依据基因表达谱有效建立肿瘤分类模型的关键在于准确找出决定样本类别的一组特征基因.针对该问题,在分析肿瘤基因表达谱特征的基础上,研究了肿瘤分类特征基因选取问题.首先,提出了一种新的类别可分性判据以滤除分类无关基因,并采用支持向量机作为分类器进行特征基因分类性能的检验.然后,采用两两冗余分析及基于支持向量机分类模型的灵敏度分析法进行冗余基因的剔除.以急性白血病亚型分类特征基因选取为例进行实验,结果表明了上述方法的可行性和有效性.  相似文献   

2.
基于多类别肿瘤基因表达谱数据集,从研究肿瘤与正常组织的分类入手,对肿瘤分类特征基因选取问题进行分析和研究。将决策树算法应用到肿瘤基因表达谱分类研究中,尝试引入遗传算法,对决策树分类规则进行优化。试验结果表明,在样本有限的情况下,该方法比单个决策树具有更高的分类精度。  相似文献   

3.
基于基因表达谱运用信息科学的方法和技术建立胃癌的分类模型,关键在于准确找出决定样本类别的一组特征基因.针对该问题在分析胃癌的基因表达谱基础上研究了胃癌特征基因选取问题.本文提出了一种新的特征基因选取方法--CLUSTER_S2N法,并用支持向量机作为分类器,以分类错误率为标准进行了胃癌的分类预测实验,实验结果表明了该方法的可行性和有效性.  相似文献   

4.
肿瘤识别过程中特征基因的选取   总被引:7,自引:0,他引:7  
阮晓钢  晁浩 《控制工程》2007,14(4):373-376
基于肿瘤基因表达数据,运用信息科学的方法和技术建立肿瘤的预测分类模型,对肿瘤的识别具有重要意义。在建立模型的过程中,如何能够有效地排除噪声基因进而挑选出分类特征基因对肿瘤预测的准确性有很大的影响。针对该类问题,提出了一种新的特征基因选取方法—CLUSTER_S2N法。该方法采取了“信噪比”指标与聚类相结合的方法来挑选特征基因,并分别以前列腺癌和急性白血病的基因表达谱为例,用支持向量机作为分类器进行了肿瘤的分类预测实验。实验结果表明该方法的可行性。  相似文献   

5.
基于模糊粗糙集的肿瘤分类特征基因选取   总被引:2,自引:0,他引:2  
依据基因表达谱有效建立肿瘤分类模型的关键在于,准确找出决定样本类剐的一组特征基因.粗糙集理论作为一种新的软计算方法能够保持在原数据集的分类能力不变的基础上,对属性极大约简,从大量基因中找到对分类有效的基因.由于基因表达谱数据集的连续性,为了避免运用粗糙集方法所必需的离散化过程带来的信息丢失,尝试将模糊粗糙集应用于特征基因的选取,提出了基于互信息的模糊粗糙集属性约简算法,运用于基因表达谱数据集的基因选取.然后分别采用KNN和C5.0分类器进行特征基因分类性能进行检验.以急性白血病亚型(leukemia Microarray)和直肠癌(colon Microarray)分类特征基因选取为例进行实验,结果表明了上述方法的可行性和有效性.  相似文献   

6.
基因表达谱中存在大量与肿瘤分类无关的基因,严重降低肿瘤诊断的准确率.基因表达谱还存在高维小样本、噪声大等问题,增加肿瘤诊断的难度.为了获取基因数量较少且分类能力较强的信息基因子集,文中提出基于对称不确定性(SU)和支持向量机递归特征消除(SVM-RFE)的信息基因选择方法.首先利用SU评估基因和类标签之间的相关性,根据SU定义近似马尔科夫毯,快速消除大量无关和冗余基因.然后利用SVM-RFE进一步剔除冗余基因,获取有效的信息基因子集.实验表明,文中方法可以在选取维数较少或相等的信息基因子集情况下获取较高的肿瘤分类性能.  相似文献   

7.
曹娟  张颖淳  赵玲 《计算机科学》2013,40(7):226-228,265
依据基因表达谱建立有效肿瘤分类模型的关键在于准确找出决定样本类别的一组特征基因。粗糙集理论已成功应用于肿瘤分类特征基因选取中。然而,粗糙集方法处理连续值的基因表达谱数据集所必需的离散化过程会使得部分信息丢失,对所选取的特征基因的分类精度造成一定影响。因此,曾提出基于互信息的模糊粗糙集基因表达谱数据集特征基因的选取算法。然而,该算法计算代价较高,当所选取的基因数较多时难以实现。为此,对 该算法进行了 改进,从最大相关性和最重要性(最小冗余)两方面对互信息进行了近似替代计算,大大降低了算法的复杂度,提高了算法的效率。以急性白血病亚型(leukemia)、直肠癌(colon)和乳腺癌(Breast)分类特征基因选取为例进行实验,然后分别采用1NN和SVM分类器进行特征基因分类精度检验,结果证实了新方法的可行性和有效性。  相似文献   

8.
针对基于基因表达谱数据的多类肿瘤亚型的识别与特征基因选取问题进行了研究;采用Gini指数与"信噪比"(SNR)指标相结合的方法,构建GSNR综合指标,剔除无关基因;然后采用BP神经网络设计复合分类器;最后使用SM算法,并依据独立测试的分类错误数最终确定特征基因子集,以急性白血病的基因表达谱数据为例,按三类肿瘤亚型分类,从7129个基因中选出8个特征基因,其对独立测试集的预测准确度达到97%;实验表明综合指数GSNR对数据进行预处理具有良好的鲁棒性和可伸缩性.  相似文献   

9.
晁浩  阮晓钢 《计算机工程与应用》2005,41(31):178-179,204
基于肿瘤基因表达数据,运用信息科学的方法和技术建立肿瘤的预测分类模型,对肿瘤的识别具有重要意义。针对该类问题,论文提出了一种利用支持向量机进行肿瘤分类与判别的方法。该方法在分析基因表达谱特征的基础上,首先对所有的基因进行聚类,并挑选出每一类的“代表基因”作为特征基因,然后采用支持向量机作为分类器进行肿瘤分类。论文以前列腺癌的基因表达谱数据为例进行分类实验并取得了良好的分类结果,表明了该方法的有效性和可行性。  相似文献   

10.
基于基因表达谱建立具有有效预测性的肿瘤分类模型对肿瘤的临床诊断与治疗具有非常重要的意义。针对肿瘤亚型识别问题,所要解决的一个关键问题就是发现决定肿瘤亚型的一组特征基因子集。提出了一个组合式的肿瘤信息基因选择策略:首先从单个的样本基因信息量角度出发,采用Relief-F算法剔除分类无关基因;其次考虑样本基因间的关系,使用K-means算法过滤冗余基因,最后采用人工神经网络作为分类器来测试和评估所选出的肿瘤信息基因的分类能力。实验是在具有七种亚型的急性白血病基因表达谱数据集上完成的,其留一法准确率达到100%,表明所提出的信息基因选择方法对于多肿瘤亚型的识别问题研究是非常有效的。  相似文献   

11.
高娟  王国胤  胡峰 《计算机科学》2012,39(10):193-197
从信息学角度出发寻找肿瘤相关基因、发现肿瘤基因表达特征对肿瘤的诊断和治疗具有重要的生物学意义,而肿瘤与正常组织的分类是其中一个重要应用。根据多类别肿瘤基因表达谱,提出了一种自动特征选择方法。首先,结合非参数方法和filter思想,利用决策序列的随机性度量基因的权值并排序;然后,采用相关信息熵进行冗余性排除,自动地选择出具有高分辨能力、低冗余度的特征基因子集。实验结果表明,提出的方法能从多类别肿瘤基因表达谱数据中自动选出30个具有良好分类能力的特征基因,且具有较高的正确识别率。  相似文献   

12.
随着DNA微阵列技术的出现,大量关于不同肿瘤的基因表达谱数据集被发布到网络上,从而使得对肿瘤特征基因选择和亚型分类的研究成为生物信息学领域的热点。基于Lasso(least absolute shrinkage and selection operator)方法提出了K-split Lasso特征选择方法,其基本思想是将数据集平均划分为K份,分别使用Lasso方法对每份进行特征选择,而后将选择出来的每份特征子集合并,重新进行特征选择,得到最终的特征基因。实验采用支持向量机作为分类器,结果表明K-split Lasso方法减少了冗余特征,提高了分类精度,具有良好的稳定性。由于每次计算的维数降低,K-split Lasso方法解决了计算开销过大的问题,并在一定程度上解决了"过拟合"问题。因此K-split Lasso方法是一种有效的肿瘤特征基因选择方法。  相似文献   

13.
基因表达谱中信息基因选择是有效建立肿瘤分类模型的关键问题。肿瘤基因表达谱具有高维小样本、噪声大且存在大量无关和冗余基因等特点。为了获得基因数量尽可能少而分类能力尽可能强的一组信息基因,提出一种基于对称不确定性和邻域粗糙集的肿瘤分类信息基因选择SUNRS方法。首先利用对称不确定性指标评估信息基因的重要度,以剔除大量无关和冗余基因,获取信息基因的候选子集;然后利用邻域粗糙集约简算法对信息基因候选子集进行寻优,获得信息基因的目标子集。实验结果表明,SUNRS方法能够用较少的信息基因获得更高的分类精度,从而既能改善算法的泛化性能,又能提高时间效率。  相似文献   

14.
基于BP神经网络的肿瘤特征基因选取   总被引:2,自引:0,他引:2  
该文提出基于BP神经网络的灵敏度分析方法,并用于选取肿瘤特征基因。以结肠癌基因表达谱为例,首先定义基因对BP神经网络模型输出函数的灵敏度,递归去除灵敏度较低的若干基因,生成一组嵌套的候选特征基因子集。然后以支持向量机为分类器,检验候选特征基因子集对样本分类的贡献,选取错分率最低的候选特征基因子集为结肠癌特征基因子集。通过实验对比,该特征基因子集的分类结果优于文献给出的其他特征基因子集,表明了该方法的可行性和有效性。  相似文献   

15.
肿瘤信息基因启发式宽度优先搜索算法研究   总被引:6,自引:0,他引:6  
基于基因表达谱的肿瘤检测方法有望成为临床医学上一种快速而有效的肿瘤分子诊断方法,但由于基因表达谱数据存在维数过高、样本量很小以及噪音很大等特点,使得肿瘤信息基因选择成为一件有挑战性的工作.根据肿瘤基因表达谱样本集的特点,提出了一种以支持向量机分类性能为评估准则的寻找信息基因的启发式宽度优先搜索算法,其优点是能够同时搜索到基因数量尽可能少而分类能力尽可能强的多个信息基因子集.实验采用了3种肿瘤样本集以验证新算法的可行性和有效性,对于急性白血病、难以分类的结肠癌和多肿瘤亚型的小圆蓝细胞瘤样本集,分别只需2,4和4个信息基因就能获得100%的4-折交叉验证识别准确率.与其它优秀的肿瘤分类方法相比,实验结果在信息基因数量及其分类性能方面具有明显的优越性.为避免样本集的不同划分对分类性能的影响,提出了一种能够更加客观地反映信息基因子集分类性能的全折交叉验证评估方法.  相似文献   

16.
Gene Selection for Cancer Classification using Support Vector Machines   总被引:94,自引:0,他引:94  
DNA micro-arrays now permit scientists to screen thousands of genes simultaneously and determine whether those genes are active, hyperactive or silent in normal or cancerous tissue. Because these new micro-array devices generate bewildering amounts of raw data, new analytical methods must be developed to sort out whether cancer tissues have distinctive signatures of gene expression over normal tissues or other types of cancer tissues.In this paper, we address the problem of selection of a small subset of genes from broad patterns of gene expression data, recorded on DNA micro-arrays. Using available training examples from cancer and normal patients, we build a classifier suitable for genetic diagnosis, as well as drug discovery. Previous attempts to address this problem select genes with correlation techniques. We propose a new method of gene selection utilizing Support Vector Machine methods based on Recursive Feature Elimination (RFE). We demonstrate experimentally that the genes selected by our techniques yield better classification performance and are biologically relevant to cancer.In contrast with the baseline method, our method eliminates gene redundancy automatically and yields better and more compact gene subsets. In patients with leukemia our method discovered 2 genes that yield zero leave-one-out error, while 64 genes are necessary for the baseline method to get the best result (one leave-one-out error). In the colon cancer database, using only 4 genes our method is 98% accurate, while the baseline method is only 86% accurate.  相似文献   

17.
基于遗传算法及聚类的基因表达数据特征选择   总被引:1,自引:0,他引:1  
特征选择是模式识别及数据挖掘等领域的重要问题之一。针对高维数据对象(如基因表达数据)的特征选择,一方面可以提高分类及聚类的精度和效率,另一方面可以找出富含信息的特征子集,如发现与疾病密切相关的重要基因。针对此问题,本文提出了一种新的面向基因表达数据的特征选择方法,在特征子集搜索上采用遗传算法进行随机搜索,在特征子集评价上采用聚类算法及聚类错误率作为学习算法及评价指标。实验结果表明,该算法可有效地找出具有较好可分离性的特征子集,从而实现降维并提高聚类及分类精度。  相似文献   

18.
考虑样本不平衡的模型无关的基因选择方法   总被引:9,自引:0,他引:9  
李建中  杨昆  高宏  骆吉洲  郭政 《软件学报》2006,17(7):1485-1493
在基因表达数据分析中,鉴别基因是后续研究中非常重要的信息基因.有很多研究致力于从基因表达数据中选出信息基因这一挑战性工作,并提出了一些基因选择方法.然而,这些方法(特别是非参数选择方法)都没有考虑不同样本类别中样本大小的不平衡性问题.考虑样本不平衡性和基因选择方法的稳定性,给出一个全新的与数据分布模型无关的基因选择方法.在类内变化小和类间差别大的策略下,选择敏感的度量函数提高方法的鉴别能力,同时,利用类内变化和类间差别的一致性来增加方法的稳定性和适用性.这一方法不但可以应用于两个类别的情况,也可以应用于多个类别的情况.最后,使用两组真实的基因表达数据对所提出的方法进行了验证.实验结果表明,这一方法比其他方法具有更高的有效性和稳健性.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号