首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到15条相似文献,搜索用时 218 毫秒
1.
结合Filter和Wrapper方法的优点,提出一种基于集成遗传算法(FSEGA)的特征选择方法,用于从基因表达谱数据中选择特征基因。根据基因正负样本的分布关系定义信息指标过滤噪声基因,在递归特征消除过程中根据基因的集成权值生成候选基因子集,选择分类测试中具有最高AUC(接收者工作特征曲线下的面积)值的候选基因子集作为基因表达谱数据集的特征基因子集,将支持向量机(SVM)用于算法的适应度函数,研究FSEGA方法与分类器算法之间的关系,对5个肿瘤特征基因表达谱数据集进行基因选取实验。结果表明,采用提出的集成特征选取方法选取的特征基因集合含丰富类别信息,重复性较好,提高了肿瘤特征基因选取的稳定性和鲁棒性。  相似文献   

2.
提出基于支持向量机的灵敏度分析方法选取结肠癌特征基因.用支持向量机分析基因对分类决策函数的灵敏度,递归去除灵敏度较低的若干基因,得到一组候选特征基因子集;以支持向量机为分类工具,检验候选特征基因子集对样本分类的贡献,选取具有最佳分类能力的候选特征基因子集作为结肠癌特征基因子集.通过实验比较,该特征基因子集的分类能力优于文献给出的其他特征基因子集,表明了该方法的可行性和有效性.  相似文献   

3.
为了找到与结肠癌相关的基因,提高结肠癌样本的识别率,提出了基于Chernoff距离的浮动顺序搜索算法(sequential floating search method, SFSM)。通过对结肠癌基因表达谱数据集的分析,对每个基因进行评价和筛选;对筛选后的基因子集利用SFSM算法进行搜索,并以Chernoff距离作为其评估函数,生成若干候选特征基因子集;利用支持向量机(support vector machine,SVM)、K-近邻(K nearest neighbor,KNN)和径向基(radical basis function,RBF)神经网络分类器来检验候选特征基因子集的分类效果。实验结果表明,利用SFSM及评估函数Chernoff距离发现在参数β=025时能找到最佳的特征基因组合,该组合能以很高的正确率识别结肠癌样本。  相似文献   

4.
对结肠癌的基因表达谱数据进行分析,提出选取其特征基因的新方法。首先考虑到基因表达谱数据高维数、小样本的特点,采用Bhattacharyya距离对数据进行降维,运用遗传算法生成特征基因子集,以支持向量机作为分类器,建立了基于GA-SVM的结肠癌两类别分类模型。实验结果表明,仅需提取10个特征基因就可获得95.62%分类准确率。  相似文献   

5.
采用生物信息学方法对肿瘤基因表达数据进行挖掘,以获取和肿瘤不同亚型相关的候选标志基因集合,应用机器学习方法从标志基因集合中提取出甄别肿瘤不同亚型的规则集,进而建立起肿瘤预测模型.利用Relief、信息增益和分类信息指数从不同角度挖掘蕴含在基因表达谱中的候选特征基因,抽取出候选特征基因公约集合.以对不同肿瘤组织样本的识别能力为依据,选取分类能力最强的一组基因集合作为特征基因.利用规则判定树提取出反映这些特征基因相互作用的规则集并以此构建肿瘤预测模型,并将此模型应用于白血病基因表达数据中,建立了白血病分子预测模型.研究表明,该模型得到的白血病标志基因对肿瘤临床诊断具有一定的参考价值.  相似文献   

6.
根据基因表达谱数据高维度、小样本、高噪声的特点,提出一种基于相关特征选择(Correlation- based Feature Selection ,CFS)的分层抽样的基因特征选择方法(简称CFS- SS)。首先,利用CFS算法提取与分类相关性大的特征基因集,然后通过分层方法构造多层特征子集空间,在部分层空间中寻找最优特征子集。在Leukemia, Colon, Prostate数据集上进行了交叉测试实验。实验结果表明, CFS- SS有效地从不同层次的特征子集样本中可以提取出有价值的基因特征集,在不同的分类器上取得较好的分类性能。  相似文献   

7.
边介数聚类算法在肿瘤基因表达谱中的应用   总被引:1,自引:1,他引:0  
基于肿瘤基因表达谱研究了肿瘤相关基因及其功能模块的聚类算法,同时利用模块度评价了算法的有效性.通过与层次聚类算法的比较,证明边介数聚类算法在肿瘤基因功能模块聚类方面具有一定的有效性和实用性.以人结肠癌基因表达谱为研究对象,应用边介数聚类算法将158个从2万多个原始数据中提取的特征基因聚成7种功能类.通过GO数据库检索进一步证明这7类基因具有明确的生物学功能和意义.  相似文献   

8.
确定肿瘤基因表达谱特征基因方法的研究   总被引:1,自引:0,他引:1  
分析了目前基因表达谱提取特征基因所采用的方法,提出了Fisher权函数和主成份分析结合离散余弦变换的混合特征基因提取方法,以多元Logistic回归分析作为分类器进行肿瘤分类检测。该方法具有以下特点:根据基因表达数据维数高样本量小的特点,使用Fisher权函数对数据进行预处理,简单有效地得到特征基因候选集;利用离散余弦变换(Discrete Cosine Transform,DCT)的能量压缩特性,提高特征基因主成份的显现效果,有效提取特征基因信息。实验结果表明,该方法对结肠癌数据集的CV识别准确率高达95.20%.  相似文献   

9.
将几何学习方法应用于肿瘤的分型.按传统处理方法对肿瘤基因表达谱数据预处理,选取特征基因;再应用几何学习方法将样本中的特征基因表达水平数据构造已知类的空间几何凸胞,然后应用分型识别算法对待分型样本进行分类.并将该方法应用于公开发表的白血病基因表达谱数据集的分型研究,取得100%分型准确率,此外,将几何学习的分型模型与支撑向量机比较,实验结果证明该方法具有有效性与可行性.  相似文献   

10.
为了揭示肿瘤发生发展的分子机制,结合基因功能分类体系数据库(gene ontology,简称GO),采用网络分解算法对结肠癌基因表达谱数据进行了研究.研究结果表明,与结肠正常组织基因模块相比,结肠癌基因模块与细胞周期调节、抗细胞程序性死亡、信号转导、细胞增殖等功能类相关,由此推论结肠癌基因功能模块结构的改变导致了结肠癌的发生.  相似文献   

11.
根据结肠癌肿瘤基因表达谱样本高维数、小样本和高噪声的特点,提出用Bhattacharyya 距离对肿瘤基因进行测量,滤除分类无关基因,然后用肿瘤基因对支持向量机模型的敏感度进行二次提取.并用它的归一化值对重要基因赋权,形成只有少数重要致病肿瘤基因的新样本集.最后,支持向量机应用于对新样本集的特征基因进行分析与测试.实验证明这种分析方法提高了肿瘤诊断的准确率.  相似文献   

12.
改进的离散PSO和SVM的特征基因选择算法   总被引:2,自引:0,他引:2  
针对现有的基于粒子群的特征基因选择算法易于陷入局部最优的问题,提出了一种改进的离散粒子群和支持向量机的特征基因选择算法IDPSO-SVM.该算法首先预选一些与分类强相关的基因组成特征基因备选集合,然后基于此集合采用PSO进行寻优搜索,并应用SVM对选出的特征子集的分类能力进行评估,最后得出最优特征子集.该算法加入了一种可以有效克服粒子群在寻优过程中陷入局部最优的机制,因而可以不断探测到新的最优解.该算法在结肠癌与前列腺癌数据集上的分类精度分别达到了96.8%与99.0%,从而证明了其有效性与可行性.  相似文献   

13.
为了找出肿瘤特征基因,将14种不同组织类型的肿瘤作为一个整体.分析其与对应的正常组织样本间基因表达的差异,提取出反映样本类别特征的特征基因,为生物医学研究中分析基因表达数据提供参考.首先利用相关系数,在一定范围内排除噪声基因,然后采用质心收缩法提取出能够反映样本组织类型的特征基因.提取出的特征基因对样本聚类的正确率为87.9%,对测试集样本分类的正确率为81.1%,优于特征基因提取前的聚类和分类结果.  相似文献   

14.
特征基因挖掘的决策森林方法   总被引:3,自引:0,他引:3  
基于决策树的基因芯片数据分析方法以追求样本最大分类正确率为目标,造成大量的部分相关基因被排除,不适用于挖掘复杂疾病的相关基因.为此,提出了特征基因挖掘的决策森林方法:从多组特征子集中识别重要疾病相关基因,每个子集根据自身对目标的分类能力被识别;通过抽样技术产生大量不同结构的训练样本,可以挖掘出高相关或部分相关基因.数值分析结果表明,该方法是生物类型分类和疾病相关基因挖掘的有效工具.  相似文献   

15.
肿瘤基因选择方法LLE Score   总被引:1,自引:0,他引:1  
针对处理肿瘤基因表达数据特征选择问题,提出了一种特征选择方法 LLE Score.该方法是典型的过滤器类型特征选择方法,在样本类别信息的基础上,LLE Score针对特征向量的局部邻域保存能力进行评价,并且根据评价结果进行特征的选取,以此达到良好的特征选择效果.在实验部分对肿瘤数据集进行特征选择,并采用支持向量机分类器计算分类准确率.通过分类准确率说明了该方法的有效性.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号