首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
  总被引:1,自引:1,他引:0  
Abstract: In this work an entropic filtering algorithm (EFA) for feature selection is described, as a workable method to generate a relevant subset of genes. This is a fast feature selection method based on finding feature subsets that jointly maximize the normalized multivariate conditional entropy with respect to the classification ability of tumours. The EFA is tested in combination with several machine learning algorithms on five public domain microarray data sets. It is found that this combination offers subsets yielding similar or much better accuracies than using the full set of genes. The solutions obtained are of comparable quality to previous results, but they are obtained in a maximum of half an hour computing time and use a very low number of genes.  相似文献   

2.
SVM在基因微阵列癌症数据分类中的应用   总被引:1,自引:0,他引:1  
在总结二分类支持向量机应用的基础上,提出了利用t-验证方法和Wilcoxon验证方法进行特征选取,以支持向量机(SVM)为分类器,针对基因微阵列癌症数据进行分析的新方法,通过对白血病数据集和结肠癌数据集的分类实验,证明提出的方法不但识别率高,而且需要选取的特征子集小,分类速度快,提高了分类的准确性与分类速度。  相似文献   

3.
肿瘤识别过程中特征基因的选取   总被引:7,自引:0,他引:7  
阮晓钢  晁浩 《控制工程》2007,14(4):373-376
基于肿瘤基因表达数据,运用信息科学的方法和技术建立肿瘤的预测分类模型,对肿瘤的识别具有重要意义。在建立模型的过程中,如何能够有效地排除噪声基因进而挑选出分类特征基因对肿瘤预测的准确性有很大的影响。针对该类问题,提出了一种新的特征基因选取方法—CLUSTER_S2N法。该方法采取了“信噪比”指标与聚类相结合的方法来挑选特征基因,并分别以前列腺癌和急性白血病的基因表达谱为例,用支持向量机作为分类器进行了肿瘤的分类预测实验。实验结果表明该方法的可行性。  相似文献   

4.
基于微阵列表达数据,探索新的有效特征提取和分类方法。采用小波多分辩率分析方法提取基因表达的特征,利用支持向量机和BP神经网络方法进行分类。基因表达具有明显的多尺度特征,分类率最大达到98.61%,结果稳定。采用多尺度理论对基因表达数据进行分析是一种新的有效的生物信息学方法,值得进一步探索与研究。  相似文献   

5.
基于GA/SVM的微阵列数据特征的选择与分类   总被引:2,自引:0,他引:2  
微阵列数据样本小、维度高的特点给数据分析造成了困难,而主基因的挑选又十分的重要。该文采用遗传算法挑选主基因,其中,用k最邻居距离作为模式识别方法,用支持向量机构造了诊断系统,用不同核函数进行预测分类性能测试。在经典的白血病数据集上,对34个样本的测试集的分类准确率为100%。  相似文献   

6.
         下载免费PDF全文
As explored by biologists, there is a real and emerging need to identify co-regulated gene clusters, which include both positive and negative regulated gene clusters. However, the existing pattern-based and tendency-based clustering approaches are only designed for finding positive regulated gene clusters. In this paper, a new subspace clustering model called g-Cluster is proposed for gene expression data. The proposed model has the following advantages: 1) find both positive and negative co-regulated genes in a shot, 2) get away from the restriction of magnitude transformation relationship among co-regulated genes, and 3) guarantee quality of clusters and significance of regulations using a novel similarity measurement gCode and a user-specified regulation threshold δ, respectively. No previous work measures up to the task which has been set. Moreover, MDL technique is introduced to avoid insignificant g-Clusters generated. A tree structure, namely GS-tree, is also designed, and two algorithms combined with efficient pruning and optimization strategies to identify all qualified g-Clusters. Extensive experiments are conducted on real and synthetic datasets. The experimental results show that 1) the algorithm is able to find an amount of co-regulated gene clusters missed by previous models, which are potentially of high biological significance, and 2) the algorithms are effective and efficient, and outperform the existing approaches.  相似文献   

7.
微阵列技术是后基因组时代功能基因组研究的主要工具。基因表达谱数据的聚类分析对于研究基因功能和基因调控机制有重要意义。针对聚类算法要求事先确定簇的个数、对噪声敏感和可伸缩性差的问题,基于密度聚类算法DBSCAN和共享近邻SharedNearestNeighbors(SNN)的不同的特点,提出了一种新的最近邻先吸收的聚类算法,将其应用于一个公开的酵母细胞同期数据集,并用评价方法FOM将聚类结果与K-means聚类方法的结果进行了比较。结果表明,该文的聚类算法优于其他聚类算法,聚类结果具有明显的生物学意义,并能对数据的类别数作出较好的预测和评估。  相似文献   

8.
张利文  刘侠  汪俊  董迪  宋江典  臧亚丽  田捷 《自动化学报》2017,43(12):2109-2114
肺癌是世界范围内致死率最高的癌症之一,肺肿瘤的良恶性诊断对于治疗方式选择意义重大.本文借助影像组学(Radiomics)方法利用LIDC(Lung imaging database consortium)肺癌公开数据库中619例病人的肺癌计算机断层(Computed tomography,CT)影像数据,分割出病变区域,并结合肿瘤医学特性和临床认知,提取反映肿瘤形状大小、强度和纹理特性的60个定量影像特征,然后利用支持向量机(Support vector machine,SVM)构建诊断肺肿瘤良恶性的预测模型,筛选出对诊断肺肿瘤良恶性有价值的20个影像组学特征.为肺肿瘤良恶性预测提供了一种非入侵的检测手段.随着CT影像在肺癌临床诊断中的广泛使用,应用样本量的不断增加,本文方法有望成为一种辅助诊断工具,有效提高临床肺肿瘤良恶性诊断准确率.  相似文献   

9.
基于FLD特征提取的SVM人脸表情识别方法   总被引:6,自引:1,他引:5  
摘 要 本文通Fisher’s Linear Discriminant(FLD)提取静态人脸表情特征,采用“一对一”支持向量机分类器进行了多种表情识别。在JAFFE人脸表情库上分别进行了测试人参与训练和不参与训练两种方案仿真实验,并与最近邻分类器进行比较,支持向量机都取得了更好的识别结果,说明了支持向量机分类器应用于表情识别是可行的  相似文献   

10.
介绍了目前几种基于DNA微阵列基因表达数据的分类方法。分别阐述了递归分割法、构建森林法以及信息融合方法的算法思想,对每种方法进行了深入描述,并对它们进行了分析和比较。最后对基于基因表达微阵列数据的分类技术进行了展望。  相似文献   

11.
马煜  陈莉  方鹤鹤 《微机发展》2006,16(2):117-119
微阵列技术是后基因时代功能基因组研究的主要工具。由于采用了高效的并行杂交技术,每次实验可以得到大量丰富的数据,因此其结果分析成为一项很有挑战性而且具有重要意义的工作。聚类分析是微阵列数据分析中使用最为广泛的一类方法。微阵列实验得到的大量数据通过聚类分析,可以得到很多有用的信息,其成功应用已广泛涉及到基因功能研究和生物医学研究中的各个领域。文中介绍了基因微阵列数据的聚类分析方法及其重要应用。  相似文献   

12.
提出了一种自动划格方法用于定位cDNA微阵列图像中的样点;这种方法对于解决大量微阵列图像数据处理优势明显。结合局部阈值和对数阈值的处理方法对图像进行样点提取;为信息提取提供更高的精度。将自动划格方法用于定位微阵列图像;有效地避免了人工参与带来的干扰;提高了微阵列图像处理速度。  相似文献   

13.
基于计算机视觉的表情识别技术综述   总被引:1,自引:0,他引:1  
王志良  刘芳  王莉 《计算机工程》2006,32(11):231-233
介绍了基于计算机视觉的表情识别的定义、应用前景和困难所在;阐述了表情识别的步骤,并比较了与人脸识别的异同;重点按照不同的特征提取和分类器设计方法对表情识别技术进行了综述。介绍了几何特征、统计特征、频率域特征和运动特征的提取方法及线性、神经网络、支持向量机分类器的设计和选择方法,并进行了简单的分析和比较;最后展望了表情识别的发展方向。  相似文献   

14.
基因表达数据的聚类分析研究进展   总被引:3,自引:1,他引:3       下载免费PDF全文
基因表达数据的爆炸性增长迫切需求自动、有效的数据分析工具. 目前聚类分析已成为分析基因表达数据获取生物学信息的有力工具. 为了更好地挖掘基因表达数据, 近年来提出了许多改进的传统聚类算法和新聚类算法. 本文首先简单介绍了基因表达数据的获取和表示, 之后系统地介绍了近年来应用在基因表达数据分析中的聚类算法. 根据聚类目标的不同将算法分为基于基因的聚类、基于样本的聚类和两路聚类, 并对每类算法介绍了其生物学的含义及其难点, 详细讨论了各种算法的基本原理及优缺点. 最后总结了当前的基因表达数据的聚类分析方法,并对发展趋势作了进一步的展望.  相似文献   

15.
基于逐步回归分析的基因表达缺失值估计   总被引:1,自引:0,他引:1  
在基因芯片实验中,数据缺失客观存在,并且在一定程度上会影响芯片数据后续分析结果的准确性。在不增加实验次数的情况下,缺失值估计是降低缺失数据对后续分析影响的有效方法。针对基因表达数据的特点,提出了基于逐步回归分析方法的基因表达缺失值估计算法。实验结果表明,新的估计算法具有较传统缺失值估计算法更好的稳定性和估计准确度。  相似文献   

16.
考虑样本不平衡的模型无关的基因选择方法   总被引:9,自引:0,他引:9       下载免费PDF全文
李建中  杨昆  高宏  骆吉洲  郭政 《软件学报》2006,17(7):1485-1493
在基因表达数据分析中,鉴别基因是后续研究中非常重要的信息基因.有很多研究致力于从基因表达数据中选出信息基因这一挑战性工作,并提出了一些基因选择方法.然而,这些方法(特别是非参数选择方法)都没有考虑不同样本类别中样本大小的不平衡性问题.考虑样本不平衡性和基因选择方法的稳定性,给出一个全新的与数据分布模型无关的基因选择方法.在类内变化小和类间差别大的策略下,选择敏感的度量函数提高方法的鉴别能力,同时,利用类内变化和类间差别的一致性来增加方法的稳定性和适用性.这一方法不但可以应用于两个类别的情况,也可以应用于多个类别的情况.最后,使用两组真实的基因表达数据对所提出的方法进行了验证.实验结果表明,这一方法比其他方法具有更高的有效性和稳健性.  相似文献   

17.
杨昆  李建中  徐德昌  戴国骏 《软件学报》2010,21(9):2148-2160
提出集成分析来自相同研究问题的不同数据集来识别表达不稳定的基因.把这一问题形式化为一个非线性整数规划问题,三个启发式的算法被提出来求解这一优化问题;进一步地设计了一个统计量来度量基因的不稳定表达程度.提出的方法应用于两个真实数据,实验结果显示:所识别的不稳定基因在两个数据中的表达不一致;利用表达不稳定基因可以提高差异表达基因的筛选结果,而去除表达不稳定基因可以有效地提高微阵列数据分类.实验结果表明,提出的方法是有效的,并且表达不稳定基因可以为微阵列数据分析提供有价值的信息.  相似文献   

18.
19.
针对基因芯片数据高噪音、列(基因)数比行(实验条件)数多几个数量级的特殊性,为了进一步提高从基因芯片数据挖掘共调控基因的时间效率和挖掘结果的有效性,首先根据所有两两基因对之间的Pearson相关系数对原始完整数据集进行分组,然后使用列(基因)枚举方法对各组数据分别进行闭合频繁模式挖掘,并对活化和抑制共调控关系的挖掘分别进行处理。实验结果证明:算法快速有效地挖掘出了两种共调控基因。  相似文献   

20.
两级作业成本管理系统设计与实现   总被引:1,自引:0,他引:1  
作业成本法在企业战略决策和战术决策方面都有应用,但是如何使作业成本实施同时满足战略与战术决策的需要,是实施应用的难点。文章提出一种两级作业成本管理系统的实施体系和框架结构,把企业看成部门的集合体。在部门层次,分别对各部门实施作业成本,侧重于战术决策,在企业层次,对各部门的实施进行信息综合,支持战略决策。对作业成本核算模型在以下三个方面进行了扩展:丰富的分配路径、统一的动因管理、统一的分配管理,从而增加了模型的适用性。结合提出的体系结构开发了原型系统,并给出原型系统的信息模型和在一个小型企业的运行案例。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号