首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 78 毫秒
1.
三维微阵列数据的多目标进化聚类   总被引:1,自引:0,他引:1       下载免费PDF全文
聚类技术广泛应用于微阵列数据分析中。在基因-样本-时间GST微阵列数据矩阵中,挖掘三雏聚类成为当前的热门研究课题。3D聚类过程经常需要对多个相互冲突的目标进行优化,而且进化算法以其强大的探寻能力成为高维搜索空间中非常有效的搜索方法。本文基于多目标进化计算方法提出一个新的3D聚类算法MOE-TC,以挖掘GST数据中的3D聚类。现实微阵列数据上的实验验证结果充分说明了本文算法的有效性。  相似文献   

2.
提出了一种编码方案,同时聚类正共调控基因和负共调控基因.基于这种编码方式,两个正共调控或负共调控的基因都具有相同的编码,因此被聚集到同一个共调控基因类中.进一步提出了一个基于这种编码方案进行最大子空间共调控基因聚类的新算法及一些新的相关削减策略.一个最大子空间共调控基因聚类聚集了某个条件序列上的一组共调控基因,而且不被其他的子空间共调控基因聚类包含.从多方面分析了该算法的性能,并将其用于白血病和酵母细胞的真实表达数据集及人造数据集聚类.理论分析和实验结果都表明,相对于已有的基于模式/趋势的聚类算法,该算法能发现更多具有生物意义的共调控基因聚类,并且性能优于目前的共调控基因聚类算法.  相似文献   

3.
微阵列技术是后基因组时代功能基因组研究的主要工具。基因表达谱数据的聚类分析对于研究基因功能和基因调控机制有重要意义。针对聚类算法要求事先确定簇的个数、对噪声敏感和可伸缩性差的问题,基于密度聚类算法DBSCAN和共享近邻SharedNearestNeighbors(SNN)的不同的特点,提出了一种新的最近邻先吸收的聚类算法,将其应用于一个公开的酵母细胞同期数据集,并用评价方法FOM将聚类结果与K-means聚类方法的结果进行了比较。结果表明,该文的聚类算法优于其他聚类算法,聚类结果具有明显的生物学意义,并能对数据的类别数作出较好的预测和评估。  相似文献   

4.
王晓明  印莹 《计算机科学》2007,34(8):171-176
DNA微阵列技术使同时监测成千上万的基因表达水平成为可能.直接把传统聚类算法用于高维基因表达数据分析会受到"维难"的困扰.特征转换和特征选择是两种常用的降维方式,但前者产生的新特征难以用原来的领域知识解释,后者通常会丢失信息.另外,传统的聚类算法通常由用户指定聚类参数,参数设置不同对聚类结果有很大的影响.针对上述问题,本文提出了一种新的基于迭代扩张的微阵列数据聚类算法-CIS.它不采用特征转换和特征选择的方式,并自动确定聚类参数.CIS反复用最新得到的样本聚簇得到新的聚类基因,然后以新的基因聚簇为特征重新聚类样本,逐步求精,最终的结果容易解释且避免了信息的丢失.该方法降低了由于用户缺少领域知识引起的实验误差.CIS算法被应用于两个真实的微阵列数据集,实验结果证实了算法的有效性.  相似文献   

5.
针对目前双聚类算法很少考虑所得聚类结果整体的划分质量问题,提出一种基于PA指标的双聚类算法。该算法选定一种衡量所有簇划分效果的PA指标来构造双聚类的模型,运用启发式贪心策略,通过迭代增删行列的方式挖掘出划分效果较高的几个双聚类。将所提算法与CC、FLOC算法进行算法性能的比较。实验结果表明,该算法能获得更好的结果。这说明该算法更能挖掘出具备既有统计意义又有生物意义的局部模式。  相似文献   

6.
微阵列技术是后基因时代功能基因组研究的主要工具。由于采用了高效的并行杂交技术,每次实验可以得到大量丰富的数据,因此其结果分析成为一项很有挑战性而且具有重要意义的工作。聚类分析是微阵列数据分析中使用最为广泛的一类方法。微阵列实验得到的大量数据通过聚类分析,可以得到很多有用的信息,其成功应用已广泛涉及到基因功能研究和生物医学研究中的各个领域。文中介绍了基因微阵列数据的聚类分析方法及其重要应用。  相似文献   

7.
马煜  陈莉  方鹤鹤 《微机发展》2006,16(2):117-119
微阵列技术是后基因时代功能基因组研究的主要工具。由于采用了高效的并行杂交技术,每次实验可以得到大量丰富的数据,因此其结果分析成为一项很有挑战性而且具有重要意义的工作。聚类分析是微阵列数据分析中使用最为广泛的一类方法。微阵列实验得到的大量数据通过聚类分析,可以得到很多有用的信息,其成功应用已广泛涉及到基因功能研究和生物医学研究中的各个领域。文中介绍了基因微阵列数据的聚类分析方法及其重要应用。  相似文献   

8.
基因芯片是微阵列技术的典型代表,它具有高通量的特性和同时检测全部基因组基因表达水平的能力。应用微阵列芯片的一个主要目的是基因表达模式的发现,即在基因组水平发现功能相似,生物学过程相关的基因簇;或者将样本分类,发现样本的各种亚型。例如根据基因表达水平对癌症样本进行分类,发现疾病的分子亚型。非负矩阵分解NMF方法是一种非监督的、非正交的、基于局部表示的矩阵分解方法。近年来这种方法被越来越多地应用在微阵列数据的分类分析和聚类发现中。系统地介绍了非负矩阵分解的原理、算法和应用,分解结果的生物学解释,分类结果的质量评估和基于NMF算法的分类软件。总结并评估了NMF方法在微阵列数据分类和聚类发现应用中的表现。  相似文献   

9.
聚类是一个将数据集划分为若干个簇的过程,在机器学习和数据挖掘中的有广泛的应用。该文综述了经典的聚类算法,在酵母基因表达数据集上实现了K-means聚类算法,并对聚类结果进行了分析。  相似文献   

10.
根据目前数据挖掘研究的现状,分析不确定数据的聚类挖掘算法。针对不确定数据聚类挖掘存在的问题,提出改进传统的数据挖掘算法来适合不确定数据的聚类挖掘或找出新的聚类挖掘算法,来解决不确定数据聚类挖掘问题的新思路。  相似文献   

11.
印莹  赵宇海  张斌  王国仁 《计算机学报》2007,30(8):1302-1314
基因的共调控可分为同步和异步两种.文中提出了一种新的聚类模型Reg-Cluster,将具有相同编码的同步和异步共调控基因聚集到同一个共调控基因类中.在此基础上,提出了一种有效的聚类算法FBLD,采用先宽度优先、后深度优先的搜索策略,并结合高效的削减规则,挖掘得到所有符合条件的最大Reg-Cluster.聚类结果中包含了详细而完备的共调控信息,有助于基因调控网的研究.算法可扩展用于三维基因-样本-时间微阵列数据集的分析.FBLD算法已经应用到真实和人造微阵列数据集中,其结果被提交到Gene Ontology,实验结果证明了算法的高效性和有效性.  相似文献   

12.
基因微阵列(DNA microarray)是实验分子生物学中的一个重要突破,其使得研究者可以同时监测多个基因在多个实验条件下表达水平的变化,进而为发现基因协同表达网络、研制药物、预防疾病等提供技术支持.研究者们提出了大量的聚类算法来分析基因表达数据,但是标准的聚类算法(单向聚类)只能发现少量的知识.因为基因不可能在所有实验条件下共表达,也不可能展示出相同的表达水平,但是可能参与多种遗传通路.在这种情况下,双聚类方法应运而生.这样就将基因表达数据的分析从整体模式转向局部模式,从而改变了只根据数据的全部对象或属性将数据聚类的局面.主要从局部模式的定义、局部模式类型与标准、局部模式的挖掘与查询等方面进行了梳理.介绍了基因表达数据中局部模式挖掘当前的研究现状与进展,详细总结了基于定量和定性的局部模式挖掘标准以及相关的挖掘系统,分析了存在的问题,并深入探讨了未来的研究方向.  相似文献   

13.
姜涛  李战怀  尚学群  陈伯林  李卫榜 《计算机科学》2016,43(7):191-196, 223
基因表达数据分析一般是通过挖掘局部模式来实现的。保序子矩阵是局部模式挖掘中一种经典的模型,可以获取到在若干条件下表现出一致趋势的一组基因。高通量基因微阵列技术的进步,促进了海量基因表达数据的产生,使得对高性能基因表达数据分析算法的需求极为迫切。现有方法大多数是通过批量挖掘的方法来分析数据,即使有通过查询方式来获取精确结果的方法,其全面性与性能也有待提高。为了提高数据分析的效率与准确性,首先提出一种基于前缀树的基因表达数据索引gIndex,然后给出了一种基于列关键词查询的保序子矩阵分析方法GEQc。其不经过批量挖掘,只需要建立索引并通过关键词来完成正相关/负相关/时滞等模式的查询。实验结果表明,与现有方法相比,所提算法具有良好的数据分析效率与可扩展性。  相似文献   

14.
李海峰  章宁 《计算机工程》2012,38(21):45-48
最大频繁项集适用于内存空间有限的数据流挖掘。为此,提出一种基于界碑模型的最大频繁项集挖掘方法,采用最大频繁项集树的数据结构,增量式地维护最大频繁项集与部分附属信息,实现项集的快速搜索和裁剪。在MUSHROOM和BMS-POS数据集上的实验结果表明,该方法具有较高的挖掘效率。  相似文献   

15.
现有大部分微阵列数据中频繁闭合项集的挖掘需要事先给定最小支持度,但在实际应用中该最小支持度很难确定。针对该问题,提出top-k频繁闭合项集挖掘算法,基于自顶向下宽度优先搜索策略挖掘项集长度不小于min_l的top-k频繁闭合项集,并对搜索空间进行有效修剪,从而提高搜索速度。实验结果表明,该算法的时间性能在多数情况下优于CARPENTER算法。  相似文献   

16.
微阵列数据癌症分类问题中的基因选择   总被引:1,自引:0,他引:1  
微阵列数据广泛而成功地应用于生物医学的癌症分类研究.一个典型的微阵列数据集包含大量(通常成千上万,甚至数十万)的基因、相对少量(往往不足一百)的样本.在这成千上万的基因中,仅仅一少部分基因对癌症分类有贡献.因而,对于癌症分类来说,最重要的一个问题就是识别出对癌症分类最有贡献的基因.这一识别过程称为基因选择.基因选择在统计模式识别、机器学习和数据挖掘领域已得到广泛研究.介绍基因选择问题所涉及到的相关背景知识和基本概念;全面地回顾统计学、机器学习和数据挖掘领域对基因选择问题的解决方法;通过实验展示了几种典型算法在微阵列数据上的性能;指出当前存在的问题和未来的研究方向.  相似文献   

17.
18.
荣秋生  颜君彪 《微机发展》2007,17(1):98-100
随着网格和数据挖掘技术的发展,提出了网格平台下最大频繁项集数据挖掘算法,采用数据库的垂直表示和基于前缀关系的等价划分,以等价类长度的指数函数作为等价类的权值,减少剪枝对负载的影响,合理划分等价类,在动态负载平衡情况下使处理机异步计算,大大提高算法的执行效率。实验证明设计的算法有较好的可扩展性,其性能明显优于其他相关算法。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号