共查询到20条相似文献,搜索用时 62 毫秒
1.
基因表达数据的并行双向聚类算法 总被引:1,自引:0,他引:1
基因表达数据的双向聚类问题是生物信息学中的一个重要的问题,通过对基因在各种不同实验条件下的表达数据进行双向聚类,可以分析和识别同类基因所共同拥有的基因功能以及转录调控元件.本文对基因表达数据进行双向聚类的问题进行了深入的研究.提出一种并行算法.该算法根据数据集合的大小对双向聚类质量的反单调性,由最小的数据集合开始逐步添加行或列,最终找到所有满足条件的聚类.实验结果表明,该算法处理速度快,聚类质量高,性能明显优于其它同类算法. 相似文献
2.
DNA微阵列技术的应用产生了大量的基因表达时序数据,对这些数据进行聚类是获取其中隐含的生物分子信息的一种重要方法。提出了一种基于隐马尔可夫模型(HMM)的层次聚类方法,根据基因表达时序数据的统计特性对其进行标准化和离散化等预处理,用HMM对经过预处理的数据建模以利用基因表达时序数据不同时间点之间的相关性,用层次聚类方法对建立的模型进行聚类。实验结果表明该方法不仅能够产生好的聚类,而且能够确定最优的聚类数。 相似文献
3.
针对EM算法中的初始类的数目很难决定,在迭代中经常产生部分最优的情况,将K-means算法与基于EM的聚类方法相结合,提出了一个新的适用于基因表达数据的模型聚类方法。新的聚类方法,首先利用K-means算法具有全局性、效率高的优点,快速得到聚类的起始类的划分,将其设置为高斯混合模型的初始参数值,进一步采用EM方法进行聚类,得到最优聚类结果。通过2次对真实数据集的实验测试,将新的算法分别与K均值算法和EM算法进行了比较。实验结果表明,新算法是一种有效的聚类方法,聚类结果的准确度得到了提高。 相似文献
4.
本文提出了一种双层结构的基因表达数据聚类算法,该算法针对基因表达数据量庞大且已知功能的基因较少的特点,将聚类过程分为两个层次,快速分析层和精确聚类层。聚类结果采用信息熵方法进行评价。实验结果表明该聚类方法对于聚类基因表达数据非常有效。 相似文献
5.
为改善传统的基因表达数据聚类方法正确率偏低的问题,研究了支持向量数据描述(SVDD)算法在基因表达数据聚类中的应用,该方法通过寻找最优分类超球实现对数据集的有效聚类.将类间信息融入聚类有效性评估准则中,通过模拟退火优化算法寻找SVDD算法中的最优核函数参数和惩罚因子,在训练时引入非样本数据提高运算效率.对酵母细胞生长周期的基因表达数据集的仿真实验结果表明,在新的聚类有效性评估准则下进行参数寻优,能够更快更好地得到最佳参数,同时,算法具有聚类精度高和运算速度快的优点. 相似文献
6.
聚类是一个将数据集划分为若干个簇的过程,在机器学习和数据挖掘中的有广泛的应用。该文综述了经典的聚类算法,在酵母基因表达数据集上实现了K-means聚类算法,并对聚类结果进行了分析。 相似文献
7.
研究了三维基因表达数据聚类的效率问题,在三维基因表达数据聚类过程中引入了"先验证后生成"的思想。基于提出的封闭相似性概念,设计了一种新的高效算法TESTER,采用多个有效的削减规则避免代价很高的全局封闭性检验,提高了效率。理论分析和实验结果表明,TESTER算法的性能优于目前最好的同类算法RSM和CubeMiner。 相似文献
8.
9.
10.
聚类是一种常用的基因表达数据处理手段,然而它又是主观的,如何选择符合数据内在分布的聚类算法成为目前急待解决的问题.根据经验,当选择最佳簇数k后,采用合理的聚类算法对目标数据重复聚类时,结果稳定性较好.因此提出一种基于稳定性的聚类算法选择.该方法将聚类结果的簇间分离度、簇内紧致度和聚类结果稳定性三者结合起来.在验证和应用三组数据时发现,比传统的评估方法,基于稳定性的聚类算法选择更客观、更可靠. 相似文献
11.
双聚类模型有助于聚类存在相关性的局部模式。论文提出了一种可识别多种相关模式的双聚类算法,以二次互信息作为相关性标准,并以Parzen窗口法有效估算高维变量之间的互信息;同时提出了最大相关维簇的概念。算法以多个最大相关维簇为种子,通过迭代细化聚类,可有效地发现高维数据环境内相关的长模式。真实基因表达数据的实验证明了算法的有效性。 相似文献
12.
13.
The availability of large microarray data has led to a growing interest in biclustering methods in the past decade. Several algorithms have been proposed to identify subsets of genes and conditions according to different similarity measures and under varying constraints. In this paper we focus on the exclusive row biclustering problem (also known as projected clustering) for gene expression, in which each row can only be a member of a single bicluster while columns can participate in multiple clusters. This type of biclustering may be adequate, for example, for clustering groups of cancer patients where each patient (row) is expected to be carrying only a single type of cancer, while each cancer type is associated with multiple (and possibly overlapping) genes (columns). We present a novel method to identify these exclusive row biclusters in the spirit of the optimal set cover problem. We present our algorithmic solution as a combination of existing biclustering algorithms and combinatorial auction techniques. Furthermore, we devise an approach for tuning the threshold of our algorithm based on comparison with a null model, inspired by the Gap statistic approach. We demonstrate our approach on both synthetic and real world gene expression data and show its power in identifying large span non-overlapping rows submatrices, while considering their unique nature. 相似文献
14.
GAEBic: A Novel Biclustering Analysis Method for miRNA-Targeted Gene Data Based on Graph Autoencoder 下载免费PDF全文
Li Wang Hao Zhang Hao-Wu Chang Qing-Ming Qin Bo-Rui Zhang Xue-Qing Li Tian-Heng Zhao Tian-Yue Zhang 《计算机科学技术学报》2021,36(2):299-309
Unlike traditional clustering analysis,the biclustering algorithm works simultaneously on two dimensions of samples (row) and variables (column).In recent years,biclustering methods have been developed rapidly and widely applied in biological data analysis,text clustering,recommendation system and other fields.The traditional clustering algorithms cannot be well adapted to process high-dimensional data and/or large-scale data.At present,most of the biclustering algorithms are designed for the differentially expressed big biological data.However,there is little discussion on binary data clustering mining such as miRNA-targeted gene data.Here,we propose a novel biclustering method for miRNA-targeted gene data based on graph autoencoder named as GAEBic.GAEBic applies graph autoencoder to capture the similarity of sample sets or variable sets,and takes a new irregular clustering strategy to mine biclusters with excellent generalization.Based on the miRNA-targeted gene data of soybean,we benchmark several different types of the biclustering algorithm,and find that GAEBic performs better than Bimax,Bibit and the Spectral Biclustering algorithm in terms of target gene enrichment.This biclustering method achieves comparable performance on the high throughput miRNA data of soybean and it can also be used for other species. 相似文献
15.
基因微阵列(DNA microarray)是实验分子生物学中的一个重要突破,其使得研究者可以同时监测多个基因在多个实验条件下表达水平的变化,进而为发现基因协同表达网络、研制药物、预防疾病等提供技术支持.研究者们提出了大量的聚类算法来分析基因表达数据,但是标准的聚类算法(单向聚类)只能发现少量的知识.因为基因不可能在所有实验条件下共表达,也不可能展示出相同的表达水平,但是可能参与多种遗传通路.在这种情况下,双聚类方法应运而生.这样就将基因表达数据的分析从整体模式转向局部模式,从而改变了只根据数据的全部对象或属性将数据聚类的局面.主要从局部模式的定义、局部模式类型与标准、局部模式的挖掘与查询等方面进行了梳理.介绍了基因表达数据中局部模式挖掘当前的研究现状与进展,详细总结了基于定量和定性的局部模式挖掘标准以及相关的挖掘系统,分析了存在的问题,并深入探讨了未来的研究方向. 相似文献
16.
基因表达数据是由DNA微阵列实验产生的大规模数据矩阵,双聚类算法是挖掘数据矩阵中具有较高相关性的子矩阵,能有效地提取生物学信息.针对当前多目标双聚类优化算法易于陷入早熟和局部最优解等问题,论文提出了基于逻辑运算的离散人工蜂群优化双聚类算法(LOABCB算法),一方面引入人工蜂群算法增强双聚类的全局寻优能力,另一方面通过... 相似文献
17.
存在不完整的、不一致的和含噪声的数据是现实世界大型的数据库或数据仓库的共同特点.基因表达数据也存在这种情况。因此,在数据挖掘之前对基因表达数据进行预处理非常必要。 相似文献
18.
聚类分析在基因表达数据上的应用研究 总被引:3,自引:0,他引:3
邓庆山 《计算机工程与应用》2005,41(35):210-212
文章讨论了自组织映射、K平均值聚类和一种有效性测度Silhouette指数。针对基因微阵列的数据特点,考虑到自组织映射的优缺点,设计并实现了一种基于聚类有效性测度的自组织映射和K平均值聚类相结合的一种聚类模型。将该模型运用于公开的结肠基因表达数据集和白血病数据集,实验结果表明该模型是行之有效的。 相似文献
19.
存在不完整的、不一致的和含噪声的数据是现实世界大型的数据库或数据仓库的共同特点,基因表达数据也存在这种情况。因此,在数据挖掘之前对基因表达数据进行预处理非常必要。 相似文献
20.
基因表达数据的聚类分析研究进展 总被引:3,自引:1,他引:3
基因表达数据的爆炸性增长迫切需求自动、有效的数据分析工具. 目前聚类分析已成为分析基因表达数据获取生物学信息的有力工具. 为了更好地挖掘基因表达数据, 近年来提出了许多改进的传统聚类算法和新聚类算法. 本文首先简单介绍了基因表达数据的获取和表示, 之后系统地介绍了近年来应用在基因表达数据分析中的聚类算法. 根据聚类目标的不同将算法分为基于基因的聚类、基于样本的聚类和两路聚类, 并对每类算法介绍了其生物学的含义及其难点, 详细讨论了各种算法的基本原理及优缺点. 最后总结了当前的基因表达数据的聚类分析方法,并对发展趋势作了进一步的展望. 相似文献