首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 156 毫秒
1.
基因表达数据的聚类分析研究进展   总被引:3,自引:1,他引:3  
基因表达数据的爆炸性增长迫切需求自动、有效的数据分析工具. 目前聚类分析已成为分析基因表达数据获取生物学信息的有力工具. 为了更好地挖掘基因表达数据, 近年来提出了许多改进的传统聚类算法和新聚类算法. 本文首先简单介绍了基因表达数据的获取和表示, 之后系统地介绍了近年来应用在基因表达数据分析中的聚类算法. 根据聚类目标的不同将算法分为基于基因的聚类、基于样本的聚类和两路聚类, 并对每类算法介绍了其生物学的含义及其难点, 详细讨论了各种算法的基本原理及优缺点. 最后总结了当前的基因表达数据的聚类分析方法,并对发展趋势作了进一步的展望.  相似文献   

2.
生物基因表达数据的双向聚类已成为近年来生物信息学的研究热点.生物基因表达数据双聚类问题通常需要同时最优化双聚类中基因表达行为的波动一致性以及双聚类的容量.基于单目标优化的双聚类算法难以很好地同时优化这两个目标.针对这个问题,本文采用了多目标微分进化算法来求解基因表达数据的双向聚类问题.算法在真实的基因表达数据集上测试,实验结果表明,本文所提算法具有更优的聚类效果.  相似文献   

3.
聚类是一种常用的基因表达数据处理手段,然而它又是主观的,如何选择符合数据内在分布的聚类算法成为目前急待解决的问题.根据经验,当选择最佳簇数k后,采用合理的聚类算法对目标数据重复聚类时,结果稳定性较好.因此提出一种基于稳定性的聚类算法选择.该方法将聚类结果的簇间分离度、簇内紧致度和聚类结果稳定性三者结合起来.在验证和应用三组数据时发现,比传统的评估方法,基于稳定性的聚类算法选择更客观、更可靠.  相似文献   

4.
一种新聚类算法在基因表达数据分析中的应用   总被引:2,自引:1,他引:1       下载免费PDF全文
自组织特征映射神经网络与层次聚类算法是两种较经典的分析基因表达数据的聚类算法,但由于基因表达数据的复杂性与不稳定性,这两种算法都存在着自身的优劣。因此,在比较两种算法差异性的基础上,创造性地提出了一种新算法,即通过SOM算法对基因表达数据进行聚类,再用层次聚类将每个类对应的神经元权值二次聚类,并将此算法应用在酵母菌基因表达数据中,用实验证明改进算法克服了自组织算法的一些缺陷,提高了基因聚类的效能。  相似文献   

5.
本文提出了一种双层结构的基因表达数据聚类算法,该算法针对基因表达数据量庞大且已知功能的基因较少的特点,将聚类过程分为两个层次,快速分析层和精确聚类层。聚类结果采用信息熵方法进行评价。实验结果表明该聚类方法对于聚类基因表达数据非常有效。  相似文献   

6.
基因表达数据的并行双向聚类算法   总被引:1,自引:0,他引:1  
基因表达数据的双向聚类问题是生物信息学中的一个重要的问题,通过对基因在各种不同实验条件下的表达数据进行双向聚类,可以分析和识别同类基因所共同拥有的基因功能以及转录调控元件.本文对基因表达数据进行双向聚类的问题进行了深入的研究.提出一种并行算法.该算法根据数据集合的大小对双向聚类质量的反单调性,由最小的数据集合开始逐步添加行或列,最终找到所有满足条件的聚类.实验结果表明,该算法处理速度快,聚类质量高,性能明显优于其它同类算法.  相似文献   

7.
聚类方法在基因表达数据分析中发挥着非常重要的作用,但基因表达数据相对其他领域的数据具有自身的特性,因此传统的数据距离定义和聚类方法已不能完全满足研究者对生物数据的分析要求。提出一种基于泊松分布的数据距离度量方式TransChisq,它以一种全新的视角定义了基因数据之间的距离,鉴于模糊聚类算法能够更加深刻地描述复杂的基因作用关系,将TransChisq距离与模糊聚类方法相结合对模糊C均值算法进行改进,并应用于真实基因表达数据分析。实验结果表明,该方法能够按照生物学的真实分类将基因表达数据聚类,并且可以发现更多的共调控基因,更加满足了基因表达数据分析的需要。  相似文献   

8.
利用动态调整聚类个数的思想,在模糊C-均值聚类算法基础上引入基于多维PFS判别函数,提出一种基于多维伪F统计量的基因表达动态C-均值聚类算法.以H5N1病毒基因序列数字特征提取为例,在聚类分析过程中直接利用数字特征矩阵作为分析数据,结果表明该算法可以动态调整聚类个数,给出最佳聚类数目,从而获得较好的聚类质量.  相似文献   

9.
针对基因表达数据中存在的噪声对聚类分析结果准确度的影响问题,提出了一种基于小波包分解的基因表达数据模糊聚类分析方案,介绍了理论根据和算法,给出了Matlab仿真结果,并与其他方法聚类的结果进行了比较。结果表明提出的方法能够减少传统聚类方法受到噪声影响的程度,能够挖掘出基因表达数据在时间上的行为特征,对与细胞周期调控有关的基因表达数据的聚类结果划分更为准确和细致。  相似文献   

10.
为改善传统的基因表达数据聚类方法正确率偏低的问题,研究了支持向量数据描述(SVDD)算法在基因表达数据聚类中的应用,该方法通过寻找最优分类超球实现对数据集的有效聚类.将类间信息融入聚类有效性评估准则中,通过模拟退火优化算法寻找SVDD算法中的最优核函数参数和惩罚因子,在训练时引入非样本数据提高运算效率.对酵母细胞生长周期的基因表达数据集的仿真实验结果表明,在新的聚类有效性评估准则下进行参数寻优,能够更快更好地得到最佳参数,同时,算法具有聚类精度高和运算速度快的优点.  相似文献   

11.
半监督的仿射传播聚类   总被引:4,自引:0,他引:4       下载免费PDF全文
仿射传播聚类算法快速、有效,可以解决大数据集的聚类问题,但当数据的聚类结构比较松散时,聚类准确性不高。该文提出了半监督的仿射传播聚类算法,在迭代过程中嵌入了有效性指标以监督和引导算法向最优聚类结果的方向运行。实验结果表明,该方法对于聚类结构比较紧密和松散的数据集,均可以给出较为准确的聚类结果。  相似文献   

12.
客户分类作为客户关系管理(CRM)的重要管理方法,是企业进行市场营销的重要依据.通过对客户进行分类,有利于对客户价值进行准确评估,方便进行精准营销.本文通过对RFM模型数据集本身潜藏的先验结构化信息进行研究,标记出两组客户数据作为先验类别标记,进而得到两个初始聚类中心.基于传统K-means算法使用自适应方法确定K值和初始聚类中心.引入Must-link和Cannot-link两种约束将类别标记转换为成对约束信息,基于HMRF-KMeans成对约束,引入约束惩罚项和约束奖励项,实现对聚类引导和聚类结果的调整.使用改进的半监督聚类算法(RFM-SS-means)对标准数据集进行了测试,同时使用Food mart数据集对比了RFM-SS-means算法与传统K-means算法、two-steps算法的聚类效果.由实验结果可知,RFM-SS-means的CH系数最大,无需事先确定K值和初始聚类中心,聚类效果良好.  相似文献   

13.
In this paper, we describe our progress in creating the framework for an interactive application that allows humans to actively participate in a t-SNE clustering process. t-SNE (t-Distributed Stochastic Neighbor Embedding) is a dimensionality reduction technique that maps high dimensional data sets to lower dimensions that can then be visualized for human interpretation. By prompting users to monitor outlying points during the t-SNE clustering process, we hypothesize that users may be able to make clustering faster and more accurate than purely algorithmic methods. Further research would test these hypotheses directly. We would also attempt to decrease the lag time between the various components of our application and develop an intuitive approach for humans to aid in clustering unlabeled data. Research into human assisted clustering can combine the strengths of both humans and computer programs to improve the results of data analysis.  相似文献   

14.
聚类技术是机器学习、模式识别及数据挖掘等领域中的一个重要研究内容。采用不同相似度测量方式,应用标准模糊C均值聚类算法在UCI的三个知名数据集上完成聚类实验,从正确率和运行效率两个方面对比分析其性能,为聚类分析研究提供了有益的参考。  相似文献   

15.
针对模糊C均值(Fuzzy C-Means,FCM)聚类算法对初始聚类中心和噪声敏感、对边界样本聚类不够准确且易收敛于局部极小值等问题,提出了一种K邻近(KNN)优化的密度峰值(DPC)算法和FCM相结合的融合聚类算法(KDPC-FCM)。算法利用样本的K近邻信息定义样本局部密度,快速准确搜索样本的密度峰值点样本作为初始类簇中心,改善FCM聚类算法存在的不足,从而达到优化FCM聚类算法效果的目的。在多个UCI数据集、单个人造数据集、多种基准数据集和Geolife项目中的6个较大规模数据集上的实验结果表明,改进后的新算法与传统FCM算法、DSFCM算法对比,有着更好的抗噪性、聚类效果和更快的全局收敛速度,证明了新算法的可行性和有效性。  相似文献   

16.
By using a kernel function, data that are not easily separable in the original space can be clustered into homogeneous groups in the implicitly transformed high-dimensional feature space. Kernel k-means algorithms have recently been shown to perform better than conventional k-means algorithms in unsupervised classification. However, few reports have examined the benefits of using a kernel function and the relative merits of the various kernel clustering algorithms with regard to the data distribution. In this study, we reformulated four representative clustering algorithms based on a kernel function and evaluated their performances for various data sets. The results indicate that each kernel clustering algorithm gives markedly better performance than its conventional counterpart for almost all data sets. Of the kernel clustering algorithms studied in the present work, the kernel average linkage algorithm gives the most accurate clustering results.  相似文献   

17.
Distributed Clustering Using Collective Principal Component Analysis   总被引:4,自引:2,他引:2  
This paper considers distributed clustering of high-dimensional heterogeneous data using a distributed principal component analysis (PCA) technique called the collective PCA. It presents the collective PCA technique, which can be used independent of the clustering application. It shows a way to integrate the Collective PCA with a given off-the-shelf clustering algorithm in order to develop a distributed clustering technique. It also presents experimental results using different test data sets including an application for web mining. Received 30 August 2000 / Revised 30 January 2001 / Accepted in revised form 16 May 2001  相似文献   

18.
针对Nyström方法在谱聚类应用中存在聚类效果不稳定、样本代表性较弱的问题,提出基于加权集成Nyström采样的谱聚类算法.首先利用统计杠杆分数区别数据间的重要程度,对数据进行加权.然后基于权重采用加权K-means中心点采样,得到多组采样点.再引入集成框架,利用集群并行运行Nyström方法构建近似核矩阵.最后利用岭回归方法组合各个近似核矩阵,产生比标准Nyström方法更准确的低秩近似.在UCI数据集上的测试实验表明,文中算法取得较理想的聚类结果.  相似文献   

19.
Generalized rough fuzzy c-means algorithm for brain MR image segmentation   总被引:1,自引:0,他引:1  
Fuzzy sets and rough sets have been widely used in many clustering algorithms for medical image segmentation, and have recently been combined together to better deal with the uncertainty implied in observed image data. Despite of their wide spread applications, traditional hybrid approaches are sensitive to the empirical weighting parameters and random initialization, and hence may produce less accurate results. In this paper, a novel hybrid clustering approach, namely the generalized rough fuzzy c-means (GRFCM) algorithm is proposed for brain MR image segmentation. In this algorithm, each cluster is characterized by three automatically determined rough-fuzzy regions, and accordingly the membership of each pixel is estimated with respect to the region it locates. The importance of each region is balanced by a weighting parameter, and the bias field in MR images is modeled by a linear combination of orthogonal polynomials. The weighting parameter estimation and bias field correction have been incorporated into the iterative clustering process. Our algorithm has been compared to the existing rough c-means and hybrid clustering algorithms in both synthetic and clinical brain MR images. Experimental results demonstrate that the proposed algorithm is more robust to the initialization, noise, and bias field, and can produce more accurate and reliable segmentations.  相似文献   

20.
针对基于改进模糊聚类的数据融合算法存在融合不精确、融合可信度较低等不足,为了解决多个同质传感器在无先验知识的情况下对同一个目标的某一特征进行测量的数据融合问题,提出了一种自适应模糊[C]均值聚类的数据融合算法,主要是把自适应模糊[C]均值聚类应用到数据融合中。该算法首先在改进的模糊聚类中通过引入自适应系数以发现不同形状和大小的聚类子集,使得融合结果更精确;其次将卡尔曼滤波原理和基于多层感知机的神经网络预测法应用到误差协方差估计中,提高了融合可信度。实验结果表明,与7种经典数据融合算法进行对比,该算法在4个模拟数据集与真实数据集上融合结果较好,特别在判别函数与融合误差方面优势更为明显。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号