首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 359 毫秒
1.
一种新型的基于密度和栅格的聚类算法*   总被引:2,自引:1,他引:1  
针对网格和密度方法的聚类算法存在效率和质量问题,给出了密度和栅格相结合的聚类挖掘算法,即基于密度和栅格的聚类算法DGCA(density and grid based clustering algorithm)。该算法首先将数据空间划分为栅格单元,然后把数据存储到栅格单元中,利用DBSCAN密度聚类算法进行聚类挖掘;最后进行聚类合并和噪声点消除,并将局部聚类结果映射到全局聚类结果。实验通过人工数据样本集对该聚类算法进行理论上验证,表明了该算法在时间效率和聚类质量两方面都得到了提高。  相似文献   

2.
针对EM算法中的初始类的数目很难决定,在迭代中经常产生部分最优的情况,将K-means算法与基于EM的聚类方法相结合,提出了一个新的适用于基因表达数据的模型聚类方法。新的聚类方法,首先利用K-means算法具有全局性、效率高的优点,快速得到聚类的起始类的划分,将其设置为高斯混合模型的初始参数值,进一步采用EM方法进行聚类,得到最优聚类结果。通过2次对真实数据集的实验测试,将新的算法分别与K均值算法和EM算法进行了比较。实验结果表明,新算法是一种有效的聚类方法,聚类结果的准确度得到了提高。  相似文献   

3.
针对聚类过程中有意义的异常数据难以识别的问题,在改进CMM算法的基础上,提出了一种融合了异常数据识别的层次聚类算法。采用CMM方法提出的原子簇思想,通过重新定义簇中心、噪声判断标准以及改进循环机制等手段提高聚类准确性及算法效率。提出了异常数据的概念和定义,并将其识别算法引入聚类过程过程。基于仿真及实际数据的实验结果证明,该算法能够根据设定参数准确识别异常数据,同时其聚类准确性及性能针对CMM算法也有了相应提高。  相似文献   

4.
针对差分隐私保护下单一聚类算法准确性和安全性不足的问题,提出了一种基于差分隐私保护的Stacking集成聚类算法。使用Stacking集成多种异质聚类算法,将K-means聚类、Birch层次聚类、谱聚类和混合高斯聚类作为初级聚类算法,结合轮廓系数对初级聚类算法产生的聚类结果加权并入原始数据,将K-means算法作为次级聚类算法对扩展后的数据集进行聚类分析。其中,针对原始数据和初级聚类算法的聚类结果分别提出自适应的ε函数确定隐私预算,为不同敏感度的数据分配不同程度的Laplace噪声。理论分析和实验结果均表明,与单一聚类算法相比,该算法满足ε-差分隐私保护的同时有效提高了聚类准确性,实现了隐私保护与数据可用性的高度平衡。  相似文献   

5.
《计算机科学与探索》2016,(7):1003-1009
半监督聚类是一种用先验信息完善聚类过程的机器学习方法。通过将元胞自动机(cellular automata,CA)距离变换算法引入到半监督聚类过程中,采用平面距离变换算法将数据集划分为若干子类,获得聚类数和约束信息,并作为下一阶段聚类的先验信息。利用半监督K-means聚类算法对第一阶段的聚类结果做进一步划分,可以获得完整的聚类中心和聚类数,并由此提出CA-K-means二阶段聚类算法。采用3组人工数据集和3组标准UCI数据集进行对比仿真实验,将CA-K-means二阶段聚类算法与半监督K-means聚类算法、遗传Kmeans聚类算法和单纯的CA层次聚类算法进行对比,结果显示,该算法对复杂分布数据的聚类准确率较高,聚类性能更加优良。  相似文献   

6.
基于k-means聚类算法的研究   总被引:4,自引:0,他引:4  
分析研究聚类分析方法,对多种聚类分析算法进行分析比较,讨论各自的优点和不足,同时针对原k-means算法的聚类结果受随机选取初始聚类中心的影响较大的缺点,提出一种改进算法.通过将对数据集的多次采样,选取最终较优的初始聚类中心,使得改进后的算法受初始聚类中心选择的影响度大大降低;同时,在选取初始聚类中心后,对初值进行数据标准化处理,使聚类效果进一步提高.通过UCI数据集上的数据对新算法Hk-means进行检测,结果显示Hk-means算法比原始的k-means算法在聚类效果上有显著的提高,并对相关领域有借鉴意义.  相似文献   

7.
文章提出了一种基于算法选择和结果评估的自动聚类方法。对给定数据集,该方法首先通过分析数据集的潜在簇结构,并依据所发现的簇结构为数据集挑选一种合适的备选聚类算法集;然后利用聚类有效性指标对这个算法集的算法聚类结果进行评估,以确保得到高质量聚类结果。实验结果表明该方法能够自动地挑选适合数据集的聚类算法,并获得高质量的聚类结果。  相似文献   

8.
对切换回归模型的聚类方法一般都没有考虑到噪音的影响,因此在含有噪音数据的情况下,用这些方法聚类的结果就会出现一定的偏差.为了减弱聚类过程中噪音数据的影响,提出了一种新的具有抵抗噪音能力的聚类算法,称为抗噪音聚类算法.该算法通过将已知数据集划分为非噪音数据集和噪音数据集2个子集,然后对非噪音数据集进行聚类分析,估计出模型的各个参数.通过对噪音数据集和非噪音数据集进行不断地调整,同时不断地修正得到的参数估计值,从而得到对聚类结果的优化.实验表明,抗噪音聚类算法能够有效地克服噪音数据对聚类结果的影响,并估计出优质的参数.  相似文献   

9.
基于核的自适应K—Medoid聚类   总被引:2,自引:1,他引:1  
针对K-Medoid算法不能有效聚类大数据集和高维数据的弱点,将核学习方法引入到K-Medoid算法,提出了基于核的自适应K-Medoid算法.该算法利用核函数将输入空间样本映射到一个高维的特征空间,在这个核空间中进行K-Medoid聚类,在聚类过程中,数据可以自适应地加入到最适合它的簇当中,并且聚类结果与初始k个中心点的选取无关,该算法可以完成对大数据集和高维数据的聚类.实验结果表明,与K-Medoid算法相比,该算法具有较高的聚类准确率.  相似文献   

10.
传统的H-K聚类算法将层次聚类算法和k-means聚类算法有机结合起来,从而使得H-K聚类算法具有单个聚类算法所不具有的诸多优点。为了将H-K聚类算法更好地应用于对高维数据集的聚类中,以缓解维度灾难问题,本文应用PCA(主成分分析)方法对H-K算法进行改进,提出新的聚类算法PCAHK。该算法首先采用PCA方法,将高维数据投影到较低维空间中,再对降维后的数据进行H-K聚类。实验表明,在对高维数据集进行聚类时,与传统的H-K算法相比,PCAHK算法的性能明显提高。  相似文献   

11.
利用动态调整聚类个数的思想,在模糊C-均值聚类算法基础上引入基于多维PFS判别函数,提出一种基于多维伪F统计量的基因表达动态C-均值聚类算法.以H5N1病毒基因序列数字特征提取为例,在聚类分析过程中直接利用数字特征矩阵作为分析数据,结果表明该算法可以动态调整聚类个数,给出最佳聚类数目,从而获得较好的聚类质量.  相似文献   

12.
Microarray technology has been widely applied in study of measuring gene expression levels for thousands of genes simultaneously. In this technology, gene cluster analysis is useful for discovering the function of gene because co-expressed genes are likely to share the same biological function. Many clustering algorithms have been used in the field of gene clustering. This paper proposes a new scheme for clustering gene expression datasets based on a modified version of Quantum-behaved Particle Swarm Optimization (QPSO) algorithm, known as the Multi-Elitist QPSO (MEQPSO) model. The proposed clustering method also employs a one-step K-means operator to effectively accelerate the convergence speed of the algorithm. The MEQPSO algorithm is tested and compared with some other recently proposed PSO and QPSO variants on a suite of benchmark functions. Based on the computer simulations, some empirical guidelines have been provided for selecting the suitable parameters of MEQPSO clustering. The performance of MEQPSO clustering algorithm has been extensively compared with several optimization-based algorithms and classical clustering algorithms over several artificial and real gene expression datasets. Our results indicate that MEQPSO clustering algorithm is a promising technique and can be widely used for gene clustering.  相似文献   

13.
In recent year, the problem of clustering in microarray data has been gaining significant attention. However most of the clustering methods attempt to find the group of genes where the number of cluster is known a priori. This fact motivated us to develop a new real-coded improved differential evolution based automatic fuzzy clustering algorithm which automatically evolves the number of clusters as well as the proper partitioning of a gene expression data set. To improve the result further, the clustering method is integrated with a support vector machine, a well-known technique for supervised learning. A fraction of the gene expression data points selected from different clusters based on their proximity to the respective centers, is used for training the SVM. The clustering assignments of the remaining gene expression data points are thereafter determined using the trained classifier. The performance of the proposed clustering technique has been demonstrated on five gene expression data sets by comparing it with the differential evolution based automatic fuzzy clustering, variable length genetic algorithm based fuzzy clustering and well known Fuzzy C-Means algorithm. Statistical significance test has been carried out to establish the statistical superiority of the proposed clustering approach. Biological significance test has also been carried out using a web based gene annotation tool to show that the proposed method is able to produce biologically relevant clusters of genes. The processed data sets and the matlab version of the software are available at http://bio.icm.edu.pl/~darman/IDEAFC-SVM/.  相似文献   

14.
针对K-means算法中聚类结果易受初始聚类中心影响的缺点,提出一种改进初始聚类中心选择的算法.该算法不断寻找最大聚类,并利用距离最大的两个数据对象作为开始的聚类中心对该聚类进行分裂,如此反复,直到得到指定聚类中心个数.用KDD CUP99数据集对改进算法进行仿真实验,实验数据表明,用该算法获得的聚类中心进行聚类相对原始的K-means算法,能获得更好的聚类结果.  相似文献   

15.
视频镜头聚类是基于内容的视频分析和检索领域中的一个重要问题.提出了一种对视频镜头的半监督聚类算法(SSCA),该算法首先在初始化时对已知的成对实例约束集进行聚类,利用在初始化时生成的簇来指导高维空间中其他视频镜头数据的聚类.由于高维空间中不同的维度存在着不同的相关性,所以为每一个簇引入权重向量.之后提出了一种基于最大距离的聚类中心分割策略,来解决聚类中心的选取问题.最后,考虑到对于聚类个数的选择往往对最终的结果有很大的影响,算法中采用贝叶斯信息准则来评估给定范围的聚类个数.实验结果表明,提出的算法有效地提高了聚类算法的准确性并减少了算法的响应时间.  相似文献   

16.
为了提高K-medoids算法的精度和稳定性,并解决K-medoids算法的聚类数目需要人工给定和对初始聚类中心点敏感的问题,提出了基于密度权重Canopy的改进K-medoids算法。该算法首先计算数据集中每个样本点的密度值,选择密度值最大的样本点作为第1个聚类中心,并从数据集中删除这个密度簇;然后通过计算剩下样本点的权重,选择出其他聚类中心;最后将密度权重Canopy作为K-medoids的预处理过程,其结果作为K-medoids算法的聚类数目和初始聚类中心。UCI真实数据集和人工模拟数据集上的仿真实验表明,该算法具有较高的精度和较好的稳定性。  相似文献   

17.
针对海量数据背景下K-means聚类结果不稳定和收敛速度较慢的问题,提出了基于MapReduce框架下的K-means改进算法。首先,为了能获得K-means聚类的初始簇数,利用凝聚层次聚类法对数据集进行聚类,并用轮廓系数对聚类结果进行初步评价,将获得数据集的簇数作为K-means算法的初始簇中心进行聚类;其次,为了能适应于海量数据的聚类挖掘,将改进的K-means算法部署在MapReduce框架上进行运算。实验结果表明,在单机性能上,该方法具有较高的准确率和召回率,同时也具有较强的聚类稳定性;在集群性能上,也具有较好的加速比和运行速度。  相似文献   

18.
关于模糊C-均值(FCM)聚类算法的改进   总被引:3,自引:0,他引:3  
针对模糊C-均值(FCM)聚类算法的容易收敛于局部极值的不足,提出了一种改进的模糊FCM聚类算法,此新算法在聚类中心选取和优化过程中进行了充分的考虑,是一种用于确定最佳聚类数的聚类算法,并且利用了分阶段思想,结合动态直接聚类算法和标准聚类算法,来尽量避免模糊C-均值(FCM)聚类算法的不足。新算法与传统(FCM)聚类算法方法相比,提高了算法的寻优能力,并且迭代次数更少,在准确度上也有较大的提高,具有很好的实际应用价值。  相似文献   

19.
Microarray technology has made it possible to monitor the expression levels of many genes simultaneously across a number of experimental conditions. Fuzzy clustering is an important tool for analyzing microarray gene expression data. In this article, a real-coded Simulated Annealing (VSA) based fuzzy clustering method with variable length configuration is developed and combined with popular Artificial Neural Network (ANN) based classifier. The idea is to refine the clustering produced by VSA using ANN classifier to obtain improved clustering performance. The proposed technique is used to cluster three publicly available real life microarray data sets. The superior performance of the proposed technique has been demonstrated by comparing with some widely used existing clustering algorithms. Also statistical significance test has been conducted to establish the statistical significance of the superior performance of the proposed clustering algorithm. Finally biological relevance of the clustering solutions are established.  相似文献   

20.
运用神经网络算法求解聚类问题是近年来的研究热点。弹性网络算法(ENA)是一种强大的神经网络算法,但其主要用于旅行商问题,很少用于求解聚类问题。面向聚类问题的特点,调整并优化了弹性网络的结构,提出了具有中心移动特性的弹性网络聚类算法(CMENA)。该算法依据聚类的目标调整并优化了弹性网络的能量函数,通过新能量函数的最小化,控制聚类中心神经元的移动,得到聚类结果,具有聚类过程可跟踪,聚类结果稳定等优点。通过大量实验证明,该算法聚类结果统一,与其他常用聚类算法相比,聚类效果显著提高。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号