首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 515 毫秒
1.
模糊K-Prototypes(FKP)算法能够对包含数值属性和分类属性相混合的数据集进行有效聚类,但是存在对初始值敏感、容易陷入局部极小值的问题.为了克服该缺点,提出了一种基于粒子群优化(PSO)算法和FKP算法的混合聚类算法,先利用PSO算法确定FKP的初始聚类中心,再将PSO聚类结果作为后续FKP算法的初始值.实验结果表明,新算法具有良好的收敛性和稳定性,聚类效果优于单一使用FKP算法.  相似文献   

2.
杨雪霞 《福建电脑》2011,27(6):9-10
大学图书馆读者数据中包含较多的数值型属性和类属性,因此细分聚类算法只能采用能够处理含有这两类数值属性的聚类算法,本文针对常用的混合属性数据聚类算法-模糊K-prototypes存在的初始参数选择困难等问题,提出了使用遗传算法为模糊K-prototypes寻找初始聚类中心的GA-FKP算法,克服了模糊K-prototyp...  相似文献   

3.
模糊-Modes聚类算法针对分类属性的数据进行聚类,使用爬山法来寻找最优解,因此该算法对初始值较为敏感。为了克服该缺点,提出一种动态的模糊K—Modes初始化算法,该方法能够自动确定聚类数目,以及对应的聚类中心;而且能够应用于数值属性和分类属性相混合的数据集。该初始化算法可以有效地克服模糊K—Modes算法对初值的敏感性。实验的结果表明了该初始化算法的可行性和有效性。  相似文献   

4.
在所有数据挖掘的算法中,聚类算法尤为重要。在实际应用中,数据大多是混合型的数据,既包含数值型,又包含分类型数据。因此,对混合数据进行聚类分析越来越重要。笔者首先介绍了聚类的定义,然后详细阐述了K-prototype聚类算法的基本原理,最后详细介绍了近年来各学者对混合类型数据的聚类算法的研究现状和其具体应用。  相似文献   

5.
针对基于密度的传统算法不能处理混合属性数据,以及目前的混合属性聚类算法大多数聚类质量不高等问题,提出了基于密度和混合距离度量方法的混合属性聚类算法.该算法通过分析混合属性数据特征,将混合属性数据分为数值占优、分类占优和均衡型混合属性数据3类,分析不同情况的特征选取相应的距离度量方式,通过预设参数能够发现数据密集区域,确定核心点,再利用核心点确定密度相连的对象实现聚类,获得最终的聚类结果.将算法应用于多种数据集上的实验结果表明,该算法具有较高的聚类质量,能够有效处理混合属性数据.  相似文献   

6.
基于距离与熵的混合属性数据流聚类算法   总被引:1,自引:0,他引:1  
针对越来越多的应用领域要求数据流聚类算法能处理同时包含数值属性特征与分类属性特征的数据,同时由于在已有的流数据聚类算法中,大多只针对单一数据类型的聚类,为此,提出混合属性数据流聚类算法.该算法在聚类分析过程中,同时利用数值属性与分类属性来定义聚类对象问的相异性,保存了对象的完整信息,使得聚类结果更能真实反映数据流中数据的分布情况.实验结果表明,该算法具有良好的聚类质量及较快的数据处理能力,同时具有良好的可扩展性.  相似文献   

7.
在许多应用中,很多数据集都具有数值型和分类型数据的混合特征,k-prototype是针对这类数据聚类的经典方法之一,该方法是一种基于k-means和k-mode的聚类方法。在研究了现有的混合属性数据聚类方法之后,引入了一种新算法用于混合型数据聚类,不仅改进了prototype的选取方法,而且提出了一种新的针对混合型数据的相似度度量方式,基于此又提出了一种不同于k-prototype的数据到prototype的分配方式,采用类似层次聚类中凝聚聚类的思想进行聚类,通过在四个真实的混合型数据集上测试发现:与传统算法相比,算法提高了聚类的精度和稳定性。  相似文献   

8.
在实际应用领域,常常存在同时包含数值型和分类型特征的混合数据。然而,已有的大多数聚类算法只能处理数值型或分类型单一类型数据,因此,提出一个基于划分的混合数据聚类算法。首先给出K-Prototypes算法中分类型数据类中心的多Modes表示方式,进而将传统的欧式距离扩展到混合数据,使之能够在相同框架下更加精确地反映对象与类之间的相异性,在此基础上提出一个用于处理混合数据的划分式聚类算法。最后,在UCI数据集上的实验结果表明,与K-Prototypes算法相比,所提出的算法能够有效提高聚类质量。  相似文献   

9.
目前大部分聚类算法只适用于处理属性取值为单值的数值型数据,介绍了一种新的基于粗糙集理论的聚类算法,该算法不仅可用于取值为单值的数值型数据聚类,而且能够用于取值为多值的非数值型数据聚类.该算法利用基于相容关系的属性最小覆盖来求解对象各属性的对象属性信息粒.在此基础上,通过对象属性信息粒和对象粗糙相似度的运算构建各对象的相容粒.最后,把具有相同相容粒的对象视为同一等价类,从而实现对论域的聚类,进而对数据对象进行层次聚类.实验结果表明,该算法是可行的.  相似文献   

10.
聚类算法是数据挖掘中的重要方法,针对现有适用类属性和混合型属性的数据集聚类算法如k-modes算法、k-prototypes算法和模糊k-prototypes算法等的不足,提出一种新的方法——类属性分解法。这种方法有更高的稳定性和可靠性,并能有效地减少随机性。  相似文献   

11.
Almost all subspace clustering algorithms proposed so far are designed for numeric datasets. In this paper, we present a k-means type clustering algorithm that finds clusters in data subspaces in mixed numeric and categorical datasets. In this method, we compute attributes contribution to different clusters. We propose a new cost function for a k-means type algorithm. One of the advantages of this algorithm is its complexity which is linear with respect to the number of the data points. This algorithm is also useful in describing the cluster formation in terms of attributes contribution to different clusters. The algorithm is tested on various synthetic and real datasets to show its effectiveness. The clustering results are explained by using attributes weights in the clusters. The clustering results are also compared with published results.  相似文献   

12.
模糊K Prototypes(FKP)算法融合了K Means和K Modes对数值型和符号型数据的处理方法,适合于混合类型数据的聚类分析。同时,模糊技术使得FKP适合于处理含有噪声和缺少数据的数据库。但是,在使用FCM(FuzzyC Meansalgorithm)或FKP算法时,如何选取加权指数α仍是悬而未决的问题。许多研究者基于他们的实验结果给出FCM中的最佳加权指数可能位于区间 [1. 5,2. 5],本文则提出了一个FKP中加权指数的探寻算法。在多个实际数据集上的实验结果表明,为进行有效的聚类,FKP中加权指数应该小于 1. 5。  相似文献   

13.
The k-means algorithm is well known for its efficiency in clustering large data sets. However, working only on numeric values prohibits it from being used to cluster real world data containing categorical values. In this paper we present two algorithms which extend the k-means algorithm to categorical domains and domains with mixed numeric and categorical values. The k-modes algorithm uses a simple matching dissimilarity measure to deal with categorical objects, replaces the means of clusters with modes, and uses a frequency-based method to update modes in the clustering process to minimise the clustering cost function. With these extensions the k-modes algorithm enables the clustering of categorical data in a fashion similar to k-means. The k-prototypes algorithm, through the definition of a combined dissimilarity measure, further integrates the k-means and k-modes algorithms to allow for clustering objects described by mixed numeric and categorical attributes. We use the well known soybean disease and credit approval data sets to demonstrate the clustering performance of the two algorithms. Our experiments on two real world data sets with half a million objects each show that the two algorithms are efficient when clustering large data sets, which is critical to data mining applications.  相似文献   

14.
15.
Gath–Geva (GG) algorithm is one of the most popular methodologies for fuzzy c-means (FCM)-type clustering of data comprising numeric attributes; it is based on the assumption of data deriving from clusters of Gaussian form, a much more flexible construction compared to the spherical clusters assumption of the original FCM. In this paper, we introduce an extension of the GG algorithm to allow for the effective handling of data with mixed numeric and categorical attributes. Traditionally, fuzzy clustering of such data is conducted by means of the fuzzy k-prototypes algorithm, which merely consists in the execution of the original FCM algorithm using a different dissimilarity functional, suitable for attributes with mixed numeric and categorical attributes. On the contrary, in this work we provide a novel FCM-type algorithm employing a fully probabilistic dissimilarity functional for handling data with mixed-type attributes. Our approach utilizes a fuzzy objective function regularized by Kullback–Leibler (KL) divergence information, and is formulated on the basis of a set of probabilistic assumptions regarding the form of the derived clusters. We evaluate the efficacy of the proposed approach using benchmark data, and we compare it with competing fuzzy and non-fuzzy clustering algorithms.  相似文献   

16.
Clustering is a widely used technique in data mining applications for discovering patterns in underlying data. Most traditional clustering algorithms are limited to handling datasets that contain either numeric or categorical attributes. However, datasets with mixed types of attributes are common in real life data mining applications. In this article, we present two algorithms that extend the Squeezer algorithm to domains with mixed numeric and categorical attributes. The performance of the two algorithms has been studied on real and artificially generated datasets. Comparisons with other clustering algorithms illustrate the superiority of our approaches. © 2005 Wiley Periodicals, Inc. Int J Int Syst 20: 1077–1089, 2005.  相似文献   

17.
为了满足数据分析中获取含有混合属性的数据集聚类的边界需求, 提出一种混合属性数据集的聚类边界检测算法(BERGE). 该算法利用模糊聚类隶属度定义边界因子以识别候选边界集, 然后运用证据积累的思想提取聚类的边界. 在综合数据集和真实数据集上的实验结果表明, BERGE 算法能有效地检测混合属性数据集、数值属性数据集以及分类属性数据集的聚类边界, 与现有同类算法相比具有更高的精度.  相似文献   

18.
在现实世界中经常遇到混合数值属性和分类属性的数据, k-prototypes是聚类该类型数据的主要算法之一。针对现有混合属性聚类算法的不足,提出一种基于分布式质心和新差异测度的改进的 k-prototypes 算法。在新算法中,首先引入分布式质心来表示簇中的分类属性的簇中心,然后结合均值和分布式质心来表示混合属性的簇中心,并提出一种新的差异测度来计算数据对象与簇中心的距离,新差异测度考虑了不同属性在聚类过程中的重要性。在三个真实数据集上的仿真实验表明,与传统的聚类算法相比,本文算法的聚类精度要优于传统的聚类算法,从而验证了本文算法的有效性。  相似文献   

19.
余泽 《计算机系统应用》2014,23(12):125-130
混合属性聚类是近年来的研究热点,对于混合属性数据的聚类算法要求处理好数值属性以及分类属性,而现存许多算法没有很好得平衡两种属性,以至于得不到令人满意的聚类结果.针对混合属性,在此提出一种基于交集的聚类融合算法,算法单独用基于相对密度的算法处理数值属性,基于信息熵的算法处理分类属性,然后通过基于交集的融合算法融合两个聚类成员,最终得到聚类结果.算法在UCI数据集Zoo上进行验证,与现存k-prototypes与EM算法进行了比较,在聚类的正确率上都优于k-prototypes与EM算法,还讨论了融合算法中交集元素比的取值对算法结果的影响.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号